콘텐츠로 건너뛰기

YOLO YOLOv10: 물체 감지 진화에 대한 심층 분석

올바른 객체 감지 모델을 선택하는 것은 배포 비용부터 사용자 경험에 이르기까지 모든 것에 영향을 미치는 중요한 결정입니다. 이 기술 비교에서는 알리바바 그룹의 연구 중심 모델인 YOLOYOLOv10과 칭화대학교 연구진이 개발하여 Ultralytics 에코시스템에 통합된 최신 실시간 엔드투엔드 탐지기의 차이점을 살펴봅니다.

두 모델 모두 속도와 정확도 사이의 균형을 최적화하는 것을 목표로 하지만, 아키텍처 전략은 크게 다릅니다. 이 분석에서는 기술 사양, 성능 메트릭, 이상적인 사용 사례를 자세히 살펴보고 컴퓨터 비전의 복잡한 환경을 탐색하는 데 도움을 줍니다.

성능 지표

아래 표는 COCO 데이터 세트의 효율성과 정확도를 직접 비교한 것입니다. 주요 내용은 매개변수 효율성과 추론 속도를 포함합니다. YOLOv10 은 NMS 설계로 인해 상당한 이점을 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLO: 연구 중심의 혁신

2022년 말에 출시될 YOLO 고급 신경 구조 검색과 새로운 기능 융합 기술을 통해 YOLO 탐지기의 경계를 넓히려는 알리바바 그룹의 중요한 노력의 결과물입니다.

기술 세부 정보:
저자: Xianzhe Xu, Yiqi Jiang, Weihua Chen 등
조직:알리바바 그룹
날짜: 2022-11-23
아카이브:https://arxiv.org/abs/2211.15444v2
GitHubYOLO

DAMO-YOLO에 대해 자세히 알아보세요.

아키텍처 및 주요 기능

YOLO 여러 가지 최첨단 개념을 통합하여 성능을 구현합니다:

  1. 신경망 아키텍처 검색(NAS): 수동으로 설계된 백본이 있는 모델과 달리 YOLO MAE-NAS를 활용하여 효율적인 네트워크 구조를 자동으로 검색하여 특정 하드웨어 제약 조건에 맞게 네트워크의 깊이와 폭을 최적화합니다.
  2. RepGFPN Neck: 이 피처 피라미드 네트워크는 재파라미터화를 사용하여 피처 융합을 효율적으로 관리합니다. 이를 통해 복잡한 학습 시간 구조를 더 간단한 추론 시간 블록으로 축소하여 정확도를 유지하면서 속도를 높일 수 있습니다.
  3. 제로헤드 및 AlignedOTA: 이 모델은 '제로헤드' 설계를 사용해 감지 헤드의 복잡성을 줄이고, 훈련 중 라벨 할당을 처리하는 데 AlignedOTA(최적 전송 할당)를 사용해 분류와 회귀 작업 간의 정렬 불일치 문제를 해결합니다.

복잡성 고려 사항

YOLO 인상적인 혁신을 도입했지만, NAS와 특수 구성 요소에 의존하기 때문에 교육 파이프라인이 더 복잡해지고 광범위한 튜닝 없이 다양한 하드웨어에 빠르게 사용자 지정하거나 배포해야 하는 개발자의 접근성이 떨어질 수 있습니다.

강점과 약점

  • 강점: 특히 출시 당시에는 강력한 정확도를 제공했으며, 소형 모델을 위한 증류 향상과 같은 새로운 개념을 도입했습니다.
  • 약점: YOLO 둘러싼 에코시스템은 주로 MMDetection 프레임워크에 연결되어 있어 사용자 친화적인 Ultralytics 에코시스템에 비해 학습 곡선이 더 가파를 수 있습니다. 또한, 기존의 NMS 사후 처리가 필요하므로 지연 시간이 길어집니다.

YOLOv10: 엔드투엔드 실시간 탐지 시대

칭화대학교 연구진이 2024년 5월에 발표한 YOLOv10 YOLO 계보의 패러다임 전환을 의미합니다. 비최대 억제NMS의 필요성을 제거함으로써 진정한 엔드투엔드 성능을 달성하여 추론 지연 시간을 크게 줄입니다.

기술 세부 정보:
저자: Ao Wang, Hui Chen, Lihao Liu 등
조직:칭화대학교
날짜: 2024-05-23
아카이브:https://arxiv.org/abs/2405.14458
깃허브:https://github.com/THU-MIG/yolov10
문서ultralytics


YOLOv10 대해 자세히 알아보기

아키텍처 및 혁신

YOLOv10 아키텍처와 포스트 프로세싱 파이프라인을 모두 대상으로 하는 총체적인 효율성에 중점을 둡니다:

  1. NMS 설계: 일관된 이중 할당이라는 전략을 통해 YOLOv10 일대다 및 일대일 레이블 할당을 모두 사용하여 학습합니다. 이를 통해 모델은 추론 중에 각 객체에 대해 하나의 최적 박스를 예측할 수 있으므로 NMS 필요 없게 됩니다. 이는 후처리가 종종 병목 현상이 발생할 수 있는 실시간 추론에 매우 중요한 이점입니다.
  2. 총체적인 효율성-정확도 설계: 이 아키텍처는 경량 분류 헤드와 공간 채널 디커플링 다운샘플링을 특징으로 합니다. 이러한 최적화를 통해 계산 중복성을 줄여 이전 세대에 비해 FLOP과 매개변수 수가 줄어듭니다.
  3. 랭크 가이드 블록 설계: 이 모델은 여러 단계의 중복성을 기반으로 내부 블록 설계를 조정하여 효율성이 필요한 경우 컴팩트 인버티드 블록(CIB)을 사용하고 기능 향상이 중요한 경우 부분적 자체 주의(PSA)를 사용합니다.

Ultralytics 사용 편의성

YOLOv10 가장 중요한 장점 중 하나는 Ultralytics 에코시스템에 원활하게 통합된다는 점입니다. 개발자는 다음과 같은 간단한 API를 사용하여 YOLOv10 교육, 검증 및 배포할 수 있습니다. YOLOv8YOLO11.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

비교 분석

YOLO YOLOv10 비교할 때, 효율성에 대한 접근 방식과 운영 에코시스템에 차이가 있습니다.

속도 및 지연 시간

YOLOv10 실제 지연 시간에서 뚜렷한 이점이 있습니다. 표준 YOLO 모델(및 YOLO)은 겹치는 바운딩 박스를 필터링하기 위해 NMS(Non-Maximum Suppression) 가 필요합니다. NMS 실행 시간은 감지된 오브젝트 수에 따라 달라지므로 예측할 수 없는 지연 시간을 유발합니다. YOLOv10 엔드투엔드 설계는 결정론적 지연 시간을 제공하므로 자율 주행이나 고속 산업용 로봇과 같이 시간이 중요한 애플리케이션에 탁월합니다.

리소스 효율성

성능 표에서 볼 수 있듯이 YOLOv10s는 절반 이하의 매개변수(7.2M 대 16.3M)를 사용하면서도 YOLO (46.0%)보다 더 높은 mAP (46.7%)를 달성합니다. 이러한 메모리 사용량 감소는 엣지 배포에 매우 중요합니다. Ultralytics 모델은 학습과 추론 모두에서 메모리 요구량이 낮아 다른 아키텍처에서는 메모리 부족(OOM) 오류로 어려움을 겪을 수 있는 소비자급 GPU에서도 학습이 가능한 것으로 잘 알려져 있습니다.

에코시스템 및 지원

YOLO 강력한 학술적 기여를 하는 반면, YOLOv10 잘 관리된 Ultralytics 에코시스템의 혜택을 받습니다. 여기에는 다음이 포함됩니다:

  • 활발한 개발: 잦은 업데이트 및 버그 수정.
  • 커뮤니티 지원: GitHub와 Discord의 대규모 개발자 커뮤니티.
  • 문서: 데이터 보강부터 배포까지 모든 것을 다루는 광범위한 문서.
  • 훈련 효율성: 자동 혼합 정밀도(AMP) 및 GPU GPU 트레이닝과 같은 기능을 지원하는 간소화된 루틴을 바로 사용할 수 있습니다.

탐지 그 이상

프로젝트에 인스턴스 분할, 포즈 추정, 방향성 오브젝트 감지(OBB) 등 바운딩 박스 이상의 다양한 기능이 필요한 경우 다음을 살펴보세요. YOLO11 또는 YOLOv8. YOLOv10 순수 감지에 탁월하지만, 광범위한 Ultralytics 제품군은 이러한 복잡한 멀티태스킹 요구 사항을 위한 최첨단 솔루션을 제공합니다.

이상적인 사용 사례

YOLOv10 선택해야 하는 경우

  • 엣지 AI 및 IoT: 매개변수 수가 적기 때문에(예: 2.3M 매개변수에서 YOLOv10n) 라즈베리 파이나 NVIDIA 젯슨과 같은 디바이스에 적합합니다.
  • 실시간 비디오 분석: NMS 제거하면 트래픽 모니터링이나 보안 피드에 필수적인 일관된 프레임 속도를 보장할 수 있습니다.
  • 빠른 개발: 데이터에서 배포까지 신속하게 진행해야 하는 팀은 직관적인 ultralytics Python API 및 Ultralytics HUB.

DAMO-YOLO를 고려해야 하는 경우

  • 학술 연구: 신경망 아키텍처 검색(NAS) 또는 피처 피라미드 최적화를 연구하는 연구자들은 YOLO 아키텍처가 유용한 참고 자료가 될 수 있습니다.
  • 레거시 파이프라인: 이미 MMDetection 프레임워크에 깊이 통합된 프로젝트는 프레임워크를 전환하는 것보다 YOLO 채택하는 것이 더 쉬울 수 있습니다.

결론

두 모델 모두 컴퓨터 비전의 중요한 이정표입니다. YOLO 2022년에 NAS의 강력한 성능과 고급 기능 융합을 선보였습니다. 그러나 2024년 이후에는 최신 애플리케이션을 위해, YOLOv10 은 더욱 강력한 패키지를 제공합니다. NMS 엔드투엔드 아키텍처는 객체 감지의 오랜 병목 현상을 해결하고, Ultralytics 에코시스템에 통합되어 접근성, 유지보수, 배포 용이성을 보장합니다.

속도, 정확성, 사용 편의성 사이에서 최상의 균형을 추구하는 개발자를 위해 다용도로 사용할 수 있는 YOLOv10YOLO11-과 함께 강력한 AI 솔루션 구축을 위한 탁월한 선택입니다.


댓글