콘텐츠로 건너뛰기

YOLOv10 YOLOv7: 실시간 객체 감지 아키텍처의 발전

실시간 애플리케이션을 위한 속도와 정확성의 균형을 맞추며 컴퓨터 비전의 경계를 지속적으로 넓혀온 YOLO (You Only Look Once) 제품군의 진화. 이 비교에서는 아키텍처의 변화와 성능 차이를 살펴봅니다. YOLOv10과 칭화대학교 연구진이 발표한 최신 모델인 YOLOv7의 영향력이 큰 모델에 대해 살펴봅니다. 두 모델 모두 물체 감지 분야에 상당한 공헌을 했지만, 성능 목표를 달성하기 위해 서로 다른 전략을 사용합니다.

모델 아키텍처의 진화

YOLOv7 YOLOv10 전환은 신경망이 후처리 및 기능 통합을 처리하는 방식의 패러다임 전환을 의미합니다.

YOLOv10: NMS 혁명

YOLOv10는 2024년 5월 23일에 발표된 칭화대학교의 아오 왕, 후이 등의 논문으로, 획기적인 NMS 훈련 전략을 소개합니다. 기존 객체 감지기는 중복된 경계 상자를 필터링하기 위해 비최대 억제(NMS) 에 의존하는데, 이는 추론 대기 시간에 병목 현상을 일으킬 수 있습니다.

YOLOv10 일관된 이중 할당을 사용하여 NMS 필요 NMS 훈련을 통해 모델이 고유한 객체 인스턴스를 직접 예측할 수 있습니다. 전체적인 효율성-정확도 중심의 모델 설계와 결합하여 경량 분류 헤드와 공간 채널 분리형 다운샘플링을 비롯한 다양한 구성 요소를 최적화하여 계산 중복을 줄입니다.

YOLOv10 대해 자세히 알아보기

YOLOv7: 훈련 가능한 공짜 가방에 최적화됨

YOLOv7은 2022년 7월 6일에 발표된 왕치엔야오, 알렉세이 보흐코브스키, 홍위안 마크 랴오가 아카데미아 시니카에서 추론 비용 증가 없이 학습 과정을 최적화하는 데 초점을 맞췄습니다. 경사 경로를 제어하여 네트워크의 학습 능력을 향상시키는 확장된 효율적인 레이어 집계 네트워크(E-ELAN)를 도입했습니다.

YOLOv7 추론 속도에 영향을 주지 않으면서 학습 중 정확도를 향상시키는 방법인 '백 오브 프리비'와 파라미터를 효율적으로 조합하는 모델 확장 기술을 적극 활용합니다. 매우 효과적이지만, 기존 NMS 후처리에 의존하기 때문에 엔드투엔드 지연 시간이 NMS 사용하지 않는 최신 아키텍처보다 높은 경우가 많습니다.

YOLOv7 대해 자세히 알아보기

기술 성능 비교

이러한 모델을 평가할 때 효율성과 원시 탐지 기능에 대해 뚜렷한 패턴이 나타납니다. YOLOv10 일반적으로 YOLOv7 비해 훨씬 적은 수의 매개변수와 빠른 추론 시간으로 비슷하거나 더 나은 mAP (평균 정밀도) 를 달성하여 뛰어난 효율성을 제공합니다.

아래 표는 COCO 데이터 세트의 주요 메트릭에 대한 개요입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

효율성 인사이트

이 데이터는 리소스가 제한된 환경에서 YOLOv10 중요한 이점을 강조합니다. YOLOv10m은 YOLOv7l (51.4% mAP)과 거의 동일한 정확도(51.3% mAP)를 달성하면서도 매개변수는 절반 이하 (15.4M 대 36.9M)로, FLOP은 훨씬 낮은(59.1B 대 104.7B) 수준으로 달성합니다.

지연 시간 및 처리량

YOLOv10 NMS 단계를 제거하여 혼잡한 장면에서 흔히 볼 수 있는 지연 시간 편차를 크게 줄였습니다. 밀리초 단위가 중요한 자율 주행 차량이나 드론 감시와 같은 애플리케이션에서 YOLOv10 예측 가능한 추론 시간은 안전에 매우 중요한 이점을 제공합니다. YOLOv7 하이엔드 GPU에서 처리량 면에서 경쟁력을 유지하지만 비슷한 결과를 얻기 위해 더 많은 메모리와 계산을 소비합니다.

사용 사례 및 응용 분야

아키텍처의 차이에 따라 각 모델에 이상적인 배포 시나리오가 결정됩니다.

YOLOv10 위한 이상적인 시나리오

  • 엣지 AI: 매개변수 수와 플롭 수가 적기 때문에 YOLOv10 라즈베리 파이나 NVIDIA 젯슨과 같은 디바이스에 적합합니다.
  • 실시간 비디오 분석: 빠른 추론 속도로 트래픽 관리 및 리테일 분석을 위한 높은 FPS 처리를 지원합니다.
  • 로봇 공학: 지연 시간이 짧아지면 로봇 탐색 및 조작 작업의 반응 시간이 빨라집니다.

YOLOv7 이상적인 시나리오

  • 레거시 시스템: 이미 YOLOv7 코드베이스와 통합된 프로젝트는 즉각적인 리팩토링 없이도 충분히 안정적으로 유지 관리할 수 있습니다.
  • 범용 탐지: VRAM이 풍부한 서버 측 배포의 경우, YOLOv7 대형 모델은 여전히 강력한 탐지 기능을 제공하지만 다음과 같은 최신 대안보다 효율성은 떨어집니다. YOLO11.

Ultralytics 이점

두 모델 모두 강력하지만, Ultralytics 에코시스템을 활용하면 개발자와 연구자에게 뚜렷한 이점을 제공합니다. Ultralytics 프레임워크는 교육, 검증 및 배포를 위한 인터페이스를 표준화하여 모델 간에 전환하고 성능을 벤치마크하기가 훨씬 더 쉬워집니다.

사용 편의성 및 교육 효율성 향상

딥러닝의 주요 장벽 중 하나는 학습 파이프라인의 복잡성입니다. YOLOv10 및 YOLO11을 포함한 울트라 애널리틱스 모델은 데이터 증강, 하이퍼파라미터 튜닝, 내보내기를 자동으로 처리하는 간소화된 Python API를 활용합니다.

  • 간단한 API: 몇 줄의 코드로 모델을 학습시킬 수 있습니다.
  • 메모리 효율성: Ultralytics 최적화는 종종 원시 구현에 비해 훈련 중에 CUDA 메모리 사용량을 낮춥니다.
  • 사전 학습된 가중치: 다음에서 사전 학습된 고품질 모델에 액세스 ImageNet 을 통해 전이 학습을 가속화합니다.

작업 전반에 걸친 다양한 활용성

최신 Ultralytics 모델은 단순한 바운딩 박스 감지를 넘어 확장됩니다. 동일한 프레임워크 내에서 인스턴스 세분화, 포즈 추정, OBB(지향 객체 감지)분류를 지원합니다. 이러한 다목적성은 구형 독립형 리포지토리에 비해 큰 장점입니다.

코드 예제: Ultralytics YOLOv10 실행하기

다음 예는 Ultralytics API를 사용하여 사전 학습된 YOLOv10 모델을 로드하고 추론을 실행하는 것이 얼마나 간단한지 보여줍니다. 이러한 사용 편의성은 YOLOv7 같은 구형 아키텍처에서 종종 수동 설정이 필요한 것과는 대조적입니다.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

결론 및 권장 사항

새 프로젝트의 경우, YOLOv10 또는 더 진보된 YOLO11 을 권장합니다. YOLOv10 NMS 사용하지 않는 아키텍처는 속도와 정확성의 탁월한 균형을 제공하여 최신 엣지 컴퓨팅 요구사항에 매우 적합합니다. 이전 세대의 지연 시간 병목 현상을 해결하면서 컴퓨팅 풋프린트를 줄입니다.

비록 YOLOv7 은 컴퓨터 비전 역사에서 존경받는 이정표로 남아 있지만, 오늘날의 기준으로는 그 아키텍처의 효율성이 떨어집니다. 최고의 성능, 장기적인 유지 관리 및 배포 용이성을 원하는 개발자는 지속적인 업데이트와 광범위한 도구 지원을 제공하는Ultralytics 에코시스템이비전 AI 솔루션 구축에 가장 생산적인 환경이라는 것을 알게 될 것입니다.

자세히 알아보기


댓글