YOLOv9 YOLO: 실시간 객체 탐지의 진화

실시간 객체 탐지의 진화는 정확도와 지연 시간 사이의 최적 균형을 끊임없이 추구해온 과정으로 특징지어집니다. 이 상세한 비교에서 우리는 두 가지 중요한 아키텍처를 탐구합니다: YOLOv9는 프로그래머블 그라디언트 정보(PGI)와 일반화된 효율적 레이어 집계 네트워크(GELAN)로 유명하며, YOLO 신경망 아키텍처 검색(NAS)과 반복 매개변수화 기법을 통해 최적화된 모델 계열입니다.

또한 최신 세대인 YOLO26을 소개합니다. 이 모델은 엔드투엔드 NMS 프리 설계와 에지 디바이스 최적화를 통해 이러한 한계를 더욱 확장합니다.

비교 성능 지표

다음 표는 COCO 데이터셋에서 주요 성능 지표를 직접 비교한 것입니다. YOLOv9 동등한 모델 크기 대비 우수한 매개변수 효율성과 종종 더 높은 정확도를 YOLOv9 .

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9: 프로그래밍 가능한 그래디언트 정보

YOLOv9 딥 러닝 아키텍처 설계에서 상당한 도약을 이루며, 딥 네트워크에 내재된 정보 병목 현상 문제를 해결합니다.

저자: Chien-Yao Wang, Hong-Yuan Mark Liao
조직:정보 과학 연구소, 아카데미아 시니카
날짜:21
Arxiv:YOLOv9: 프로그래밍 가능한 기울기 정보를 사용하여 학습하고자 하는 것을 학습하기
GitHub:WongKinYiu/yolov9

주요 아키텍처 혁신

프로그래머블 그라디언트 정보(PGI): 네트워크가 깊어질수록 피드포워드 과정에서 중요한 특징 정보가 종종 손실됩니다. PGI는 훈련 중 주 분기에 신뢰할 수 있는 그라디언트 정보를 제공하는 보조 가역 분기를 도입합니다. 이를 통해 네트워크가 정확한 탐지를 위한 핵심 특징을 유지하도록 보장하며, 추론 비용을 추가하지 않고도 "정보 병목 현상" 문제를 효과적으로 해결합니다.
GELAN 백본: 일반화된 효율적 레이어 집계 네트워크(GELAN)는 CSPNet과 ELAN의 장점을 결합합니다. 이는 ResBlock이나 CSP 블록과 같은 유연한 계산 블록 선택을 허용하면서 매개변수 활용도를 극대화합니다. 그 결과 가벼우면서도 놀라울 정도로 강력한 모델을 구현합니다.

이러한 혁신으로 YOLOv9 범용 객체 탐지에 YOLOv9 효과적이며, 특히 복잡한 장면에서 미세한 세부 사항을 유지하는 데 탁월합니다.

9에 대해 자세히 알아보기

YOLO: 신경망 구조 탐색 최적화

YOLO 효율적인 아키텍처를 자동으로 발견하고 성능 향상을 위해 디스틸레이션 기법을 활용하는 데 중점을 둡니다.

저자: 쉬셴저, 장이치, 천웨이화, 황이룬, 장위안, 쑨시위
Organization: Alibaba Group
날짜:23
Arxiv:YOLO: 실시간 객체 감지 설계에 관한 보고서
GitHub:YOLO

아키텍처 하이라이트

YOLO 신경망 구조 탐색(NAS) 기술을YOLO 백본인 MAE-NAS를 구축합니다. 이 접근법은 특정 지연 시간 제약 조건 내에서 최적의 네트워크 구조를 찾는 것을 목표로 합니다. 또한 효율적인 RepGFPN(재매개변수화된 일반화 피라미드 특징 네트워크)을 사용하여 서로 다른 스케일의 특징을 융합합니다. 이 모델은 또한 "ZeroHead"와 증류 강화 기법에 크게 의존하는데, 여기서 더 큰 교사 모델이 더 작은 학생 모델의 훈련을 안내하여 정확도를 향상시킵니다.

혁신적이긴 하지만, NAS와 복잡한 정제 파이프라인에 의존하는 방식은 YOLOv9 모듈식 설계에 비해 결과 재현이나 맞춤형 작업에 대한 아키텍처 수정을 더 어렵게 만들 수 있다.

Ultralytics : 생태계와 사용 편의성

두 아키텍처 모두 강력한 이론적 기여를 제공하지만, 개발자의 실제 경험은 크게 다릅니다. YOLOv9 YOLO26을 포함한 Ultralytics 원활한 '마찰 없는' 경험을 제공합니다.

간소화된 워크플로

YOLO 훈련에는 종종 복잡한 구성 파일과 특정 환경 설정(예: PaddlePaddle 특정 CUDA )이 필요합니다. 반면 Ultralytics Python 워크플로를 표준화합니다. 최신 모델을 몇 분 만에 로드, 훈련 및 배포할 수 있습니다.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

다용도성과 작업 지원

Ultralytics 바운딩 박스에 국한되지 않습니다. 이 프레임워크는 인스턴스 세그멘테이션, 포즈 추정, 방향성 바운딩 박스(OBB) 탐지를 기본적으로 지원합니다. 이러한 다용도성 덕분에 팀은 새로운 라이브러리를 학습하지 않고도 작업 간 전환이 가능합니다. 반면YOLO 주로 표준 탐지에 초점을YOLO , 이러한 복잡한 다운스트림 작업에 대한 통합 지원은 상대적으로 부족합니다.

교육 효율성 및 메모리

Ultralytics YOLO 효율성을 위해 설계되었습니다. 변환기 중심 아키텍처나 비정형 메모리 접근 패턴을 가질 수 있는 NAS 생성 모델에 비해 훈련 중 일반적으로 GPU 적은 GPU 요구합니다. 이를 통해 연구자들은 소비자 등급 하드웨어에서 강력한 모델을 훈련할 수 있어, 고급 컴퓨터 비전 기술에 대한 접근성을 확대합니다.

실제 응용 분야

적합한 모델 선택은 배포 제약 조건과 성능 목표에 따라 달라집니다.

YOLOv9의 이상적인 사용 사례

소매 분석: YOLOv9c의 높은 정확도는 가림 현상이 흔히 발생하는 혼잡한 진열대에서 제품 감지에 탁월합니다.
의료 영상: PGI 아키텍처는 중요한 특징 정보를 보존하는 데 도움이 되며, 이는 의료 스캔에서 작은 이상을 감지하거나 골절을 식별할 때 매우 중요합니다.
범용 감시: 높은 mAP 합리적인 FPS의 균형이 필요한 표준 보안 영상에 적합합니다.

DAMO-YYOLO의 이상적인 사용 사례

제한된 하드웨어 검색: 표준 백본이 작동하지 않는 매우 독특한 하드웨어 제약 조건에 특화된 백본을 찾기 위해 NAS 연구를 수행 중인 경우.
학술적 벤치마킹: 증류 기법의 효능을 구조적 재매개변수화와 비교하는 연구자들을 위한.

왜 YOLO26이 미래인가

2026년에 신규 프로젝트를 시작하는 개발자에게 YOLO26은 가장 매력적인 기능 세트를 제공합니다. YOLOv9 강점을 기반으로 YOLOv9 엔드투엔드 NMS(NMS-free) 설계를 도입하여 비최대 억제(NMS) 후처리 작업이 필요하지 않습니다. 이는 특히 에지 디바이스에서 배포를 크게 단순화하고 지연 시간을 줄여줍니다.

YOLO26에 대해 더 알아보기

YOLO26의 주요 혁신 사항은 다음과 같습니다:

MuSGD 최적화기: SGD 뮤온의 하이브리드로, 훈련을 안정화하고 수렴 속도를 높여 대규모 언어 모델(LLM) 훈련의 안정성을 비전 분야에 도입합니다.
DFL 제거: 분포 초점 손실(Distribution Focal Loss) 제거는 모델 그래프를 단순화하여 ONNX 및 TensorRT 으로의 내보내기를 원활하게 합니다.
향상된 소형 물체 탐지: ProgLoss와 STAL을 통해 YOLO26은 항공 영상 및 드론 응용 분야에서 탁월한 성능을 발휘합니다.

배포를 미래에 대비하세요

YOLO26으로 마이그레이션하면 애플리케이션이 최신 에지 최적화 기술의 혜택을 누릴 수 있습니다. 네이티브 엔드투엔드 설계로 CPU 및 NPU에서 더 빠른 추론이 가능하며, 이는 배터리 구동 IoT 기기에 매우 중요합니다.

결론

YOLO 신경망 구조 탐색 및 증류와 관련하여 흥미로운 개념을YOLO , YOLOv9 과 최신 버전인 YOLO26은 대부분의 컴퓨터 비전 애플리케이션에 더 실용적이고 강력하며 사용자 친화적인 솔루션을 제공합니다. Ultralytics 방대한 문서와 커뮤니티 지원을 바탕으로 개발자가 모델 훈련, 추적 및 배포를 위한 최고의 도구를 이용할 수 있도록 보장합니다.

모델 아키텍처에 대한 추가적인 탐구를 위해, YOLOv10 YOLO 또는 YOLO11 YOLOv9 비교 분석을 검토해 보시기 바랍니다.