YOLOv9 YOLO: 객체 탐지 모델의 기술적 비교

컴퓨터 비전의 급속한 발전은 다양한 배포 제약 조건과 정확도 요구 사항에 맞춰 설계된 강력한 아키텍처들을 다수 탄생시켰습니다. 이 분야에서 주목할 만한 두 가지 사례는 YOLOv9로, 정보 병목 현상을 견고하게 처리하는 것으로 유명하며, YOLO 신경망 구조 탐색(NAS)과 효율적인 피라미드 구조에 중점을 둔다.

이 가이드는YOLO 심층적인 기술적 비교를 제공하며, 두 모델의 아키텍처 차이점, 훈련 방법론, 그리고 이상적인 배포 시나리오를 강조합니다. 또한 Ultralytics 개발부터 생산 환경까지 원활한 전환 경로를 제공하는 방식과, YOLO26과 같은 최신 모델이 신규 프로젝트의 권장 표준이 된 이유를 살펴보겠습니다.

심층적인 아키텍처 분석

각 모델을 주도하는 핵심 메커니즘을 이해하면 다양한 지표에서 서로 다른 성능을 보이는 이유를 알 수 있다.

YOLOv9: 프로그래밍 가능한 그래디언트 정보

YOLOv9 데이터가 심층 신경망을 통과할 때 발생하는 정보 손실을 직접 해결하기 위해 YOLOv9 .

저자: 왕천야오(Chien-Yao Wang), 마크 리아오홍위안(Hong-Yuan Mark Liao)
소속 기관: 대만 중앙연구원 정보과학연구원(Institute of Information Science, Academia Sinica, Taiwan)
날짜: 2024년 2월 21일
링크:Arxiv, GitHub, Docs

9에 대해 자세히 알아보기

YOLOv9 프로그래머블 그라디언트 정보(PGI) 와 일반화된 효율적 레이어 집계 네트워크(GELAN)를 YOLOv9 . PGI는 전방 전달 과정에서 중요한 공간적·의미적 정보가 유지되도록 하여 가중치 업데이트에 사용되는 그라디언트의 저하를 방지합니다. GELAN은 매개변수 효율성을 극대화하여 이를 보완함으로써, 기존 CNN보다 적은 연산량(FLOPs)으로 최첨단 평균 정밀도(mAP)를 달성할 수 있게 합니다.

YOLO: NAS 중심 효율성

Alibaba Group이 개발한 DAMO-YOLO는 다른 접근 방식을 취하며, 자동화된 아키텍처 검색을 활용하여 속도와 정확도 사이의 최적 균형을 찾습니다.

저자: 쉬셴저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속: 알리바바 그룹
날짜: 2022년 11월 23일
링크:Arxiv, GitHub

DAMO-YOLO에 대해 자세히 알아보세요.

DAMO-YOLO는 효율적인 네트워크 구조를 자동으로 생성하기 위해 MAE-NAS (Masked Autoencoders for Neural Architecture Search) 백본에 의존합니다. 이는 강력한 특징 융합을 위해 RepGFPN (Reparameterized Generalized Feature Pyramid Network)을 활용하고, detection head의 계산 부담을 최소화하기 위해 "ZeroHead" 설계를 사용합니다. 또한, 레이블 할당을 위해 AlignedOTA를 통합하고, 더 작은 변형 모델의 성능을 향상시키기 위해 지식 증류(knowledge distillation)를 사용합니다.

컴퓨터 비전에서 NAS의 역할

신경망 구조 탐색(NAS)은 인공 신경망 설계를 자동화합니다.YOLO 같은 고효율 모델을 생성할 수 있지만, 구조 공간 탐색에 막대한 계산 자원이 필요한 경우가 많습니다. 이는 YOLOv9 같은 모델의 보다 결정론적인 설계 철학과 대조를 이룹니다.

성능 및 지표 비교

객체 탐지 모델을 선택할 때 정확도, 속도, 그리고 계산 자원의 균형을 맞추는 것이 매우 중요하다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

분석

정확도 vs. 파라미터: YOLOv9는 일반적으로 우수한 파라미터 대비 정확도 비율을 보여줍니다. 예를 들어, YOLOv9c는 25.3M 파라미터로 53.0% mAP를 달성하는 반면, DAMO-YOLOl은 50.8% mAP를 달성하지만 훨씬 더 많은 파라미터(42.1M)를 필요로 합니다.
추론 속도: DAMO-YOLO의 아키텍처는 T4 GPU에서 경쟁력 있는 TensorRT 추론 속도를 제공하며, 중간 티어에서는 YOLOv9를 약간 앞섭니다. 그러나 YOLOv9의 FLOPs 및 매개변수 수 효율성은 탁월한 GPU 메모리 효율성으로 이어집니다.
메모리 요구 사항: YOLOv9를 포함한 Ultralytics YOLO 모델은 복잡한 NAS 생성 모델 또는 무거운 트랜스포머 아키텍처에 비해 훈련 및 추론 모두에서 일반적으로 더 낮은 메모리 사용량을 보이며, 제한된 엣지 하드웨어에 배포하기에 매우 접근성이 높습니다.

Ultralytics 에코시스템의 이점

이론적 지표도 중요하지만, 실제 구현이 프로젝트 성공을 좌우합니다. 바로 이 점에서 Ultralytics 그 포괄적인 소프트웨어 생태계가YOLO 같은 독립형 저장소를 압도합니다.

사용 편의성 및 교육 효율성 향상

사용자 지정 YOLOv9 훈련에는 최소한의 보일러플레이트만 필요합니다. Ultralytics Python 데이터 증강, 분산 훈련, 하드웨어 최적화와 같은 복잡한 프로세스를 추상화합니다.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

반대로, DAMO-YOLO를 활용하는 것은 종종 고유한 학습 파이프라인에 특정한 엄격한 구성 파일과 복잡한 종속성 체인을 탐색해야 하며, 이는 가파른 학습 곡선을 초래합니다.

작업 전반에 걸친 다양한 활용성

Ultralytics 모델의 특징은 고유한 다용도성입니다. 표준 바운딩 박스 detect를 넘어, Ultralytics 프레임워크는 인스턴스 segment, 자세 추정, 이미지 분류 및 지향성 바운딩 박스(OBB) detect와 같은 작업을 원활하게 지원합니다. DAMO-YOLO는 2D 객체 detect에 엄격하게 최적화되어 있어 다른 시각적 패러다임에 적용하려면 상당한 재설계가 필요합니다.

에지 디바이스로 내보내기

Ultralytics TensorRT와 같은 형식으로의 원클릭 모델 내보내기를 제공함으로써 배포 파이프라인을 Ultralytics . TensorRT, OpenVINO, CoreML 등의 형식으로 모델을 원클릭으로 내보낼 수 있도록 하여 대상 하드웨어에 관계없이 최대 성능을 보장합니다.

사용 사례 및 권장 사항

YOLOv9와 DAMO-YOLO 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

9 선택해야 할 때

YOLOv9 다음과 같은 경우에 강력한 YOLOv9 :

정보 병목 연구: PGI(Programmable Gradient Information) 및 GELAN(Generalized Efficient Layer Aggregation Network) 아키텍처를 연구하는 학술 프로젝트.
그라디언트 흐름 최적화 연구: 훈련 중 깊은 네트워크 레이어에서 발생하는 정보 손실을 이해하고 완화하는 데 초점을 맞춘 연구.
고정확도 감지 벤치마킹: 아키텍처 비교를 위한 참조점으로 YOLOv9의 강력한 COCO 벤치마크 성능이 필요한 시나리오.

YOLO 선택해야 할 때

DAMO-YOLO는 다음 경우에 권장됩니다.

고처리량 비디오 분석: 배치-1 처리량이 주요 지표인 고정 NVIDIA GPU 인프라에서 고FPS 비디오 스트림을 처리합니다.
산업 제조 라인: 조립 라인의 실시간 품질 검사와 같이 전용 하드웨어에서 엄격한 GPU 지연 시간 제약이 있는 시나리오.
신경망 아키텍처 탐색 연구: 자동화된 아키텍처 탐색(MAE-NAS) 및 효율적인 재매개변수화된 백본이 detect 성능에 미치는 영향 연구.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.

미래: YOLO26으로의 전환

YOLOv9 YOLO 강력한 역사적YOLO , 현대 컴퓨터 비전은 본질적으로 엔드투엔드 아키텍처로 전환되었습니다. 새로운 개발에 있어서는, YOLO26 가 권장되는 표준입니다.

2026년에 출시된 YOLO26은 전작들의 성공을 바탕으로 정확도와 배포 편의성 모두에서 획기적인 발전을 이루었습니다.

YOLO26의 주요 혁신점

엔드투엔드 NMS-Free 설계: YOLO26은 Non-Maximum Suppression (NMS) 후처리 과정을 완전히 제거합니다. 이는 YOLOv10에서 처음 개척된 혁신적인 방식으로, 기본적으로 엔드투엔드 방식의 간소화된 배포 파이프라인을 구축합니다.
DFL 제거: Distribution Focal Loss가 제거되어 내보내기가 간소화되고 엣지/저전력 장치 호환성이 향상되었습니다.
최대 43% 더 빠른 CPU 추론: 복잡한 후처리 과정을 제거하고 핵심 컨볼루션을 최적화함으로써, YOLO26은 전용 GPU가 없는 엣지 컴퓨팅 시나리오에 독특하게 적합합니다.
MuSGD Optimizer: LLM 훈련 혁신에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드(MuSGD)를 활용하여 더 안정적인 훈련 실행과 현저히 빠른 수렴 시간을 보장합니다.
ProgLoss + STAL: 이러한 고급 손실 함수들은 작은 객체 인식에서 놀라운 향상을 제공하여, YOLO26을 고고도 항공 이미지 및 IoT 장치에 이상적으로 만듭니다.

현재 조사 중이라면 YOLO11 또는 YOLOv8 을 연구 중이라면, YOLO26으로 업그레이드함으로써 현재 이용 가능한 가장 최적화되고 최첨단 비전 AI 프레임워크를 활용할 수 있습니다.

요약

올바른 모델 선택은 특정 운영 제약 사항에 따라 달라집니다:

DAMO-YOLO는 NAS 기반 최적화에 대한 흥미로운 통찰력을 제공하며, RepGFPN 아키텍처가 빛을 발하는 매우 특정 하드웨어 프로필에 대해 경쟁력 있는 속도를 제공합니다.
YOLOv9은 PGI 아키텍처를 활용하여 심층 네트워크의 정보 손실을 방지하고 미세한 시각적 세부 정보를 유지하는 데 중점을 두는 연구자들에게 탁월한 선택입니다.
Ultralytics YOLO26은 현대 기업 및 연구 애플리케이션을 위한 확실한 선택입니다. 비할 데 없는 사용 편의성, NMS 없는 아키텍처, 최첨단 MuSGD 훈련 최적화는 컴퓨터 비전 분야에서 가장 신뢰할 수 있고 정확하며 쉽게 배포 가능한 모델로 만듭니다.