YOLOv9 vs. DAMO-YOLO: 객체 탐지 모델의 기술적 비교
컴퓨터 비전의 급격한 발전으로 다양한 배포 제약 조건과 정확도 요구 사항에 맞춘 강력한 아키텍처가 다수 등장했습니다. 이 분야에서 주목받는 두 가지 모델은 정보 병목 현상을 강력하게 해결하는 것으로 유명한 YOLOv9와, 신경 아키텍처 검색(NAS) 및 효율적인 특징 피라미드에 중점을 둔 DAMO-YOLO입니다.
이 가이드는 YOLOv9와 DAMO-YOLO에 대한 심층적인 기술 비교를 제공하며, 두 모델의 아키텍처 차이, 학습 방법론, 그리고 이상적인 배포 시나리오를 강조합니다. 또한 Ultralytics 에코시스템이 개발부터 프로덕션까지 어떻게 매끄러운 경로를 제공하는지, 그리고 왜 YOLO26과 같은 최신 모델이 신규 프로젝트의 권장 표준이 되었는지에 대해서도 살펴봅니다.
아키텍처 심층 분석
각 모델의 핵심 메커니즘을 이해하면 다양한 지표에서 두 모델이 서로 다른 성능을 보이는 이유를 알 수 있습니다.
YOLOv9: 프로그래밍 가능한 그래디언트 정보
YOLOv9는 심층 신경망을 통과하는 데이터 흐름 과정에서 발생하는 정보 손실을 직접적으로 해결하기 위해 설계되었습니다.
저자: Chien-Yao Wang, Hong-Yuan Mark Liao
소속: 대만 중앙연구원(Academia Sinica) 정보과학연구소
날짜: 2024년 2월 21일
링크: Arxiv, GitHub, 문서
YOLOv9는 **PGI(Programmable Gradient Information)**와 **GELAN(Generalized Efficient Layer Aggregation Network)**을 도입했습니다. PGI는 피드 포워드 과정에서 중요한 공간적, 의미적 정보가 유지되도록 보장하여 가중치 업데이트에 사용되는 그래디언트의 저하를 방지합니다. GELAN은 이를 보완하여 매개변수 효율성을 극대화하며, 기존의 많은 CNN보다 더 적은 FLOPs로 최첨단 mAP(mean Average Precision) 성능을 달성할 수 있게 합니다.
DAMO-YOLO: NAS 기반 효율성
Alibaba Group에서 개발한 DAMO-YOLO는 자동화된 아키텍처 검색을 활용하여 속도와 정확도 간의 최적의 균형을 찾는다는 점에서 다른 접근 방식을 취합니다.
저자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
소속: Alibaba Group
날짜: 2022년 11월 23일
링크: Arxiv, GitHub
DAMO-YOLO는 MAE-NAS(신경 아키텍처 검색을 위한 마스크드 오토인코더) 백본에 의존하여 효율적인 네트워크 구조를 자동으로 생성합니다. 또한 강력한 특징 융합을 위한 RepGFPN(재매개변수화 일반화 특징 피라미드 네트워크)과 탐지 헤드의 계산 부담을 최소화하는 "ZeroHead" 설계를 활용합니다. 아울러 성능 향상을 위해 AlignedOTA 라벨 할당 및 지식 증류(Knowledge Distillation)를 도입하여 소형 변형 모델들의 성능을 강화했습니다.
신경 아키텍처 검색(NAS)은 인공 신경망 설계를 자동화합니다. DAMO-YOLO와 같이 매우 효율적인 모델을 생성할 수 있지만, 아키텍처 공간을 탐색하는 데 막대한 계산 자원이 필요한 경우가 많으며 이는 YOLOv9와 같은 모델의 결정론적 설계 철학과는 대조적입니다.
성능 및 메트릭 비교
객체 탐지 모델을 선택할 때는 정확도, 속도, 계산 비용 사이의 균형이 매우 중요합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
분석
- 정확도 대 매개변수: YOLOv9는 일반적으로 우수한 매개변수 대비 정확도 비율을 보여줍니다. 예를 들어, YOLOv9c는 2,530만 개의 매개변수로 53.0% mAP를 달성하는 반면, DAMO-YOLOl은 50.8% mAP를 기록하지만 훨씬 더 많은 매개변수(4,210만 개)를 요구합니다.
- 추론 속도: DAMO-YOLO의 아키텍처는 T4 GPU에서 경쟁력 있는 TensorRT 추론 속도를 제공하며, 중간급 티어에서는 YOLOv9보다 약간 앞섭니다. 그러나 YOLOv9의 FLOPs 및 매개변수 수 측면에서의 효율성은 뛰어난 GPU 메모리 효율성으로 이어집니다.
- 메모리 요구 사항: YOLOv9를 포함한 Ultralytics YOLO 모델은 복잡한 NAS 생성 모델이나 무거운 Transformer 아키텍처와 비교하여 일반적으로 학습 및 추론 과정에서 메모리 사용량이 적습니다. 이로 인해 제한된 엣지 하드웨어에 배포하기가 매우 용이합니다.
Ultralytics 생태계의 이점
이론적 지표도 중요하지만, 실제 구현 여부가 프로젝트의 성공을 좌우합니다. 바로 이 지점에서 Ultralytics Platform과 그 포괄적인 소프트웨어 에코시스템이 DAMO-YOLO와 같은 독립형 리포지토리를 능가합니다.
사용 편의성 및 학습 효율성
사용자 지정 YOLOv9 모델을 학습하는 데 필요한 보일러플레이트 코드는 최소한입니다. Ultralytics Python API는 데이터 증강, 분산 학습, 하드웨어 최적화와 같은 복잡한 과정을 추상화합니다.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate model performance
metrics = model.val()
# Export for production deployment
model.export(format="onnx")반면, DAMO-YOLO를 사용하려면 특유의 학습 파이프라인에 최적화된 엄격한 설정 파일과 복잡한 의존성 체인을 처리해야 하므로 학습 곡선이 더 가파릅니다.
작업 전반에 걸친 다재다능함
Ultralytics 모델의 특징은 고유한 범용성입니다. 표준 BBox 탐지 외에도 Ultralytics 프레임워크는 인스턴스 세그멘테이션, 포즈 추정, 이미지 분류, 지향 BBox(OBB) 탐지와 같은 작업을 원활하게 지원합니다. DAMO-YOLO는 2D 객체 탐지에만 최적화되어 있어 다른 시각적 패러다임에 적응하려면 상당한 재설계가 필요합니다.
Ultralytics simplifies the deployment pipeline by offering one-click model export to formats like TensorRT, OpenVINO, and CoreML, ensuring maximum performance regardless of your target hardware.
사용 사례 및 권장 사항
YOLOv9와 DAMO-YOLO 중 무엇을 선택할지는 귀하의 구체적인 프로젝트 요구 사항, 배포 제약 조건, 에코시스템 선호도에 따라 달라집니다.
YOLOv9을 선택해야 할 때
YOLOv9는 다음과 같은 경우에 강력한 선택입니다:
- 정보 병목 현상 연구: 프로그래밍 가능한 그래디언트 정보(PGI) 및 일반화된 효율적 계층 집계 네트워크(GELAN) 아키텍처를 연구하는 학술 프로젝트.
- 그래디언트 흐름 최적화 연구: 학습 중 심층 네트워크 계층에서의 정보 손실을 이해하고 완화하는 데 중점을 둔 연구.
- 고정확도 탐지 벤치마킹: 아키텍처 비교를 위한 참조 지점으로 YOLOv9의 강력한 COCO 벤치마크 성능이 필요한 시나리오.
DAMO-YOLO를 선택해야 할 때
DAMO-YOLO는 다음 경우에 권장됩니다:
- 고처리량 비디오 분석: batch-1 처리량이 주요 지표인 고정 NVIDIA GPU 인프라에서 고FPS 비디오 스트림을 처리할 때.
- 산업 제조 라인: 조립 라인의 실시간 품질 검사와 같이 전용 하드웨어에 대한 엄격한 GPU 지연 시간 제약 조건이 있는 시나리오.
- 신경 아키텍처 검색 연구: 자동화된 아키텍처 검색(MAE-NAS) 및 효율적인 재매개변수화 백본이 탐지 성능에 미치는 영향을 연구할 때.
Ultralytics(YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최적의 조합을 제공합니다:
- NMS-free 엣지 배포: Non-Maximum Suppression 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 가속기가 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론 속도가 결정적인 이점을 제공합니다.
- 소형 객체 탐지: 항공 드론 이미지나 IoT 센서 분석과 같은 도전적인 시나리오에서 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 향상시킵니다.
미래: YOLO26으로의 전환
YOLOv9와 DAMO-YOLO가 역사적인 이정표를 세운 것은 사실이지만, 현대 컴퓨터 비전은 기본적으로 엔드 투 엔드(end-to-end) 아키텍처로 이동했습니다. 새로운 개발 프로젝트에는 **YOLO26**을 권장 표준으로 사용합니다.
2026년에 출시된 YOLO26은 이전 모델의 성공을 기반으로 하며, 정확도와 배포 간소화라는 두 가지 측면에서 도약을 이뤄냈습니다.
YOLO26의 핵심 혁신
- 엔드 투 엔드 NMS 프리 설계: YOLO26은 NMS(Non-Maximum Suppression) 후처리를 완전히 제거했습니다. 이는 YOLOv10에서 처음 개척된 획기적인 방식인, 기본적으로 엔드 투 엔드인 간소화된 배포 파이프라인을 구축합니다.
- DFL 제거: 내보내기 단순화 및 엣지/저전력 기기 호환성을 향상하기 위해 Distribution Focal Loss를 제거했습니다.
- 최대 43% 향상된 CPU 추론: 복잡한 후처리를 제거하고 핵심 컨벌루션을 최적화함으로써, YOLO26은 전용 GPU가 없는 엣지 컴퓨팅 시나리오에 독보적으로 적합합니다.
- MuSGD 옵티마이저: LLM 학습 혁신에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드(MuSGD)를 활용하여 보다 안정적인 학습 실행과 눈에 띄게 빠른 수렴 속도를 보장합니다.
- ProgLoss + STAL: 이러한 고급 손실 함수는 소형 객체 인식에서 놀라운 향상을 제공하며, 고고도 항공 이미지와 IoT 기기에 이상적입니다.
현재 차기 프로젝트를 위해 YOLO11이나 YOLOv8을 검토 중이라면, YOLO26으로 업그레이드하여 오늘날 사용 가능한 가장 최적화된 최첨단 비전 AI 프레임워크를 경험하십시오.
요약
올바른 모델을 선택하는 것은 귀하의 구체적인 운영 제약 조건에 달려 있습니다:
- DAMO-YOLO는 NAS 기반 최적화에 대한 흥미로운 통찰을 제공하며, RepGFPN 아키텍처가 빛을 발하는 매우 구체적인 하드웨어 프로필에서 경쟁력 있는 속도를 제공합니다.
- YOLOv9는 정밀한 시각적 디테일을 유지하는 데 중점을 두는 연구자에게 탁월한 선택이며, PGI 아키텍처를 활용하여 심층 네트워크에서의 정보 손실을 방지합니다.
- Ultralytics YOLO26은 현대 기업 및 연구 애플리케이션을 위한 독보적인 선택입니다. 탁월한 사용 편의성, NMS 프리 아키텍처, 그리고 최첨단 MuSGD 학습 최적화는 이 모델을 컴퓨터 비전 분야에서 가장 신뢰할 수 있고 정확하며 쉽게 배포할 수 있는 모델로 만듭니다.