YOLOv9 vs. DAMO-YOLO: 기술 비교
적합한 객체 감지 모델을 선택하는 것은 정확도, 추론 속도 및 계산 효율성의 필요성의 균형을 맞추는 중요한 결정입니다. 이 페이지에서는 아키텍처 혁신으로 유명한 YOLOv9와 속도로 인정받는 DAMO-YOLO라는 두 가지 강력한 모델 간의 자세한 기술 비교를 제공합니다. 컴퓨터 비전 프로젝트에 가장 적합한 모델을 선택할 수 있도록 아키텍처, 성능 지표 및 이상적인 사용 사례를 살펴보겠습니다.
YOLOv9: 프로그래밍 가능한 기울기 정보를 이용한 고급 학습
YOLOv9은 객체 감지의 중요한 도약으로, 딥 러닝 신경망의 근본적인 정보 손실 문제를 해결합니다. Ultralytics 생태계에 통합되어 강력할 뿐만 아니라 매우 접근성이 뛰어납니다.
작성자: Chien-Yao Wang 및 Hong-Yuan Mark Liao
소속: Institute of Information Science, Academia Sinica, Taiwan
날짜: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentation: https://docs.ultralytics.com/models/yolov9/
아키텍처 및 주요 기능
YOLOv9은 두 가지 획기적인 개념인 PGI(Programmable Gradient Information)와 GELAN(Generalized Efficient Layer Aggregation Network)을 도입했습니다. PGI는 손실 함수에 대한 완전한 입력 정보를 보존하도록 설계되어 심층 네트워크의 성능을 저하시키는 정보 병목 현상을 완화합니다. GELAN은 파라미터 활용률과 계산 비용을 최적화하는 새롭고 매우 효율적인 네트워크 아키텍처입니다.
Ultralytics 프레임워크 내에서 구현될 때 YOLOv9의 고급 아키텍처는 개발자를 위해 설계된 다양한 기능과 결합됩니다.
- 사용 편의성: 간단한 Python API 및 CLI를 통해 간소화된 사용자 경험을 제공하며, 광범위한 문서를 통해 지원됩니다.
- 잘 관리되는 에코시스템: 활발한 개발, 강력한 커뮤니티 지원, 잦은 업데이트, 노코드 훈련 및 배포를 위한 Ultralytics HUB와 같은 도구와의 통합을 통해 이점을 얻으세요.
- 학습 효율성: 효율적인 학습 프로세스를 제공하며, 즉시 사용 가능한 사전 학습된 가중치를 통해 일반적으로 경쟁 모델보다 더 낮은 메모리를 요구합니다.
- 다양성: 원본 논문은 객체 탐지에 중점을 두지만, 저장소는 Ultralytics 모델의 멀티태스킹 특성에 맞춰 인스턴스 분할 및 파놉틱 분할 기능을 제공합니다.
강점
- 최첨단 정확도: COCO 데이터 세트에서 선도적인 mAP 점수를 달성하며, 종종 유사한 규모의 다른 모델보다 성능이 뛰어납니다.
- 탁월한 파라미터 효율성: GELAN 아키텍처를 통해 YOLOv9는 많은 경쟁사보다 훨씬 적은 파라미터와 FLOPs로 높은 정확도를 제공할 수 있습니다.
- 정보 보존: PGI는 정보 손실 문제를 효과적으로 해결하여 더 깊고 복잡한 모델을 더욱 정확하게 훈련할 수 있도록 합니다.
- 견고하고 지원됨: Ultralytics 생태계에 통합되어 안정성, 지속적인 개선 및 풍부한 리소스에 대한 액세스를 보장합니다.
약점
- 더 새로운 모델: 최신 릴리스이므로, 커뮤니티에서 제공하는 배포 예제의 양은 아직 증가하고 있지만 Ultralytics 프레임워크에 의해 채택이 빠르게 가속화되고 있습니다.
- 대형 모델의 리소스 필요: 가장 큰 변형인 YOLOv9-E는 정확도가 높지만 훈련에 상당한 컴퓨팅 리소스가 필요합니다.
DAMO-YOLO: 신경망 아키텍처 검색을 통한 속도 및 정확도
DAMO-YOLO는 Alibaba Group에서 개발한 빠르고 정확한 객체 감지 모델입니다. 특히 GPU 하드웨어에서 속도와 성능 간의 뛰어난 균형을 달성하기 위해 여러 최신 기술을 활용합니다.
작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
기관: Alibaba Group
날짜: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
아키텍처 및 주요 기능
DAMO-YOLO의 아키텍처는 고급 기술의 조합의 결과입니다.
- NAS(Neural Architecture Search): NAS를 사용하여 효율적인 백본 네트워크(TinyNAS)를 생성합니다.
- 효율적인 Neck 설계: 특징 융합을 위해 효율적인 RepGFPN (Generalized Feature Pyramid Network)을 사용합니다.
- ZeroHead: 단순화되고 계산적으로 가벼운 감지 헤드입니다.
- AlignedOTA: 더욱 효과적인 학습을 위한 개선된 레이블 할당 전략입니다.
- Distillation: 지식 증류를 사용하여 더 작은 모델의 성능을 향상시킵니다.
강점
- 높은 추론 속도: DAMO-YOLO는 GPU에서 빠른 추론을 위해 고도로 최적화되어 실시간 추론 시나리오에 적합합니다.
- 뛰어난 성능: 특히 소형 모델에서 경쟁력 있는 속도-정확도 균형을 제공합니다.
- 혁신적인 기술: NAS 및 고급 레이블 할당과 같은 현대적인 방법을 통합하여 성능 한계를 뛰어넘습니다.
- Anchor-Free: 앵커 프리(anchor-free) 검출기로서 앵커 박스를 조정할 필요가 없어 탐지 파이프라인을 간소화합니다.
약점
- Task Specificity: 주로 객체 탐지를 위해 설계되었으며 Ultralytics 모델에서 볼 수 있는 세분화, 포즈 추정 또는 분류와 같은 다른 작업에 대한 기본 제공 다기능성이 부족합니다.
- 생태계 및 지원: 연구 중심 프로젝트이므로 Ultralytics 모델의 특징인 포괄적인 생태계, 광범위한 문서 및 활발한 커뮤니티 지원이 부족합니다. 이로 인해 통합 및 문제 해결이 더 어려워질 수 있습니다.
- 더 많은 파라미터 수: YOLOv9에 비해 DAMO-YOLO 모델은 종종 유사하거나 더 낮은 정확도 수준을 달성하기 위해 더 많은 파라미터와 FLOPs를 가집니다.
성능 분석: YOLOv9 vs. DAMO-YOLO
성능을 비교할 때 YOLOv9은 정확도와 파라미터 효율성 모두에서 분명한 이점을 보여줍니다. 가장 큰 모델인 YOLOv9-E는 COCO에서 55.6% mAP로 새로운 최첨단 벤치마크를 설정합니다. 모든 모델 크기에서 YOLOv9은 더 높은 정확도를 달성하기 위해 DAMO-YOLO에 비해 일관되게 더 적은 파라미터를 사용하고 많은 경우 더 적은 FLOP를 사용합니다.
DAMO-YOLO 모델은 NVIDIA T4 GPU에서 매우 빠른 추론 속도를 나타내지만, YOLOv9는 특히 뛰어난 정확도와 효율성을 고려할 때 매우 경쟁력이 있습니다. 예를 들어, YOLOv9-C는 DAMO-YOLO-L보다 약간 빠르면서도 훨씬 더 정확하고(53.0 vs. 50.8 mAP) 훨씬 적은 파라미터(25.3M vs. 42.1M)를 사용합니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
이상적인 사용 사례
YOLOv9
YOLOv9은 정확도와 효율성이 가장 중요한 애플리케이션에 이상적인 선택입니다. 더 적은 파라미터로 최첨단 결과를 제공하는 능력 덕분에 다음과 같은 분야에 적합합니다.
- 고정밀 시스템: 자율 주행, 의료 영상 분석 및 산업 품질 관리 분야에 적용됩니다.
- 리소스 제한적 배포: 더 작은 YOLOv9 모델은 컴퓨팅 리소스가 제한적이지만 높은 성능이 여전히 요구되는 에지 AI 장치에 매우 적합합니다.
- 다중 작업 솔루션: 분할 또는 기타 비전 작업을 포함하도록 확장될 수 있는 프로젝트는 Ultralytics 에코시스템에서 제공하는 다재다능한 기반의 이점을 누릴 수 있습니다.
- 연구 개발: 혁신적인 아키텍처는 딥러닝 분야에서 새로운 영역을 탐색하는 연구자들에게 강력한 기준을 제공합니다.
DAMO-YOLO
DAMO-YOLO는 GPU 처리량 극대화가 주요 목표이고 애플리케이션이 객체 탐지에만 엄격하게 집중된 시나리오에서 뛰어납니다.
- 고처리량 비디오 분석: 많은 수의 비디오 스트림을 동시에 처리하는 클라우드 기반 서비스입니다.
- 실시간 GPU 애플리케이션: GPU의 원시 추론 속도가 가장 중요한 지표이고 정확도의 약간의 절충이 허용되는 시스템.
결론: YOLOv9이 권장되는 이유
DAMO-YOLO가 인상적인 GPU 속도를 가진 강력한 객체 감지기이지만, Ultralytics YOLOv9은 대다수의 개발자와 연구자에게 더 우수하고 실용적인 선택으로 부상하고 있습니다.
YOLOv9은 더 높은 정확도를 달성할 뿐만 아니라 파라미터 효율성도 높습니다. 즉, 모델이 더 작고, 연산 비용이 저렴하며, 배포가 더 쉽습니다. 그러나 진정한 차별화 요소는 Ultralytics 생태계입니다. YOLOv9을 선택하면 데이터 어노테이션 및 학습에서 배포 및 모니터링에 이르기까지 MLOps 라이프사이클의 모든 단계를 간소화하는 잘 관리되고 완전히 통합된 플랫폼에 액세스할 수 있습니다. 최고의 성능, 사용 용이성, 다중 작업 다용성 및 강력한 지원의 조합은 YOLOv9을 고급 컴퓨터 비전 애플리케이션 구축을 위한 가장 효과적이고 안정적인 솔루션으로 만듭니다.
다른 모델 살펴보기
DAMO-YOLO가 다른 최첨단 모델과 어떻게 비교되는지 궁금하다면 문서에서 다음 비교 자료를 확인해 보세요.
- YOLOv8 vs. DAMO-YOLO
- YOLO11 대 DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOX vs. DAMO-YOLO
- YOLOv10 vs. DAMO-YOLO