DAMO-YOLO vs. YOLOv9: 기술 비교
정확도, 속도 및 계산 효율성의 필요성 간의 균형을 맞추는 올바른 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 이 페이지에서는 Alibaba Group의 DAMO-YOLO와 YOLOv9라는 두 가지 강력한 모델 간의 자세한 기술 비교를 제공합니다. 컴퓨터 비전 프로젝트에 가장 적합한 모델을 선택하는 데 도움이 되도록 아키텍처 혁신, 성능 지표 및 이상적인 사용 사례를 살펴보겠습니다. 두 모델 모두 상당한 발전을 도입했지만 YOLOv9, 특히 Ultralytics 에코시스템 내에서는 최첨단 성능과 개발자 친화적인 기능의 강력한 조합을 제공합니다.
DAMO-YOLO: Alibaba의 빠르고 정확한 방법
작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
기관: Alibaba Group
날짜: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO는 Alibaba에서 개발한 객체 감지 모델로, 속도와 정확도 간의 균형을 개선하는 데 중점을 둡니다. 에지 장치에서 클라우드 GPU에 이르기까지 광범위한 하드웨어에서 성능을 향상시키기 위해 여러 새로운 기술을 도입했습니다. 아키텍처는 "once-for-all" 방법론의 결과로, 슈퍼넷을 훈련한 다음 NAS(Neural Architecture Search)를 사용하여 다양한 계산 제약 조건에 맞게 특수화된 서브 네트워크를 파생시킵니다.
아키텍처 및 주요 기능
DAMO-YOLO의 아키텍처는 몇 가지 주요 혁신을 통합합니다.
- NAS 생성 백본: DAMO-YOLO는 수동으로 설계된 백본 대신 NAS를 통해 발견된 백본을 사용하며, 이는 특징 추출 효율성에 최적화되어 있습니다.
- 효율적인 RepGFPN Neck: 효율적인 특징 융합을 위해 설계되었으며 추론 중 속도를 높이기 위해 재매개변수화 기술과 호환되는 새로운 특징 피라미드 네트워크 neck인 RepGFPN을 사용합니다.
- ZeroHead: 높은 성능을 유지하면서 계산 오버헤드를 줄이는 단순화되고 가벼운 감지 헤드입니다.
- AlignedOTA 레이블 할당: 분류 및 회귀 작업 간의 불일치 문제를 해결하여 보다 정확한 예측을 가능하게 하는 개선된 레이블 할당 전략입니다.
- Distillation 향상: 지식 증류는 더 큰 교사 모델에서 더 작은 학생 모델로 지식을 전송하는 데 사용되어 컴팩트 모델의 정확도를 더욱 향상시킵니다.
강점
- 높은 GPU 속도: DAMO-YOLO는 GPU에서 빠른 추론을 위해 고도로 최적화되어 실시간 비디오 처리 및 기타 지연 시간에 민감한 애플리케이션에 적합합니다.
- 확장 가능한 모델: 속도와 정확도 간의 명확한 균형을 제공하는 다양한 모델 제품군(Tiny, Small, Medium, Large)을 제공하므로 개발자는 하드웨어에 가장 적합한 모델을 선택할 수 있습니다.
- 혁신적인 기술: NAS, 효율적인 Neck 및 고급 레이블 할당기의 사용은 탐지기 설계에 대한 현대적인 접근 방식을 보여줍니다.
약점
- Task Specificity: DAMO-YOLO는 주로 객체 탐지를 위해 설계되었으며 Ultralytics와 같은 포괄적인 프레임워크에서 볼 수 있는 인스턴스 분할 또는 포즈 추정과 같은 다른 작업에 대한 기본 제공 다기능성이 부족합니다.
- 생태계 및 사용성: 강력하긴 하지만 Ultralytics만큼 생태계가 성숙하지 않았습니다. 사용자는 학습, 배포 및 프로덕션 파이프라인으로의 통합에 더 많은 노력이 필요하다는 것을 알 수 있습니다.
- 커뮤니티 지원: 커뮤니티 및 사용 가능한 리소스는 YOLO 시리즈와 같이 더 널리 채택된 모델에 비해 작을 수 있습니다.
YOLOv9: 정확도 및 효율성 향상
작성자: Chien-Yao Wang, Hong-Yuan Mark Liao
소속: Institute of Information Science, Academia Sinica, Taiwan
날짜: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentation: https://docs.ultralytics.com/models/yolov9/
YOLOv9는 실시간 객체 감지 분야에서 중요한 도약을 의미하며, 심층 신경망에서 정보 손실을 해결하기 위한 획기적인 개념을 도입했습니다. 핵심 혁신 기술인 PGI(Programmable Gradient Information)와 GELAN(Generalized Efficient Layer Aggregation Network)을 통해 뛰어난 정확도와 파라미터 효율성을 달성할 수 있습니다. Ultralytics 프레임워크에 통합되면 YOLOv9는 이러한 최첨단 성능과 함께 탁월한 사용자 경험을 제공합니다.
아키텍처 및 주요 기능
YOLOv9의 강점은 새로운 아키텍처 구성 요소에 있습니다.
- 프로그래밍 가능한 기울기 정보 (PGI): 이 메커니즘은 보조 가역적 분기를 통해 안정적인 기울기를 생성하여 정보 병목 현상 문제를 완화하는 데 도움이 되며, 더 깊은 레이어가 정확한 업데이트를 위해 완전한 입력 정보를 받도록 보장합니다.
- Generalized Efficient Layer Aggregation Network (GELAN): CSPNet 및 ELAN의 원리를 기반으로 구축된 고급 네트워크 아키텍처입니다. GELAN은 최적의 파라미터 활용도와 계산 효율성을 위해 설계되어 강력하면서도 빠릅니다.
강점
- 최첨단 정확도: YOLOv9는 COCO 데이터 세트에서 새로운 정확도 표준을 설정하며, 유사하거나 더 낮은 계산 비용으로 많은 이전 모델보다 뛰어난 성능을 보입니다.
- 탁월한 효율성: 성능 표에서 볼 수 있듯이 YOLOv9 모델은 종종 경쟁사보다 더 적은 파라미터와 FLOPs로 더 높은 정확도를 달성하여 에지 장치에서 강력한 서버에 이르기까지 다양한 하드웨어에 배포하는 데 이상적입니다.
- 잘 관리되는 에코시스템: Ultralytics 에코시스템에 통합된 YOLOv9는 간소화된 Python API 및 CLI를 통한 사용 편의성, 광범위한 문서 및 활발한 커뮤니티 지원을 통해 이점을 얻습니다.
- 학습 효율성: Ultralytics 구현은 사전 학습된 가중치를 즉시 사용 가능하게 하고, 메모리 요구 사항을 줄이며, 노코드 학습 및 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합을 통해 효율적인 학습 프로세스를 보장합니다.
- 다양성: 원본 논문은 탐지에 중점을 두지만, GELAN 아키텍처는 적응성이 뛰어납니다. Ultralytics 생태계는 YOLOv8과 같은 모델에서 볼 수 있는 멀티태스킹 지원과 일치하도록 다른 비전 작업으로 그 기능을 확장합니다.
약점
- 더 새로운 모델: 더 최신 아키텍처이므로 커뮤니티에서 제공하는 튜토리얼 및 타사 통합 수는 아직 증가하고 있지만 Ultralytics 라이브러리에 포함되어 채택이 크게 가속화되었습니다.
- 리소스 요구 사항: YOLOv9-E와 같은 가장 큰 YOLOv9 모델은 크기에 비해 최상위 정확도를 제공하지만, 학습을 위해 상당한 컴퓨팅 리소스가 필요합니다.
성능 분석: 정확도 및 속도
DAMO-YOLO와 YOLOv9를 비교할 때 두 모델 제품군 모두 실시간 객체 감지의 경계를 넓히고 있다는 것이 분명합니다. 그러나 메트릭을 자세히 살펴보면 YOLOv9의 뛰어난 효율성이 드러납니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
표에서 다음과 같은 몇 가지 결론을 내릴 수 있습니다.
- 정확도: YOLOv9 모델은 일관되게 더 높은 mAP 점수를 달성합니다. 예를 들어 YOLOv9m은 51.4 mAP 대 50.8 mAP로 DAMO-YOLOl을 능가합니다. 가장 큰 모델인 YOLOv9-E는 인상적인 55.6 mAP에 도달하여 새로운 기준을 설정합니다.
- 효율성: YOLOv9는 뛰어난 파라미터 및 계산 효율성을 보여줍니다. YOLOv9m은 파라미터(20.0M vs. 42.1M)와 FLOP(76.3B vs. 97.3B)을 절반 미만으로 사용하면서 DAMO-YOLOl보다 더 나은 정확도를 제공합니다. 이는 YOLOv9를 고성능 달성을 위한 더 효율적인 선택으로 만듭니다.
- 추론 속도: T4 GPU에서 추론 속도는 경쟁력이 있습니다. 예를 들어 DAMO-YOLO(3.45ms)와 YOLOv9s(3.54ms)는 속도가 매우 비슷하지만 YOLOv9s가 더 높은 mAP(46.8 vs. 46.0)를 달성합니다.
결론: 어떤 모델을 선택해야 할까요?
DAMO-YOLO와 YOLOv9는 모두 고유한 강점을 가진 훌륭한 객체 탐지기입니다. DAMO-YOLO는 NAS 및 효율적인 RepGFPN 넥과 같은 혁신적인 기술을 통해 빠르고 확장 가능한 솔루션을 제공하므로 고속 GPU 추론이 필요한 애플리케이션에 적합합니다.
그러나 대부분의 개발자와 연구자에게 YOLOv9는 특히 Ultralytics 생태계 내에서 사용할 때 권장되는 선택입니다. 최첨단 정확도와 뛰어난 효율성을 제공할 뿐만 아니라 사용 편의성과 지원 면에서도 상당한 이점을 제공합니다. Ultralytics 프레임워크는 복잡성을 추상화하여 학습에서 배포에 이르기까지 간소화된 워크플로를 제공합니다. YOLOv9의 PGI와 GELAN의 조합은 더욱 발전되고 효율적인 아키텍처를 제공하는 반면, 강력한 Ultralytics 생태계는 성공에 필요한 도구, 문서 및 커뮤니티 지원을 보장합니다.
다른 모델 살펴보기
DAMO-YOLO 및 YOLO9이 다른 주요 모델과 어떻게 비교되는지 궁금하다면 Ultralytics 문서에서 다음 비교 자료를 확인해 보세요.
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 vs. DAMO-YOLO
- Ultralytics YOLO11 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOv9 vs. YOLOv8
- YOLOv9 vs. EfficientDet