YOLOv9 vs YOLOX: 기술 비교
최적의 객체 감지 모델을 선택하는 것은 컴퓨터 비전 프로젝트에서 원하는 결과를 얻는 데 매우 중요합니다. 모델은 아키텍처, 성능 및 리소스 요구 사항에서 크게 다릅니다. 이 페이지에서는 YOLOv9와 YOLOX 간의 자세한 기술 비교를 제공하여 주요 기능을 분석하고 필요에 가장 적합한 모델을 선택하는 데 도움을 드립니다.
YOLOv9: 실시간 객체 감지 발전
저자: Chien-Yao Wang, Hong-Yuan Mark Liao
조직: 대만 Academia Sinica, 정보 과학 연구소
날짜: 2024-02-21
Arxiv: arXiv:2402.13616
GitHub: github.com/WongKinYiu/yolov9
Docs: docs.ultralytics.com/models/yolov9/
Ultralytics YOLOv9는 Programmable Gradient Information (PGI) 및 Generalized Efficient Layer Aggregation Network (GELAN)과 같은 혁신적인 기술을 도입하여 객체 감지 분야에서 상당한 도약을 이루었습니다. Chien-Yao Wang과 Hong-Yuan Mark Liao가 개발한 YOLOv9는 심층 신경망의 정보 손실 문제를 해결하여 정확도와 효율성을 모두 향상시킵니다. Ultralytics 생태계에 통합된 YOLOv9는 간소화된 사용자 경험, 포괄적인 설명서 및 강력한 커뮤니티 지원의 이점을 누릴 수 있습니다.
아키텍처 및 주요 기능
YOLOv9의 아키텍처는 PGI를 사용하여 깊은 레이어를 통해 중요한 정보 흐름을 보존하도록 설계되었습니다. 이는 일반적인 딥 네트워크의 정보 병목 현상 문제를 완화하는 데 도움이 됩니다. GELAN은 CSPNet 및 ELAN의 개념을 기반으로 파라미터 활용률과 계산 효율성을 향상시키기 위해 네트워크 구조를 최적화합니다. 이를 통해 뛰어난 효율성으로 최첨단 성능을 제공합니다. Ultralytics 구현은 간단한 Python API와 효율적인 훈련 프로세스를 통해 사용 편의성을 보장하며, 즉시 사용 가능한 사전 훈련된 가중치를 활용합니다.
강점
- 최첨단 정확도: COCO와 같은 벤치마크에서 선도적인 mAP 점수를 달성하며, 종종 유사한 크기의 다른 모델보다 성능이 뛰어납니다.
- 높은 효율성: 많은 대안에 비해 더 적은 파라미터와 FLOPs로 높은 정확도를 제공하므로 엣지 AI 배포에 적합합니다.
- 정보 보존: PGI는 정보 손실을 효과적으로 완화하여 모델의 학습 능력과 최종 성능을 향상시킵니다.
- Ultralytics 생태계: 활발한 개발, 풍부한 리소스, MLOps를 위한 Ultralytics HUB 통합, 학습 중 더 낮은 메모리 요구 사항 등의 이점을 제공합니다.
- 다양성: 원본 논문은 탐지에 중점을 두지만, 아키텍처는 인스턴스 분할과 같은 작업에 대한 잠재력을 보여주며, 이는 YOLOv8과 같은 모델의 멀티태스킹 기능과 일치합니다.
약점
- 더 새로운 모델로서 커뮤니티 기반 배포 예제의 범위는 오랫동안 확립된 모델에 비해 여전히 증가하고 있을 수 있습니다. 그러나 Ultralytics 프레임워크 내에서의 통합은 채택을 크게 가속화하고 강력한 지원 시스템을 제공합니다.
YOLOX: 고성능 앵커 프리(Anchor-Free) 감지기
저자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
소속: Megvii
날짜: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
문서: https://yolox.readthedocs.io/en/latest/
Megvii에서 개발한 YOLOX는 단순성과 높은 성능을 목표로 하는 앵커 프리(anchor-free) 객체 감지 모델입니다. 앵커 박스 메커니즘을 제거함으로써 YOLOX는 훈련 파이프라인을 단순화하고 설계 파라미터 수를 줄여 일반화 성능을 향상시킬 수 있습니다.
아키텍처 및 주요 기능
YOLOX는 몇 가지 주요 아키텍처 선택으로 차별화됩니다. 가장 중요한 것은 객체 감지를 픽셀 단위 예측 문제로 취급하는 앵커 프리 설계입니다. 다른 주요 기능으로는 분류 및 지역화 작업을 분리하는 분리된 헤드, SimOTA라는 고급 레이블 할당 전략, MixUp 및 Mosaic과 같은 강력한 데이터 증강 기술 사용이 있습니다.
강점
- Anchor-Free Design: 앵커 박스 튜닝의 필요성을 없애 모델 아키텍처와 학습 프로세스를 간소화합니다.
- 강력한 성능: 당시 평균 정밀도(mAP)와 추론 속도 간에 경쟁력 있는 균형을 달성합니다.
- 확장성: YOLOX-Nano에서 YOLOX-X에 이르는 다양한 모델 크기를 제공하여 여러 컴퓨팅 리소스에 걸쳐 배포할 수 있습니다.
약점
- 최신 모델에 의한 성능 저하: YOLOX는 혁신적이지만 YOLOv9와 같은 최신 모델에 의해 정확도와 효율성 모두에서 능가되었습니다.
- 단편화된 에코시스템: 오픈 소스이지만 MLOps를 위한 Ultralytics HUB와의 원활한 통합과 같이 Ultralytics에서 제공하는 통합된 에코시스템과 간소화된 도구가 부족합니다.
- 더 높은 계산 비용: 주어진 정확도 수준에서 더 큰 YOLOX 모델은 유사한 YOLOv9 모델보다 더 많은 파라미터와 FLOP를 갖는 경향이 있습니다.
성능 비교: YOLOv9 vs. YOLOX
COCO 데이터 세트에서 성능을 비교할 때 YOLOv9는 정확도와 효율성 모두에서 분명한 이점을 보여줍니다. 아래 표는 YOLOv9 모델이 YOLOX 모델보다 더 적은 파라미터와 FLOP로 일관되게 더 높은 mAP 점수를 달성한다는 것을 보여줍니다. 예를 들어 YOLOv9-C는 25.3M 파라미터로 53.0% mAP를 달성하여 YOLOX-L(54.2M 파라미터로 49.7% mAP) 및 YOLOX-X(99.1M 파라미터로 51.1% mAP)보다 성능이 뛰어나면서도 훨씬 더 효율적입니다. 가장 큰 모델인 YOLOv9-E는 정확도 경계를 55.6% mAP까지 끌어올리며 이는 YOLOX가 도달하지 못하는 수준입니다. 이 뛰어난 계산당 성능은 YOLOv9를 최신 애플리케이션을 위한 더욱 강력하고 리소스 친화적인 선택으로 만듭니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
이상적인 사용 사례
YOLOv9
YOLOv9는 뛰어난 정확도와 효율성으로 인해 성능이 중요한 까다로운 애플리케이션에 이상적인 선택입니다. 다음과 같은 시나리오에서 뛰어납니다.
- 첨단 운전자 보조 시스템(ADAS): 자율 주행을 위해 차량, 보행자 및 도로 표지판을 높은 정밀도로 감지합니다.
- 높은 수준의 보안: 낮은 오탐지율로 보안 시스템에서 복잡한 장면을 모니터링합니다.
- 산업 자동화: 작은 결함을 식별하여 제조업에서 상세한 품질 관리를 수행합니다.
- 의료 영상: 정확한 이상 징후 객체 탐지를 제공하여 의료 영상 분석 지원.
YOLOX
YOLOX는 정확도와 속도의 견고한 균형이 필요한 애플리케이션, 특히 앵커 프리(anchor-free) 디자인이 특정 데이터 세트에 이점을 제공할 수 있는 경우에 적합합니다. 이상적인 사용 사례는 다음과 같습니다.
- 실시간 추적: 실시간 객체 추적이 필요한 로보틱스 및 감시 시스템에 적용됩니다.
- 학술 연구: 모듈식 앵커 프리(anchor-free) 디자인으로 인해 객체 감지 아키텍처 연구 및 실험에 유용한 모델입니다.
- Edge 배포: 더 작은 YOLOX-Nano 및 YOLOX-Tiny 변형은 리소스가 제한된 장치에 배포할 수 있지만 YOLOv9와 같은 최신 모델은 동일한 리소스 비용으로 더 나은 성능을 제공하는 경우가 많습니다.
결론 및 권장 사항
YOLOv9와 YOLOX는 모두 객체 탐지 분야에 상당한 기여를 했습니다. YOLOX는 앵커 프리 디자인과 분리된 헤드로 경계를 넓혀 실시간 탐지를 위한 강력한 기준을 제공했습니다. 그러나 YOLOv9는 정확도와 효율성 모두에 대한 새로운 표준을 설정했습니다. 혁신적인 PGI 및 GELAN 아키텍처를 통해 더 적은 컴퓨팅 리소스로 뛰어난 성능을 달성할 수 있습니다.
최고의 성능, 효율성 및 사용 편의성을 원하는 개발자 및 연구원에게 YOLOv9는 명확한 선택입니다. Ultralytics 생태계에 통합되어 비교할 수 없는 이점을 제공합니다.
- 사용 편의성: 간소화된 Python API, 광범위한 문서 및 간단한 CLI 사용법으로 개발이 간편해집니다.
- 잘 관리되는 생태계: 활발한 개발, 강력한 커뮤니티 지원, 빈번한 업데이트 및 원활한 MLOps를 위한 Ultralytics HUB와의 통합을 제공합니다.
- 성능 균형: 속도와 정확도 간의 뛰어난 절충점으로 에지에서 클라우드에 이르기까지 다양한 실제 시나리오에 적합합니다.
- 학습 효율성: 더 빠른 학습 시간, 즉시 사용 가능한 사전 학습된 가중치, 효율적인 리소스 활용을 제공합니다.
다른 모델 살펴보기
이 페이지에서는 YOLOv9 및 YOLOX에 중점을 두지만, 컴퓨터 비전 분야는 광범위합니다. Ultralytics 생태계 내에서 사용 가능한 다른 최첨단 모델을 살펴보는 것이 좋습니다. 최신 Ultralytics 모델에 대한 통찰력을 얻으려면 YOLOv9와 YOLOv8 비교를 확인하거나, 기존 산업 표준에서 기술이 얼마나 발전했는지 확인하려면 YOLOv9와 YOLOv5 비교를 확인하십시오. 트랜스포머 기반 아키텍처에 관심이 있는 분들을 위해 RT-DETR과 YOLOv9 비교에서 자세한 분석을 제공합니다.