YOLOX 대 YOLOv9: 고성능 객체 탐지의 진화
급속히 발전하는 컴퓨터 비전 분야에서 정확도, 속도, 배포 복잡성 사이의 균형을 맞추기 위해서는 올바른 객체 탐지 모델을 선택하는 것이 매우 중요합니다. 본 비교 분석은 YOLO 두 가지 중요한 이정표인 2021년에 출시된 강력한 앵커 프리 탐지기 YOLOX와YOLOv9를 비교합니다. YOLOv9는 우수한 특징 보존을 위해 프로그래머블 그라디언트 정보(PGI)를 도입한 2024년 아키텍처입니다.
욜록스: 닻을 내리지 않는 선구자
YOLOX는 앵커 기반 메커니즘에서 벗어나 앵커 프리 설계로 전환함으로써 YOLO 주요 변화를 대표했습니다. 이러한 단순화를 통해 수동 앵커 박스 튜닝의 필요성이 사라졌고, 모델이 다양한 데이터셋과 종횡비에 더 잘 적응할 수 있게 되었습니다. 분리된 헤드와 고급 SimOTA 레이블 할당 전략을 통합함으로써 YOLOX는 출시 당시 최첨단 성능을 달성했으며, 학술 연구와 산업적 적용 간의 격차를 해소했습니다.
- 작성자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- 조직조직: Megvii
- 날짜:18
- Arxiv:욜록스: 2021년 YOLO 시리즈를 뛰어넘다
- GitHub:Megvii-BaseDetection/YOLOX
주요 아키텍처 기능
- 앵커 프리 메커니즘: 앵커 박스 클러스터링의 복잡성을 제거하여 설계 매개변수 수를 줄이고 일반화 성능을 향상시킵니다.
- 분리된 헤드: 분류와 회귀 작업을 서로 다른 분기로 분리하여, 이 두 목표 간의 충돌을 해결하고 수렴 속도를 향상시킵니다.
- SimOTA 라벨 할당: 훈련 과정을 최적 수송 문제로 간주하는 동적 라벨 할당 전략으로, 정적 IoU 예측값에 대한 실제 라벨을 더 효과적으로 할당합니다.
YOLOv9: 딥 러닝을 위한 프로그래머블 그라디언트
YOLOv9 딥 뉴럴 네트워크에서 발생하는 정보 손실이라는 근본적인 문제를 해결합니다. 네트워크가 깊어질수록 전파 과정에서 핵심 특징 정보가 사라질 수 있습니다. YOLOv9 프로그래머블 그라디언트 정보(PGI) 와 일반화된 효율적 레이어 집계 네트워크(GELAN) 를 YOLOv9 네트워크 레이어 전반에 걸쳐 중요한 데이터를 보존합니다. 이를 통해 높은 효율성을 유지하면서도, 특히 경량 모델의 경우 탐지 정확도가 크게 향상됩니다.
- 저자: Chien-Yao Wang 및 Hong-Yuan Mark Liao
- 조직: 정보 과학 연구소, 아카데미아 시니카
- 날짜:21
- Arxiv:YOLOv9: 프로그래밍 가능한 기울기 정보를 사용하여 학습하고자 하는 것을 학습하기
- GitHub:WongKinYiu/yolov9
- 문서:Ultralytics 9 문서
주요 아키텍처 기능
- GELAN 아키텍처: CSPNet과 ELAN 설계 원칙을 결합하여 매개변수 효율성과 계산 속도를 극대화함으로써, 모델이 다양한 하드웨어에서 효과적으로 실행될 수 있도록 합니다.
- 프로그래머블 그라디언트 정보(PGI): 네트워크 가중치 업데이트를 위한 신뢰할 수 있는 그라디언트를 생성하는 보조 감독 프레임워크로, 매우 깊은 아키텍처에서도 주 분기가 완전한 특징을 학습하도록 보장합니다.
- 가역 함수: 데이터가 효과적으로 재구성될 수 있도록 보장함으로써 정보 병목 현상 문제를 완화하고, 계층 간 의미 정보를 보존합니다.
성능 비교
이러한 모델을 평가할 때, YOLOv9 일반적으로 정확도 대비 매개변수 비율 측면에서 YOLOX보다 우수한 성능을 보입니다. YOLOX-x가 51.1% mAP 괜찮은 성능을 달성하는 반면, 최신 모델인 YOLOv9c는 훨씬 적은 매개변수(25.3M vs 99.1M)와 낮은 연산 성능을 사용하면서도 53.0% mAP 이를 능가합니다 mAP 이러한 효율성 덕분에 YOLOv9 하드웨어 자원이 제한적이면서도 높은 정확도가 요구되는 실시간 애플리케이션에 더 YOLOv9 .
그러나 YOLOX는 기존 에지 장치에 여전히 매우 적합합니다. 이 모델의 단순한 앵커 프리 설계는 GELAN과 같은 최신 모델에서 발견되는 복잡한 레이어 집계를 완전히 지원하지 못하는 특정 모바일 칩셋이나 NPU 아키텍처에 대해 최적화하기가 더 쉬울 수 있습니다.
상세 지표
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
효율성 강조
YOLOv9c는 가장 큰 YOLOX-x (51.1% mAP)보다 높은 정확도(53.0% mAP)를 달성하면서도 약 75% 적은 매개변수를 사용합니다. 이는 두 모델 출시 사이 3년 동안 아키텍처 효율성이 급속히 발전했음을 보여줍니다.
Ultralytics의 교육 및 사용 편의성
개발자에게 있어 중요한 차별화 요소는 모델을 둘러싼 생태계입니다. YOLOv9 는 Ultralytics 완벽하게 통합되어 사용성 측면에서 상당한 이점을 제공합니다.
Ultralytics 이점
Ultralytics Python 사용하면 통일된 구문으로 최신 모델에 접근할 수 있습니다. 복잡한 저장소를 복제하거나 C++ 연산자를 수동으로 컴파일할 필요가 없으며, 이는 YOLOX와 같은 원본 연구 구현에서 흔히 발생하는 장애물입니다.
from ultralytics import YOLO
# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")
# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
이 통합은 다음을 제공합니다:
- 간소화된 워크플로: 탐지, 분할, 자세 추정 작업 간 원활한 전환이 가능합니다.
- 메모리 효율성: Ultralytics 파이프라인은 소비자용 하드웨어에 최적화되어 있어, 트랜스포머 기반 대안이나 최적화되지 않은 연구 코드베이스보다 일반적으로 더 적은 GPU 필요로 합니다.
- 배포 준비 상태: 내장된 내보내기 기능을 통해 훈련된 모델을 ONNX, TensorRT, CoreML 및 TFLite 변환할 수 있습니다.
실제 응용 분야
이러한 모델들 사이에서 선택하는 것은 귀하의 구체적인 배포 제약 조건에 따라 달라집니다.
고속 소매 분석
에지 디바이스에서 실시간 제품 인식이 필요한 소매 환경을 위해, YOLOv9 이 종종 더 나은 선택입니다. GELAN 아키텍처는 NVIDIA Orin Nano와 같은 장치에서 높은 처리량을 가능하게 하여, 자동 결제나 진열대 재고 분석과 같은 기능을 상당한 지연 없이 구현할 수 있습니다.
레거시 모바일 배포
구형 모바일 하드웨어나 단순한 컨볼루션 패턴을 선호하는 특정 NPU 아키텍처가 포함된 시나리오에서는 여전히 YOLOX-Nano 또는 YOLOX-Tiny가 선호될 수 있습니다. 복잡한 집계 블록이 없는 순수한 앵커 프리 설계는 매우 제한된 마이크로컨트롤러나 구형 Android 양자화 및 배포가 더 용이할 수 있습니다.
자율 로봇 공학
충돌 방지를 위해 정확도 극대화가 최우선인 로봇 공학 응용 분야에서, YOLOv9e의 우수한 특징 보존 능력은 기존 모델이 따라잡을 수 없는 안전 여유를 제공합니다. PGI 프레임워크는 복잡한 환경에서의 탐색에 중요한 특징 추출 과정에서 작은 장애물이 누락되지 않도록 보장합니다.
미래: YOLO26의 등장
YOLOv9 탁월한 성능을 YOLOv9 , AI 분야는 결코 멈추지 않습니다. 새로 출시된 YOLO26은 이러한 기반 위에 구축되어 속도와 정밀도의 궁극적인 균형을 제공합니다.
YOLO26은 추론 과정에서 비최대 억제( NMS) 가 전혀 필요 없는 내장형 엔드투엔드 설계를 도입했습니다. 이로 인해 배포 파이프라인이 훨씬 단순해지고 실행 속도가 빨라졌습니다. 또한, 분포 초점 손실(DFL)을 제거하고 새로운 MuSGD 최적화기 ( SGD Muon의 하이브리드)를 활용함으로써, YOLO26은 이전 세대에 비해 최대 43% 빠른 CPU 달성하여 현대적인 엣지 컴퓨팅에 이상적인 선택이 됩니다.
최고 수준의 성능을 추구하는 개발자라면, 차세대 컴퓨터 비전 기술의 혁신을 활용하기 위해 다음 프로젝트에 YOLO26을 검토해 보시길 권장합니다.
탐색해 볼 만한 유사 모델
- YOLO11: YOLO26의 강력한 선행 모델로, 다양한 비전 작업에 걸쳐 탁월한 다용도성을 제공합니다.
- RT-DETR: NMS 제거하는 트랜스포머 기반 탐지기로, 순수 추론 속도보다 높은 정확도가 우선시되는 시나리오에 이상적입니다.
- YOLOv10: NMS 훈련이 가능한 패러다임을 최초로 도입한 YOLO , 현대적인 YOLO26 아키텍처로의 가교 역할을 수행합니다.