YOLOX 대 YOLOv9: 고성능 객체 탐지의 진화

급속히 발전하는 컴퓨터 비전 분야에서 정확도, 속도, 배포 복잡성 사이의 균형을 맞추기 위해서는 올바른 객체 탐지 모델을 선택하는 것이 매우 중요합니다. 본 비교 분석은 YOLO 두 가지 중요한 이정표인 2021년에 출시된 강력한 앵커 프리 탐지기 YOLOX와YOLOv9를 비교합니다. YOLOv9는 우수한 특징 보존을 위해 프로그래머블 그라디언트 정보(PGI)를 도입한 2024년 아키텍처입니다.

욜록스: 닻을 내리지 않는 선구자

YOLOX는 앵커 기반 메커니즘에서 벗어나 앵커 프리 설계로 전환함으로써 YOLO 주요 변화를 대표했습니다. 이러한 단순화를 통해 수동 앵커 박스 튜닝의 필요성이 사라졌고, 모델이 다양한 데이터셋과 종횡비에 더 잘 적응할 수 있게 되었습니다. 분리된 헤드와 고급 SimOTA 레이블 할당 전략을 통합함으로써 YOLOX는 출시 당시 최첨단 성능을 달성했으며, 학술 연구와 산업적 적용 간의 격차를 해소했습니다.

작성자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
조직조직: Megvii
날짜:18
Arxiv:욜록스: 2021년 YOLO 시리즈를 뛰어넘다
GitHub:Megvii-BaseDetection/YOLOX

YOLOX에 대해 자세히 알아보세요

주요 아키텍처 기능

앵커 프리 메커니즘: 앵커 박스 클러스터링의 복잡성을 제거하여 설계 매개변수 수를 줄이고 일반화 성능을 향상시킵니다.
분리된 헤드: 분류와 회귀 작업을 서로 다른 분기로 분리하여, 이 두 목표 간의 충돌을 해결하고 수렴 속도를 향상시킵니다.
SimOTA 라벨 할당: 훈련 과정을 최적 수송 문제로 간주하는 동적 라벨 할당 전략으로, 정적 IoU 예측값에 대한 실제 라벨을 더 효과적으로 할당합니다.

YOLOv9: 딥 러닝을 위한 프로그래머블 그라디언트

YOLOv9 딥 뉴럴 네트워크에서 발생하는 정보 손실이라는 근본적인 문제를 해결합니다. 네트워크가 깊어질수록 전파 과정에서 핵심 특징 정보가 사라질 수 있습니다. YOLOv9 프로그래머블 그라디언트 정보(PGI) 와 일반화된 효율적 레이어 집계 네트워크(GELAN) 를 YOLOv9 네트워크 레이어 전반에 걸쳐 중요한 데이터를 보존합니다. 이를 통해 높은 효율성을 유지하면서도, 특히 경량 모델의 경우 탐지 정확도가 크게 향상됩니다.

저자: Chien-Yao Wang 및 Hong-Yuan Mark Liao
조직: 정보 과학 연구소, 아카데미아 시니카
날짜:21
Arxiv:YOLOv9: 프로그래밍 가능한 기울기 정보를 사용하여 학습하고자 하는 것을 학습하기
GitHub:WongKinYiu/yolov9
문서:Ultralytics 9 문서

9에 대해 자세히 알아보기

주요 아키텍처 기능

GELAN 아키텍처: CSPNet과 ELAN 설계 원칙을 결합하여 매개변수 효율성과 계산 속도를 극대화함으로써, 모델이 다양한 하드웨어에서 효과적으로 실행될 수 있도록 합니다.
프로그래머블 그라디언트 정보(PGI): 네트워크 가중치 업데이트를 위한 신뢰할 수 있는 그라디언트를 생성하는 보조 감독 프레임워크로, 매우 깊은 아키텍처에서도 주 분기가 완전한 특징을 학습하도록 보장합니다.
가역 함수: 데이터가 효과적으로 재구성될 수 있도록 보장함으로써 정보 병목 현상 문제를 완화하고, 계층 간 의미 정보를 보존합니다.

성능 비교

이러한 모델을 평가할 때, YOLOv9 일반적으로 정확도 대비 매개변수 비율 측면에서 YOLOX보다 우수한 성능을 보입니다. YOLOX-x가 51.1% mAP 괜찮은 성능을 달성하는 반면, 최신 모델인 YOLOv9c는 훨씬 적은 매개변수(25.3M vs 99.1M)와 낮은 연산 성능을 사용하면서도 53.0% mAP 이를 능가합니다 mAP 이러한 효율성 덕분에 YOLOv9 하드웨어 자원이 제한적이면서도 높은 정확도가 요구되는 실시간 애플리케이션에 더 YOLOv9 .

그러나 YOLOX는 기존 에지 장치에 여전히 매우 적합합니다. 이 모델의 단순한 앵커 프리 설계는 GELAN과 같은 최신 모델에서 발견되는 복잡한 레이어 집계를 완전히 지원하지 못하는 특정 모바일 칩셋이나 NPU 아키텍처에 대해 최적화하기가 더 쉬울 수 있습니다.

상세 지표

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

효율성 강조

YOLOv9c는 가장 큰 YOLOX-x (51.1% mAP)보다 높은 정확도(53.0% mAP)를 달성하면서도 약 75% 적은 매개변수를 사용합니다. 이는 두 모델 출시 사이 3년 동안 아키텍처 효율성이 급속히 발전했음을 보여줍니다.

Ultralytics의 교육 및 사용 편의성

개발자에게 있어 중요한 차별화 요소는 모델을 둘러싼 생태계입니다. YOLOv9 는 Ultralytics 완벽하게 통합되어 사용성 측면에서 상당한 이점을 제공합니다.

Ultralytics 이점

Ultralytics Python 사용하면 통일된 구문으로 최신 모델에 접근할 수 있습니다. 복잡한 저장소를 복제하거나 C++ 연산자를 수동으로 컴파일할 필요가 없으며, 이는 YOLOX와 같은 원본 연구 구현에서 흔히 발생하는 장애물입니다.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

이 통합은 다음을 제공합니다:

간소화된 워크플로: 탐지, 분할, 자세 추정 작업 간 원활한 전환이 가능합니다.
메모리 효율성: Ultralytics 파이프라인은 소비자용 하드웨어에 최적화되어 있어, 트랜스포머 기반 대안이나 최적화되지 않은 연구 코드베이스보다 일반적으로 더 적은 GPU 필요로 합니다.
배포 준비 상태: 내장된 내보내기 기능을 통해 훈련된 모델을 ONNX, TensorRT, CoreML 및 TFLite 변환할 수 있습니다.

실제 응용 분야

이러한 모델들 사이에서 선택하는 것은 귀하의 구체적인 배포 제약 조건에 따라 달라집니다.

고속 소매 분석

에지 디바이스에서 실시간 제품 인식이 필요한 소매 환경을 위해, YOLOv9 이 종종 더 나은 선택입니다. GELAN 아키텍처는 NVIDIA Orin Nano와 같은 장치에서 높은 처리량을 가능하게 하여, 자동 결제나 진열대 재고 분석과 같은 기능을 상당한 지연 없이 구현할 수 있습니다.

레거시 모바일 배포

구형 모바일 하드웨어나 단순한 컨볼루션 패턴을 선호하는 특정 NPU 아키텍처가 포함된 시나리오에서는 여전히 YOLOX-Nano 또는 YOLOX-Tiny가 선호될 수 있습니다. 복잡한 집계 블록이 없는 순수한 앵커 프리 설계는 매우 제한된 마이크로컨트롤러나 구형 Android 양자화 및 배포가 더 용이할 수 있습니다.

자율 로봇 공학

충돌 방지를 위해 정확도 극대화가 최우선인 로봇 공학 응용 분야에서, YOLOv9e의 우수한 특징 보존 능력은 기존 모델이 따라잡을 수 없는 안전 여유를 제공합니다. PGI 프레임워크는 복잡한 환경에서의 탐색에 중요한 특징 추출 과정에서 작은 장애물이 누락되지 않도록 보장합니다.

미래: YOLO26의 등장

YOLOv9 탁월한 성능을 YOLOv9 , AI 분야는 결코 멈추지 않습니다. 새로 출시된 YOLO26은 이러한 기반 위에 구축되어 속도와 정밀도의 궁극적인 균형을 제공합니다.

YOLO26은 추론 과정에서 비최대 억제( NMS) 가 전혀 필요 없는 내장형 엔드투엔드 설계를 도입했습니다. 이로 인해 배포 파이프라인이 훨씬 단순해지고 실행 속도가 빨라졌습니다. 또한, 분포 초점 손실(DFL)을 제거하고 새로운 MuSGD 최적화기 ( SGD Muon의 하이브리드)를 활용함으로써, YOLO26은 이전 세대에 비해 최대 43% 빠른 CPU 달성하여 현대적인 엣지 컴퓨팅에 이상적인 선택이 됩니다.

최고 수준의 성능을 추구하는 개발자라면, 차세대 컴퓨터 비전 기술의 혁신을 활용하기 위해 다음 프로젝트에 YOLO26을 검토해 보시길 권장합니다.

탐색해 볼 만한 유사 모델

YOLO11: YOLO26의 강력한 선행 모델로, 다양한 비전 작업에 걸쳐 탁월한 다용도성을 제공합니다.
RT-DETR: NMS 제거하는 트랜스포머 기반 탐지기로, 순수 추론 속도보다 높은 정확도가 우선시되는 시나리오에 이상적입니다.
YOLOv10: NMS 훈련이 가능한 패러다임을 최초로 도입한 YOLO , 현대적인 YOLO26 아키텍처로의 가교 역할을 수행합니다.

YOLOX 대 YOLOv9: 고성능 객체 탐지의 진화

욜록스: 닻을 내리지 않는 선구자

주요 아키텍처 기능

YOLOv9: 딥 러닝을 위한 프로그래머블 그라디언트

주요 아키텍처 기능

성능 비교

상세 지표

Ultralytics의 교육 및 사용 편의성

Ultralytics 이점

실제 응용 분야

고속 소매 분석

레거시 모바일 배포

자율 로봇 공학

미래: YOLO26의 등장

탐색해 볼 만한 유사 모델

댓글