콘텐츠로 건너뛰기

YOLOX 대 YOLOv9: 고성능 객체 탐지의 진화

급속히 발전하는 컴퓨터 비전 분야에서 정확도, 속도, 배포 복잡성 사이의 균형을 맞추기 위해서는 올바른 객체 탐지 모델을 선택하는 것이 매우 중요합니다. 본 비교 분석은 YOLO 두 가지 중요한 이정표인 2021년에 출시된 강력한 앵커 프리 탐지기 YOLOX와YOLOv9를 비교합니다. YOLOv9는 우수한 특징 보존을 위해 프로그래머블 그라디언트 정보(PGI)를 도입한 2024년 아키텍처입니다.

욜록스: 닻을 내리지 않는 선구자

YOLOX는 앵커 기반 메커니즘에서 벗어나 앵커 프리 설계로 전환함으로써 YOLO 주요 변화를 대표했습니다. 이러한 단순화를 통해 수동 앵커 박스 튜닝의 필요성이 사라졌고, 모델이 다양한 데이터셋과 종횡비에 더 잘 적응할 수 있게 되었습니다. 분리된 헤드와 고급 SimOTA 레이블 할당 전략을 통합함으로써 YOLOX는 출시 당시 최첨단 성능을 달성했으며, 학술 연구와 산업적 적용 간의 격차를 해소했습니다.

YOLOX에 대해 자세히 알아보세요

주요 아키텍처 기능

  • 앵커 프리 메커니즘: 앵커 박스 클러스터링의 복잡성을 제거하여 설계 매개변수 수를 줄이고 일반화 성능을 향상시킵니다.
  • 분리된 헤드: 분류와 회귀 작업을 서로 다른 분기로 분리하여, 이 두 목표 간의 충돌을 해결하고 수렴 속도를 향상시킵니다.
  • SimOTA 라벨 할당: 훈련 과정을 최적 수송 문제로 간주하는 동적 라벨 할당 전략으로, 정적 IoU 예측값에 대한 실제 라벨을 더 효과적으로 할당합니다.

YOLOv9: 딥 러닝을 위한 프로그래머블 그라디언트

YOLOv9 딥 뉴럴 네트워크에서 발생하는 정보 손실이라는 근본적인 문제를 해결합니다. 네트워크가 깊어질수록 전파 과정에서 핵심 특징 정보가 사라질 수 있습니다. YOLOv9 프로그래머블 그라디언트 정보(PGI)일반화된 효율적 레이어 집계 네트워크(GELAN) 를 YOLOv9 네트워크 레이어 전반에 걸쳐 중요한 데이터를 보존합니다. 이를 통해 높은 효율성을 유지하면서도, 특히 경량 모델의 경우 탐지 정확도가 크게 향상됩니다.

9에 대해 자세히 알아보기

주요 아키텍처 기능

  • GELAN 아키텍처: CSPNet과 ELAN 설계 원칙을 결합하여 매개변수 효율성과 계산 속도를 극대화함으로써, 모델이 다양한 하드웨어에서 효과적으로 실행될 수 있도록 합니다.
  • 프로그래머블 그라디언트 정보(PGI): 네트워크 가중치 업데이트를 위한 신뢰할 수 있는 그라디언트를 생성하는 보조 감독 프레임워크로, 매우 깊은 아키텍처에서도 주 분기가 완전한 특징을 학습하도록 보장합니다.
  • 가역 함수: 데이터가 효과적으로 재구성될 수 있도록 보장함으로써 정보 병목 현상 문제를 완화하고, 계층 간 의미 정보를 보존합니다.

성능 비교

이러한 모델을 평가할 때, YOLOv9 일반적으로 정확도 대비 매개변수 비율 측면에서 YOLOX보다 우수한 성능을 보입니다. YOLOX-x가 51.1% mAP 괜찮은 성능을 달성하는 반면, 최신 모델인 YOLOv9c는 훨씬 적은 매개변수(25.3M vs 99.1M)와 낮은 연산 성능을 사용하면서도 53.0% mAP 이를 능가합니다 mAP 이러한 효율성 덕분에 YOLOv9 하드웨어 자원이 제한적이면서도 높은 정확도가 요구되는 실시간 애플리케이션에 더 YOLOv9 .

그러나 YOLOX는 기존 에지 장치에 여전히 매우 적합합니다. 이 모델의 단순한 앵커 프리 설계는 GELAN과 같은 최신 모델에서 발견되는 복잡한 레이어 집계를 완전히 지원하지 못하는 특정 모바일 칩셋이나 NPU 아키텍처에 대해 최적화하기가 더 쉬울 수 있습니다.

상세 지표

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

효율성 강조

YOLOv9c는 가장 큰 YOLOX-x (51.1% mAP)보다 높은 정확도(53.0% mAP)를 달성하면서도 약 75% 적은 매개변수를 사용합니다. 이는 두 모델 출시 사이 3년 동안 아키텍처 효율성이 급속히 발전했음을 보여줍니다.

Ultralytics의 교육 및 사용 편의성

개발자에게 있어 중요한 차별화 요소는 모델을 둘러싼 생태계입니다. YOLOv9 는 Ultralytics 완벽하게 통합되어 사용성 측면에서 상당한 이점을 제공합니다.

Ultralytics 이점

Ultralytics Python 사용하면 통일된 구문으로 최신 모델에 접근할 수 있습니다. 복잡한 저장소를 복제하거나 C++ 연산자를 수동으로 컴파일할 필요가 없으며, 이는 YOLOX와 같은 원본 연구 구현에서 흔히 발생하는 장애물입니다.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

이 통합은 다음을 제공합니다:

  1. 간소화된 워크플로: 탐지, 분할, 자세 추정 작업 간 원활한 전환이 가능합니다.
  2. 메모리 효율성: Ultralytics 파이프라인은 소비자용 하드웨어에 최적화되어 있어, 트랜스포머 기반 대안이나 최적화되지 않은 연구 코드베이스보다 일반적으로 더 적은 GPU 필요로 합니다.
  3. 배포 준비 상태: 내장된 내보내기 기능을 통해 훈련된 모델을 ONNX, TensorRT, CoreML 및 TFLite 변환할 수 있습니다.

실제 응용 분야

이러한 모델들 사이에서 선택하는 것은 귀하의 구체적인 배포 제약 조건에 따라 달라집니다.

고속 소매 분석

에지 디바이스에서 실시간 제품 인식이 필요한 소매 환경을 위해, YOLOv9 이 종종 더 나은 선택입니다. GELAN 아키텍처는 NVIDIA Orin Nano와 같은 장치에서 높은 처리량을 가능하게 하여, 자동 결제나 진열대 재고 분석과 같은 기능을 상당한 지연 없이 구현할 수 있습니다.

레거시 모바일 배포

구형 모바일 하드웨어나 단순한 컨볼루션 패턴을 선호하는 특정 NPU 아키텍처가 포함된 시나리오에서는 여전히 YOLOX-Nano 또는 YOLOX-Tiny가 선호될 수 있습니다. 복잡한 집계 블록이 없는 순수한 앵커 프리 설계는 매우 제한된 마이크로컨트롤러나 구형 Android 양자화 및 배포가 더 용이할 수 있습니다.

자율 로봇 공학

충돌 방지를 위해 정확도 극대화가 최우선인 로봇 공학 응용 분야에서, YOLOv9e의 우수한 특징 보존 능력은 기존 모델이 따라잡을 수 없는 안전 여유를 제공합니다. PGI 프레임워크는 복잡한 환경에서의 탐색에 중요한 특징 추출 과정에서 작은 장애물이 누락되지 않도록 보장합니다.

미래: YOLO26의 등장

YOLOv9 탁월한 성능을 YOLOv9 , AI 분야는 결코 멈추지 않습니다. 새로 출시된 YOLO26은 이러한 기반 위에 구축되어 속도와 정밀도의 궁극적인 균형을 제공합니다.

YOLO26은 추론 과정에서 비최대 억제( NMS) 전혀 필요 없는 내장형 엔드투엔드 설계를 도입했습니다. 이로 인해 배포 파이프라인이 훨씬 단순해지고 실행 속도가 빨라졌습니다. 또한, 분포 초점 손실(DFL)을 제거하고 새로운 MuSGD 최적화기 ( SGD Muon의 하이브리드)를 활용함으로써, YOLO26은 이전 세대에 비해 최대 43% 빠른 CPU 달성하여 현대적인 엣지 컴퓨팅에 이상적인 선택이 됩니다.

최고 수준의 성능을 추구하는 개발자라면, 차세대 컴퓨터 비전 기술의 혁신을 활용하기 위해 다음 프로젝트에 YOLO26을 검토해 보시길 권장합니다.

탐색해 볼 만한 유사 모델

  • YOLO11: YOLO26의 강력한 선행 모델로, 다양한 비전 작업에 걸쳐 탁월한 다용도성을 제공합니다.
  • RT-DETR: NMS 제거하는 트랜스포머 기반 탐지기로, 순수 추론 속도보다 높은 정확도가 우선시되는 시나리오에 이상적입니다.
  • YOLOv10: NMS 훈련이 가능한 패러다임을 최초로 도입한 YOLO , 현대적인 YOLO26 아키텍처로의 가교 역할을 수행합니다.

댓글