YOLOX 대 YOLOv10: 앵커 프리에서 엔드 투 엔드 탐지로의 진화
2021년부터 2024년 사이 객체 탐지 분야의 지형도는 극적으로 변화했습니다. 메그비(Megvii)가 공개한 YOLOX는 앵커 기반 방법에서 벗어나 단순화된 앵커 프리(anchor-free) 설계를 도입하며 연구 기준선으로 선호되는 주요 전환점을 마련했습니다. 3년 후, 칭화대학교 연구진은 YOLOv10를 발표하며, 엔드투엔드 아키텍처를 통해 비최대 억제(NMS)의 필요성을 완전히 제거함으로써 패러다임을 한 단계 더 발전시켰습니다.
이 비교는 YOLOX의 분리된 헤드에서 YOLOv10 이중 할당 전략으로의 기술적 도약을 탐구하여, 개발자가 컴퓨터 비전 파이프라인에 적합한 도구를 선택하는 데 도움을 줍니다.
한눈에 보는 비교
두 모델 모두 실시간 성능을 목표로 하지만, 탐지 문제를 해결하는 방식은 다릅니다. YOLOX는 동적 레이블 할당을 통해 훈련 과정을 단순화하는 데 중점을 두는 반면, YOLOv10 후처리 병목 현상을 제거함으로써 추론 지연 시간을 줄이는 데 YOLOv10 .
욜록스: 닻을 내리지 않는 선구자
YOLOX는 2021년 7월 정거(Zheng Ge)와 메그비(Megvii) 팀에 의해 소개되었습니다. 이 모델은 YOLO 앵커 박스 없는 메커니즘으로 전환하여 엔지니어가 조정해야 하는 설계 매개변수(앵커 박스 크기 등)의 수를 줄였습니다.
- 핵심 혁신: 분리형 헤드 및 SimOTA (간소화된 최적 운송 할당).
- 아키텍처: 속도와 정확성 균형에 중점을 둔 수정된 CSPDarknet 백본.
- 레거시 상태: YOLOX Arxiv 보고서와 같은 학술 논문에서 신뢰할 수 있는 기준선으로 널리 사용됨.
YOLOv10: 실시간 종단 간 detect
YOLOv10, 2024년 5월 칭화대학교 연구진에 의해 발표된 이 NMS 지연 시간 문제를 해결합니다. 훈련 과정에서 일관된 이중 할당 전략을 적용함으로써, 객체당 하나의 박스만 예측하도록 학습되어 진정한 엔드투엔드 배포를 가능하게 합니다.
- 핵심 혁신: 이중 레이블 할당(감독을 위한 일대다, 추론을 위한 일대일)을 통한 NMS 훈련.
- 효율성: 순위 기반 블록 설계를 포함한 종합적 효율성-정확도 주도 모델 설계를 소개합니다.
- 통합: Ultralytics 내에서 지원되어 손쉬운 훈련 및 배포가 가능합니다.
성능 분석
이들 세대 간의 성능 격차는 특히 최신 하드웨어에서의 효율성(FLOPs)과 추론 속도 측면에서 현저합니다. YOLOv10 더 적은 매개변수로 더 높은 평균 정밀도(mAP)를 달성하기 위해 최신 아키텍처 블록을 YOLOv10 .
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
중요한 차이점
- 지연 시간: YOLOv10 NMS YOLOv10 . 에지 디바이스에서 NMS 전체 추론 시간의 상당 부분을 차지할 NMS , YOLOv10 실제 파이프라인에서 YOLOv10 더 빠른 성능을 발휘합니다.
- 정확도: YOLOv10x는 54.4% mAP 달성하며, 매개변수가 거의 두 배에 달하는(99.1M vs 56.9M) YOLOX-x의 51.1%보다 현저히 높은 성능을 보입니다.
- 연산 효율성: YOLOv10 FLOPs 수는 동등한 정확도에서 일반적으로 더 낮아, GPU 부하와 에너지 소비를 줄입니다.
심층적인 아키텍처 분석
YOLOX: 분리형 헤드셋 및 SimOTA
YOLOX는 분리된 헤드를 사용하여 기존 YOLO 차별화되었습니다. 기존 탐지기에서는 분류와 위치 추정 작업이 컨볼루션 특징을 공유했습니다. YOLOX는 이를 두 가지 분기로 분리하여 수렴 속도와 정확도를 향상시켰습니다.
또한 YOLOX는 동적 레이블 할당 전략인 SimOTA를 도입했습니다. SimOTA는 정답 박스와 앵커를 매칭하는 고정된 규칙 대신, 매칭 과정을 최적 수송 문제로 간주하여 전역적 비용 계산에 기반해 레이블을 할당합니다. 이 접근법은 과도한 하이퍼파라미터 튜닝 없이도 다양한 데이터셋에서 YOLOX의 견고성을 보장합니다.
YOLOv10: 일관된 이중 할당
YOLOv10 주요 공헌은 NMS 모델에서 발견된 훈련-추론 간 불일치를 해결한 점이다.
- 일대다 훈련: 훈련 과정에서 모델은 풍부한 감독 신호를 제공하기 위해 단일 객체에 여러 개의 양성 샘플을 할당합니다.
- 일대일 추론: 일관된 매칭 지표를 통해 모델은 추론 과정에서 단일 최적 박스를 선택하는 법을 학습하므로 NMS 필요하지 않습니다.
또한 YOLOv10 전체 트랜스포머의 높은 계산 비용 없이도 글로벌 컨텍스트를 효과적으로 포착하기 위해 대형 커널 컨볼루션(Large-Kernel Convolutions) 과 부분 자기 주의(Partial Self-Attention, PSA) 모듈을 YOLOv10 .
NMS-Free가 중요한 이유
비최대 억제(NMS)는 중첩된 바운딩 박스를 필터링하는 후처리 알고리즘입니다. 효과적이긴 하지만 순차적이며 FPGA나 NPU 같은 하드웨어에서 가속하기 어렵습니다. 이를 제거하면 배포 파이프라인이 엄격히 결정론적이며 더 빨라집니다.
이상적으로 적합한 사용 사례
욜록스를 선택해야 할 때
- 학술 기준선: 연구 논문을 작성 중이며 비교 대조용으로 깨끗하고 표준화된 앵커 프리 탐지기가 필요한 경우.
- 레거시 시스템: 전체 추론 엔진 업그레이드가 불가능한, 이미 Megvii 코드베이스 또는 OpenMMLab 프레임워크에서 검증된 환경.
10 선택해야 할 때
- 저지연 애플리케이션: 자율 제동 시스템이나 고속 산업용 분류와 같은 시나리오에서, 후처리 과정의 모든 밀리초가 중요합니다.
- 자원 제약형 에지 디바이스: 제한된 CPU 가진 디바이스는 NMS 단계 제거로 인해 상당한 이점을 얻습니다.
Ultralytics 이점
YOLOX와 YOLOv10 강력한 YOLOv10 , Ultralytics 원시 모델 코드와 생산 환경에 바로 적용 가능한 애플리케이션 사이의 가교 역할을 제공합니다.
원활한 통합
Ultralytics YOLOv10 Ultralytics 단 한 줄의 코드로 모델 간 전환이 가능합니다. 이를 통해 서로 다른 API나 데이터 형식(예: YOLOX용 COCO 레이블 변환)을 익힐 필요가 없습니다.
from ultralytics import YOLO
# Load YOLOv10n or the newer YOLO26n
model = YOLO("yolov10n.pt")
# Train on your data with one command
model.train(data="coco8.yaml", epochs=100, imgsz=640)
다목적성 및 에코시스템
독립형 YOLOX 저장소와 달리, Ultralytics 검출을 넘어 인스턴스 분할, 자세 추정, OBB 등 다양한 작업을 Ultralytics . 이러한 모든 작업은 Ultralytics 통해 관리할 수 있으며, 웹 기반 데이터셋 관리, 원클릭 훈련, CoreML, ONNX, TensorRT 등의 형식으로의 배포 기능을 제공합니다.
교육 효율성
Ultralytics 메모리 효율성을 위해 최적화되었습니다. 일부 트랜스포머 기반 모델(예: RT-DETR)는 상당한 CUDA 필요로 하는 반면, Ultralytics YOLO 소비자용 GPU에서도 훈련할 수 있도록 설계되어 최첨단 AI 기술에 대한 접근성을 확대합니다.
미래: YOLO26
성능과 사용 편의성에서 최고의 성능을 추구하는 개발자라면, YOLOv10 넘어 새로 출시된 YOLO26를 살펴보시길 권합니다.
2026년 1월 출시된 YOLO26은 YOLOv10 NMS 혁신을 기반으로 YOLOv10 , 생산 환경에서의 안정성과 속도를 위해 개선되었습니다.
- MuSGD 최적화기: Moonshot AI의 대규모 언어 모델(LLM) 훈련 혁신에서 영감을 받아, 이 최적화기는 더 빠른 수렴과 안정적인 훈련 실행을 보장합니다.
- DFL 제거: 분포 초점 손실(Distribution Focal Loss)을 제거함으로써 YOLO26은 모델 그래프를 단순화하여 에지 디바이스로의 내보내기를 원활하게 하고 운영자 호환성 문제 발생 가능성을 줄입니다.
- 속도: CPU 위해 특별히 최적화되어 이전 세대 대비 최대 43% 빠른 속도를 제공하며, 표준 IoT 하드웨어에 이상적입니다.
결론
YOLOX는 객체 탐지 역사에서 중요한 이정표로 남아 있으며, 앵커 프리 방식이 최상위 정확도를 달성할 수 있음을 입증했습니다. YOLOv10 는 논리적으로 다음 단계로, NMS 최종 병목 현상을 제거하여 진정한 엔드 투 엔드 처리를 NMS .
그러나 견고하고 장기적인 해결책을 위해서는 Ultralytics생태계—YOLO26이주도하는—가 가장 완벽한 패키지를 제공합니다. 우수한 문서화, 활발한 커뮤니티 지원, 데이터 주석 작업부터 모델 내보내기까지 모든 것을 처리하는 플랫폼을 통해 Ultralytics 컴퓨터 비전 프로젝트가 프로토타입 단계부터 생산 단계까지 성공하도록 Ultralytics .