YOLOX 대 YOLO26: 앵커 프리에서 엔드투엔드 객체 탐지로의 진화
컴퓨터 비전 분야는 지난 5년간 급격한 변화를 겪으며, 복잡한 앵커 기반 아키텍처에서 간소화된 앵커 프리 설계로 진화한 끝에, 마침내 본질적으로 엔드투엔드 시스템에 도달했습니다. 이 비교는 2021년 출시된 핵심 앵커 프리 모델인 YOLOX와 Ultralytics 선보인 최첨단(SOTA) 엔드투엔드 탐지기인 YOLO26 간의 기술적 차이점을 심층적으로 분석합니다.
YOLOX가 당시 연구 및 성능 측면에서 높은 기준을 제시했다면, YOLO26은 NMS 없는 추론과 MuSGD 최적화기 같은 획기적인 최적화를 도입하여, 낮은 지연 시간과 높은 정확도를 요구하는 현대적인 생산 환경에 더 적합한 선택지가 되었습니다.
욜록스: 닻을 내리지 않는 선구자
2021년 7월 메그비 연구진이 발표한 YOLOX는 기존 YOLO (YOLOv4, YOLOv5 등)을 지배해온 앵커 기반 논리에서 크게 벗어난 모델이다. 앵커 박스를 제거함으로써 저자들은 설계 과정을 단순화하고 앵커 클러스터링과 관련된 하이퍼파라미터 튜닝 부담을 줄이는 것을 목표로 했다.
주요 기술적 특징:
- 앵커 프리 메커니즘: 사전 정의된 앵커 박스가 필요 없도록 하여, 객체 탐지를 점 회귀 문제로 처리합니다.
- 분리된 헤드: 분류 및 위치 추정 작업을 네트워크 헤드의 서로 다른 분기로 분리하여 수렴 속도와 정확도를 향상시켰습니다.
- SimOTA: 긍정 샘플을 정답에 동적으로 할당하는 고급 레이블 할당 전략인 간소화된 최적 수송 할당 ( Simpl ified Optimal Transport Assignment).
혁신적이긴 하지만, YOLOX는 후처리 단계에서 기존의 비최대 억제(NMS) 기법에 의존합니다. 이 단계는 중복 경계 상자를 제거하지만 지연 시간 변동성과 계산 오버헤드를 유발하며, 이는 엄격한 실시간 애플리케이션에서 병목 현상이 될 수 있습니다.
모델 상세 정보:
- 작성자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- Organization: Megvii
- 날짜:18
- 링크:YOLOX Arxiv | YOLOX GitHub
YOLO26: 종단간 표준
2026년 1월 출시 Ultralytics가 출시한 YOLO26은 컴퓨터 비전 분야의 효율성 정점을 보여줍니다. 기존 NMS 파이프라인을 완전히 배제하고, 본질적으로 엔드투엔드 NMS( NMS) 설계를 채택했습니다. 이 아키텍처는 모델이 탐지된 객체의 최종 집합을 직접 출력할 수 있게 하여, 지연 시간을 크게 줄이고 배포 로직을 단순화합니다.
주요 기술적 특징:
- NMS 아키텍처: 수천 개의 후보 박스를 정렬하고 필터링하는 계산 비용을 제거하여 안정적이고 예측 가능한 추론 시간을 제공합니다.
- MuSGD 최적화기: SGD 뮤온 ( Muon)을 결합한 하이브리드 최적화기(Moonshot AI의 Kimi K2와 같은 대규모 언어 모델 훈련의 혁신에서 영감을 얻음). 이는 보다 안정적인 훈련 역학과 더 빠른 수렴을 보장합니다.
- DFL 제거: 분포 초점 손실(DFL)을 제거함으로써 모델 헤드를 단순화하여 에지 장치 및 양자화 도구와의 호환성을 높입니다.
- ProgLoss + STAL: 소형 물체 인식 능력을획기적으로 향상시키는 고급 손실 함수(프로그램적 손실 및 규모 이론적 정렬 손실). 이는 드론 영상 및 산업 검사에 있어 핵심적인 역량이다.
모델 상세 정보:
- 저자: 글렌 조커와 징 치우
- Organization: Ultralytics
- 날짜:14
- 링크:YOLO26 문서 | Ultralytics
엔드투엔드가 중요한 이유
YOLOX와 같은 기존 모델은 수천 개의 중복 박스를 출력하며, 이를 비최대 억제(NMS)를 통해 필터링해야 합니다. 이 과정은 CPU 집약적이며 TPU나 NPU 같은 하드웨어 가속기에서 최적화하기 어렵습니다. YOLO26의 엔드투엔드 설계는 이 단계를 제거하여 신경망이 최종 답안을 직접 출력하도록 합니다. 이를 통해 CPU에서 이전 세대 대비 최대 43% 빠른 추론이 가능합니다.
성능 비교
다음 표는 두 아키텍처 간의 성능 차이를 보여줍니다. YOLO26은 특히 에지 AI 애플리케이션에 사용되는 Nano 및 Small 변종에서 우수한 정확도(mAP)와 효율성을 입증합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
참고: YOLOX 속도는 NMS 인해 최신 하드웨어에서 일반적으로 더 느린 반면, YOLO26 메트릭은 모든 후처리 시간을 포함합니다.
심층적인 아키텍처 분석
척추와 머리
YOLOX는 탐지 헤드의 분리(decoupling)에 중점을 둔 수정된 CSPDarknet 백본을 활용합니다. 효과적이긴 하지만, 이러한 분리 방식은 이전 모델들의 공유 헤드 설계에 비해 매개변수 수를 상당히 증가시킵니다.
반면 YOLO26은 신경망 구조 탐색(NAS) 개념을 통해 설계된 고도로 최적화된 백본을 사용합니다. DFL을 제거함으로써 헤드 구조를 간소화하여 모델 크기를 줄일 뿐만 아니라 복잡한 출력 레이어 처리에 어려움을 겪는 하드웨어 가속기와 완벽하게 호환됩니다. 이로 인해 TensorRT 또는 ONNX 으로의 내보내기를 원활하게 합니다.
손실 함수와 학습
YOLOX는 레이블 할당 문제를 동적으로 해결하기 위해 SimOTA를 도입했습니다. 그러나 여전히 표준 손실 함수에 의존합니다. YOLO26은 ProgLoss (프로그램적 손실)와 STAL (규모 이론적 정렬 손실)을 통합하여 이를 발전시켰습니다. 이러한 손실 함수는 물체 크기와 훈련 단계에 따라 바운딩 박스 오차에 대한 페널티를 동적으로 조정하여, 먼 보행자나 제조 결함과 같은 작은 물체 감지에 있어 YOLO 기존 약점을 해결합니다.
또한 YOLO26의 MuSGD 최적화기는 대규모 언어 모델(LLM) 분야의 안정화 기법을 비전 분야로 도입합니다. SGD 레이어 간 업데이트를 더 효과적으로 정규화함으로써 YOLO26은 더 적은 훈련 에포크로도 높은 정확도를 달성합니다.
이상적인 사용 사례
YOLOX를 언제 사용해야 할까?
YOLOX는 학계에서 여전히 가치 있는 기준점이 되고 있다.
- 연구 기준선: 명확하고 앵커 없는 구조로 인해 라벨 할당 전략을 연구하는 연구자들에게 탁월한 기준선이 됩니다.
- 레거시 프로젝트: MegEngine 또는 특정 YOLOX 포크와 이미 깊이 통합된 시스템의 경우 즉시 마이그레이션하는 데 상당한 비용이 발생할 수 있습니다.
YOLO26을 언제 사용해야 하는가
YOLO26은 사실상 모든 새로운 상업 및 산업용 애플리케이션에 권장되는 선택입니다.
- 에지 컴퓨팅: 최대 43% 빠른 CPU 제공하는 YOLO26은 GPU를 사용할 수 없는 라즈베리 파이, 제트슨 나노 및 모바일 기기에 이상적입니다.
- 로봇공학 및 자율 시스템: NMS( 네트워크 모델링 시스템 ) 가 필요 없는 설계는 복잡한 장면(예: 혼잡한 창고를 주행하는 로봇)으로 인한 지연 시간 급증을 제거하여 결정론적 응답 시간을 보장합니다.
- 고정밀 검사: ProgLoss와 STAL의 조합은 미세한 결함이 포함된 품질 관리 작업에서 YOLO26의 우수성을 입증합니다.
- 다중 작업 애플리케이션: 주로 탐지기로 사용되는 YOLOX와 달리, Ultralytics 인스턴스 분할, 자세 추정 및 방향성 바운딩 박스(OBB)를 위한 YOLO26을 지원합니다.
Ultralytics 이점
YOLO26을 선택한다는 것은 포괄적인 Ultralytics 생태계에 접근할 수 있게 됩니다. YOLOX가 독립형 저장소를 제공하는 반면, Ultralytics AI 라이프사이클 전체를 단순화하는 통합 프레임워크를 Ultralytics .
- 사용 편의성: 일관된 Python 통해 작업(detect, segment, 자세 추정)과 모델(YOLO26, YOLO11, RT-DETR)를 단 한 줄의 코드 변경만으로 전환할 수 있습니다.
- 훈련 효율성: Ultralytics 훈련 중 메모리 효율성을 위해 최적화되었습니다. 기존 아키텍처나 대형 트랜스포머 모델에 비해 소비자용 GPU에서도 더 큰 배치로 훈련할 수 있습니다.
- Ultralytics : Ultralytics 데이터셋 관리, 자동 주석 처리, 원클릭 모델 훈련을 위한 웹 기반 인터페이스를 제공하여 팀 협업을 간소화합니다.
- 잘 관리된 생태계: 빈번한 업데이트, 방대한 문서, 활발한 커뮤니티 지원을 통해 개발자들은 디버깅을 혼자서 해결해야 하는 상황에 처하지 않습니다.
코드 예제
YOLO26 실행은 다음을 사용하여 간단합니다. ultralytics 패키지. 다음 예제는 사전 훈련된 모델을 로드하고 이미지에 대해 추론을 실행하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")
# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
# Display the results
for result in results:
result.show() # Show image in a window
# Print boxes to console
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")
결론
YOLOX와 YOLO26은 모두 객체 탐지 역사에서 중요한 이정표입니다. YOLOX는 2021년 앵커 기반 패러다임에 성공적으로 도전하여 앵커 프리 모델도 최상위 성능을 달성할 수 있음을 입증했습니다. 그러나 YOLO26은 추론의 '마지막 마일' 문제인 NMS 현상을 해결함으로써 2026년의 기준을 재정의합니다.
YOLO26은 엔드투엔드 아키텍처, MuSGD 최적화기, 특수 손실 함수를 통해 속도, 정확도, 사용 편의성의 탁월한 균형을 제공합니다. 강력한 클라우드 서버에서든 자원 제약이 있는 에지 디바이스에서든 견고한 컴퓨터 비전 솔루션을 배포하려는 개발자에게YOLO26은 확실한 선택입니다.
다른 현대적 아키텍처를 탐구하고자 하는 분들은 다음을 검토해 보시기 바랍니다 YOLO11 를 검토해 보시거나 RT-DETR 트랜스포머 기반 애플리케이션에 대해 살펴보시기 바랍니다.