YOLOX 대 YOLO11: 고성능 객체 탐지에 대한 심층 분석
컴퓨터 비전의 진화는 높은 정확도와 추론 속도의 균형을 이루는 실시간 객체 탐지 프레임워크의 추구에 크게 힘입어 이루어졌다. 이 여정에서 가장 주목할 만한 이정표로는 YOLOX와 Ultralytics YOLO11가 있습니다. 두 모델 모두 해당 분야에 상당한 기여를 했으나, 그 기반이 되는 아키텍처, 설계 철학, 개발자 생태계는 상당히 다릅니다.
이 포괄적인 기술 비교는 아키텍처, 성능 지표, 훈련 방법론 및 이상적인 배포 시나리오를 탐구하여 차기 인공지능 프로젝트를 위한 정보에 기반한 결정을 내리는 데 도움을 드립니다.
YOLOX 개요
2021년 7월 18일 메그비 ( Megvii )의 연구원 정거(Zheng Ge), 송타오 리우(Songtao Liu), 펑 왕(Feng Wang), 제밍 리(Zeming Li), 지안 쑨(Jian Sun)이 소개한 YOLOX는 YOLO 중대한 전환점을 나타냈다. 앵커 프리(anchor-free) 설계를 도입함으로써 학술 연구와 산업적 응용 간의 격차를 성공적으로 해소했다.
더 자세한 기술적 배경은 원본 YOLOX Arxiv 논문을 참고하시기 바랍니다.
주요 아키텍처 기능
YOLOX는 분리된 헤드를 채택하고 앵커 프리 메커니즘을 도입함으로써 기존의 앵커 기반 탐지 방식을 탈피했습니다. 이러한 설계는 설계 매개변수의 수를 줄이고 다양한 벤치마크에서 모델 성능을 향상시켰습니다. 또한 SimOTA와 같은 고급 레이블 할당 전략을 도입하여 훈련 과정을 가속화하고 수렴성을 개선했습니다.
YOLOX는 당시 기준으로 뛰어난 정확도를 제공하지만, 주로 바운딩 박스 객체 탐지에 초점을 맞추고 있으며 다른 복잡한 비전 작업에 대한 기본적인 지원이 부족합니다.
앵커가 필요 없는 디자인
사전 정의된 앵커 박스를 제거함으로써 YOLOX는 다양한 데이터셋에 필요한 휴리스틱 튜닝을 대폭 줄여, 앵커 프리 방법론 연구를 위한 강력한 기준선이 되었습니다.
Ultralytics YOLO11
2024년 9월 27일, Glenn Jocher와 Jing Qiu가 Ultralytics에서 YOLO11 컴퓨터 비전 분야에서 다용도성과 사용 편의성을 재정의하는 최첨단 YOLO11 . 수년간의 기초 연구를 바탕으로 구축된 이 모델은 다수의 작업에서 탁월한 성능을 발휘하는 고도로 정제된, 즉시 생산 환경에 적용 가능한 솔루션을 제공합니다.
Ultralytics 이점
YOLO11 단순한 객체 탐지기가 YOLO11 . 인스턴스 분할, 이미지 분류, 자세 추정, 방향성 바운딩 박스(OBB) 탐지를 지원하는 통합 프레임워크입니다. 속도, 매개변수 수, 정확도 간의 원활한 균형을 최우선으로 하는 고효율 아키텍처를 자랑합니다.
또한 YOLO11 데이터 주석 작업, 모델 훈련 및 배포를 위한 간소화된 생태계를 제공하는 Ultralytics 플랫폼에 완전히 통합되어 YOLO11 .
성능 및 지표 비교
이러한 모델들을 비교해 보면 성능의 균형이 명확해집니다. YOLO11 대부분의 크기 범주에서 YOLOX 대비 훨씬 적은 매개변수와 FLOPs로 더 높은 평균 정밀도(mAP)를 YOLO11 .
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
보시다시피, YOLO11 모델은 더 적은 파라미터 수를 유지하면서도 정확도 면에서 YOLOX를 지속적으로 능가합니다. 예를 들어, YOLO11m은 20.1M 파라미터만으로 51.5 mAP를 달성하는 반면, YOLOXx는 유사한 51.1 mAP를 달성하지만 99.1M 파라미터라는 막대한 양을 필요로 합니다. 학습 및 추론 시 이러한 메모리 효율성은 YOLO11을 엣지 AI 장치에 배포하는 데 매우 적합하게 만들며, RT-DETR과 같은 구형 또는 트랜스포머 기반 모델에서 흔히 발생하는 높은 CUDA 메모리 요구 사항을 피할 수 있습니다.
효율적인 훈련
Ultralytics YOLOX 및 트랜스포머 기반 아키텍처에 비해 훈련 중 GPU 사용량이 현저히 적어, 연구자들이 일반 소비자용 하드웨어에서도 강력한 모델을 훈련할 수 있게 합니다.
에코시스템 및 사용 편의성
두 프레임워크 간의 가장 두드러진 차이점 중 하나는 개발자 경험입니다.
YOLOX는 모델을 훈련하고 ONNX 또는 TensorRT.
대조적으로, Ultralytics YOLO11Python 놀라울 정도로 간단한 Python CLI 제공합니다. Ultralytics 데이터 증강, 하이퍼파라미터 튜닝, 내보내기를 자동으로 처리합니다.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")
이 잘 관리된 생태계는 방대한 문서와 다음과 같은 도구와의 원활한 통합을 바탕으로 합니다. Weights & Biases 과 같은 도구와의 원활한 통합으로 뒷받침됩니다.
이상적인 사용 사례
이 모델들 중 선택은 배포 환경의 특정 사항에 따라 달라지는 경우가 많습니다.
YOLOX를 언제 사용해야 할까?
- 레거시 시스템: MegEngine 프레임워크 또는 2021년 초 객체 detect 패러다임을 중심으로 명시적으로 구축된 기존 파이프라인이 있는 경우.
- 학술적 기준선: 2021년 시대의 기초적인 앵커 프리 아키텍처와 직접적인 벤치마킹이 필요한 연구를 수행할 때.
YOLO11 언제 사용해야 하는가
- 상용 배포: 견고하고 유지보수되는 코드와 높은 정확도가 필수적인 스마트 소매 또는 보안 경보 시스템의 상업용 애플리케이션에 적합합니다.
- 다중 작업 파이프라인: 단일 통합 프레임워크를 사용하여 객체를 track하고, 사람의 포즈를 추정하며, 인스턴스를 segment해야 하는 프로젝트의 경우.
- 자원 제약이 있는 엣지 장치: 낮은 매개변수 수와 높은 처리량 덕분에 YOLO11은 Raspberry Pi 또는 CoreML 및 NCNN을 통한 모바일 엣지 노드에 배포하기에 이상적입니다.
앞으로의 전망: YOLO26의 장점
YOLO11 YOLOX 대비 획기적인 발전을 YOLO11 , 컴퓨터 비전 분야는 여전히 빠르게 진화하고 있습니다. 오늘날 새로운 프로젝트를 시작하는 개발자들에게는 Ultralytics 이 확실한 추천입니다.
2026년 1월 출시된 YOLO26은 YOLO11 뛰어난 아키텍처를 계승하면서 다음과 같은 획기적인 기능을 도입합니다:
- 엔드투엔드 NMS-Free 설계: YOLO26은 Non-Maximum Suppression (NMS) 후처리 과정을 제거하여, YOLOv10에서 처음 탐구된 개념인 추론을 기본적으로 스트리밍하여 더 빠르고 간단한 배포 파이프라인을 제공합니다.
- 최대 43% 더 빠른 CPU 추론: Distribution Focal Loss (DFL) 제거를 통해 YOLO26은 CPU 및 저전력 엣지 디바이스에서 훨씬 더 효율적입니다.
- MuSGD Optimizer: Moonshot AI의 LLM 훈련 혁신에서 영감을 받은 MuSGD 옵티마이저는 매우 안정적인 훈련 실행과 빠른 수렴을 보장합니다.
- 고급 손실 함수: ProgLoss + STAL을 활용하는 YOLO26은 소형 객체 인식에서 상당한 개선을 달성하며, 이는 드론 이미지 및 자율 로봇 공학에 매우 중요합니다.
현대 컴퓨터 비전 작업의 압도적 다수에서, 파이프라인을 업그레이드하여 YOLO26을 활용하면 속도, 정확도, 배포 용이성 간의 최상의 균형을 제공할 것입니다.