YOLOX vs YOLO11: 고성능 객체 탐지에 대한 심층 분석

컴퓨터 비전의 발전은 높은 정확도와 추론 속도 사이의 균형을 맞추는 실시간 객체 탐지 프레임워크에 대한 추구에 의해 크게 주도되어 왔습니다. 이 여정에서 가장 주목할 만한 이정표 중 하나로 YOLOXUltralytics YOLO11을 꼽을 수 있습니다. 두 모델 모두 이 분야에 큰 기여를 했지만, 기본 아키텍처, 설계 철학 및 개발자 생태계는 크게 다릅니다.

이 포괄적인 기술 비교에서는 다음 인공지능 프로젝트를 위해 정보에 입각한 결정을 내릴 수 있도록 두 모델의 아키텍처, 성능 지표, 학습 방법론 및 이상적인 배포 시나리오를 살펴봅니다.

YOLOX 개요

2021년 7월 18일 Megvii의 연구원인 Zheng Ge, Songtao Liu, Feng Wang, Zeming Li 및 Jian Sun이 발표한 YOLOX는 YOLO 시리즈의 중요한 전환점이 되었습니다. 앵커 프리(anchor-free) 설계를 도입하여 학계 연구와 산업 응용 간의 간극을 성공적으로 메웠습니다.

더 자세한 기술적 배경은 원본 YOLOX Arxiv 논문을 검토하실 수 있습니다.

주요 아키텍처 특징

YOLOX는 디커플드 헤드(decoupled head)와 앵커 프리 메커니즘을 채택하여 기존의 앵커 기반 탐지 방식에서 벗어났습니다. 이러한 설계는 설계 파라미터 수를 줄이고 다양한 벤치마크에서 모델의 성능을 향상시켰습니다. 또한, 학습 과정을 가속화하고 수렴을 개선하기 위해 SimOTA와 같은 고급 레이블 할당 전략을 도입했습니다.

YOLOX는 당시 기준으로 뛰어난 정확도를 제공하지만, 주로 BBox 객체 탐지에 집중되어 있으며 다른 복잡한 비전 작업에 대한 기본 지원은 부족합니다.

YOLOX에 대해 더 알아보기

앵커 프리 설계

사전 정의된 앵커 박스를 제거함으로써 YOLOX는 서로 다른 데이터셋에 대해 필요한 휴리스틱 튜닝을 크게 줄였으며, 이는 앵커 프리 방법론 연구를 위한 강력한 베이스라인이 되었습니다.

Ultralytics YOLO11 개요

2024년 9월 27일 Ultralytics의 Glenn Jocher와 Jing Qiu가 발표한 YOLO11은 컴퓨터 비전 분야의 범용성과 사용 편의성을 재정의하는 최첨단 모델입니다. 다년간의 기반 연구를 바탕으로 구축되었으며, 다양한 작업 전반에서 뛰어난 성능을 발휘하는 고도로 정제된 프로덕션 준비 솔루션을 제공합니다.

Ultralytics의 강점

YOLO11은 단순한 객체 탐지기가 아니라 인스턴스 분할, 이미지 분류, 자세 추정방향성 BBox (OBB) 탐지를 지원하는 통합 프레임워크입니다. 속도, 파라미터 수 및 정확도 사이의 원활한 균형을 우선시하는 효율적인 아키텍처를 자랑합니다.

또한, YOLO11은 데이터 주석, 모델 학습 및 배포를 위한 간소화된 생태계를 제공하는 Ultralytics Platform에 완전히 통합되어 있습니다.

YOLO11에 대해 더 알아보기

성능 및 메트릭 비교

이 모델들을 비교하면 성능의 균형이 명확해집니다. YOLO11은 대부분의 크기 범주에서 YOLOX 제품군보다 훨씬 적은 파라미터와 FLOPs로 더 높은 mAP(mean Average Precision)를 달성합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

입증된 바와 같이, YOLO11 모델은 YOLOX보다 더 가벼운 파라미터 공간을 유지하면서 일관되게 높은 정확도를 보여줍니다. 예를 들어, YOLO11m은 단 20.1M 파라미터51.5 mAP를 달성하는 반면, YOLOXx는 유사한 51.1 mAP를 달성하지만 무려 99.1M 파라미터가 필요합니다. 학습 및 추론 중 이러한 메모리 효율성 덕분에 YOLO11은 RT-DETR과 같은 이전 모델이나 Transformer 기반 모델에서 흔히 발생하는 과도한 CUDA 메모리 요구 사항을 피하며 엣지 AI 장치에 배포하기에 매우 적합합니다.

효율적인 학습

Ultralytics 모델은 YOLOX 및 Transformer 기반 아키텍처에 비해 학습 중 훨씬 적은 GPU 메모리를 요구하므로, 연구원들이 표준 소비자용 하드웨어에서 강력한 모델을 학습할 수 있게 합니다.

생태계 및 사용 편의성

두 프레임워크 간의 가장 눈에 띄는 차이점 중 하나는 개발자 경험입니다.

YOLOX는 종종 저장소를 클론하고, 복잡한 환경을 설정하며, 모델을 ONNXTensorRT와 같은 형식으로 학습하고 내보내기 위해 장황한 명령줄 인수를 실행해야 합니다.

이와 극명하게 대조적으로, Ultralytics YOLO11은 매우 간단한 Python API와 CLI를 제공합니다. Ultralytics 라이브러리는 데이터 증강, 하이퍼파라미터 튜닝 및 내보내기를 자동으로 처리합니다.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

This well-maintained ecosystem is backed by extensive documentation and seamless integration with tools like Weights & Biases for experiment tracking.

이상적인 활용 사례

이 모델들 중 하나를 선택하는 것은 종종 배포 환경의 세부 사항에 따라 달라집니다.

YOLOX를 사용해야 할 때

  • 레거시 시스템: MegEngine 프레임워크나 2021년 초반의 객체 탐지 패러다임을 중심으로 구축된 기존 파이프라인이 있는 경우입니다.
  • 학술적 베이스라인: 2021년 당시의 기초적인 앵커 프리 아키텍처와 직접적인 벤치마킹이 필요한 연구를 수행할 때입니다.

YOLO11을 사용해야 할 때

  • 프로덕션 배포: 강력하고 유지 관리되는 코드와 높은 정확도가 필수적인 스마트 리테일이나 보안 경보 시스템의 상용 애플리케이션의 경우입니다.
  • 멀티 태스크 파이프라인: 단일 통합 프레임워크를 사용하여 객체를 추적하고, 사람의 자세를 추정하며, 인스턴스를 분할해야 하는 프로젝트의 경우입니다.
  • 자원이 제한된 엣지 장치: 적은 파라미터 수와 높은 처리량 덕분에 YOLO11은 Raspberry PiCoreMLNCNN을 통한 모바일 엣지 노드 배포에 이상적입니다.

향후 전망: YOLO26의 이점

YOLO11이 YOLOX보다 거대한 도약을 이룬 것은 사실이지만, 컴퓨터 비전 분야는 빠르게 발전하고 있습니다. 오늘날 새로운 프로젝트를 시작하는 개발자들에게는 **Ultralytics YOLO26**을 단연 추천합니다.

2026년 1월에 출시된 YOLO26은 YOLO11의 아키텍처적 우수성을 계승하고 몇 가지 혁신적인 기능을 도입했습니다.

  • 엔드 투 엔드 NMS-프리 설계: YOLO26은 NMS(Non-Maximum Suppression) 후처리를 제거하여 더 빠르고 단순한 배포 파이프라인을 위해 추론을 기본적으로 스트리밍합니다(YOLOv10에서 처음 탐구된 개념).
  • 최대 43% 더 빠른 CPU 추론: DFL(Distribution Focal Loss) 제거를 통해 YOLO26은 CPU 및 저전력 엣지 장치에서 훨씬 더 효율적으로 작동합니다.
  • MuSGD 옵티마이저: Moonshot AI의 LLM 학습 혁신에서 영감을 받은 MuSGD 옵티마이저는 매우 안정적인 학습 실행과 빠른 수렴을 보장합니다.
  • 고급 손실 함수: ProgLoss + STAL을 활용하는 YOLO26은 드론 이미지 및 자율 로봇 공학에 중요한 소형 객체 인식에서 현저한 개선을 달성합니다.

대부분의 현대적인 컴퓨터 비전 작업에서 파이프라인을 업그레이드하여 YOLO26을 활용하면 속도, 정확도 및 배포 단순성 면에서 최고의 균형을 경험할 수 있습니다.

댓글