콘텐츠로 건너뛰기

YOLOX 대 RT-DETRv2: 기존 아키텍처와 트랜스포머 혁신의 균형

최적의 객체 탐지 아키텍처 선택은 컴퓨터 비전 프로젝트의 지연 시간, 정확도 및 확장성에 영향을 미치는 중요한 결정입니다. 본 기술 분석에서는 2021년 개발된 강력한 앵커 프리 CNN 기준 모델인 YOLOX와RT-DETRv2(실시간 애플리케이션에 최적화된 최첨단 트랜스포머 기반 모델)을 비교합니다.

두 모델 모두 출시 당시 상당한 발전을 보여주었지만, 현대적인 워크플로에서는 고성능과 간편한 배포를 동시에 구현하는 솔루션에 대한 요구가 점점 더 커지고 있습니다. 이번 비교를 통해 우리는 최첨단 Ultralytics NMS 없는 추론과 같은 이들 아키텍처의 장점을 어떻게 하나의 효율적인 프레임워크로 통합하는지 살펴볼 것입니다.

성능 벤치마크

다음 표는 주요 지표의 직접 비교를 제시합니다. RT-DETRv2 더 높은 평균 정밀도(mAP)를 제공하지만, FLOPs 수치에서 알 수 있듯이 훨씬 더 많은 계산 자원을 필요로 한다는 점에 유의하십시오.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

욜록스: 닻을 내리지 않는 선구자

YOLOX는 2021년 메그비( Megvii) 연구진에 의해 소개되었으며, 이는 초기 YOLO (예: YOLOv4 및 YOLOv5)에서 주류를 이루던 앵커 기반 메커니즘에서 벗어난 전환점을 의미합니다. 앵커 박스를 제거하고 분리형 헤드(decoupled head)를 도입함으로써 설계를 간소화했으며, 이는 분류와 위치 지정 작업을 분리하여 수렴성을 향상시킵니다.

아키텍처 및 강점

YOLOX는 간소화된 최적 수송 할당( SimOTA ) 레이블 할당 전략을 채택하여, 정적 샘플을 지상 진실 객체에 동적으로 할당합니다. 이를 통해 모델은 경직된 IoU 기반 임계값보다 가림 현상과 다양한 객체 크기를 더 효과적으로 처리할 수 있습니다.

이 아키텍처의 단순성은 학술 연구에서 선호되는 기준 모델로 자리매김하게 합니다. 분류 및 회귀 특징을 별도의 분기에서 처리하는 '분리된 헤드' 설계는 훈련 안정성과 정확도를 향상시킵니다.

레거시 호환성

YOLOX는 2021년경 코드베이스를 기반으로 구축된 레거시 시스템이나 새로운 이론적 구성 요소를 테스트하기 위해 깨끗하고 앵커 없는 CNN 기준 모델이 필요한 연구자들에게 여전히 강력한 선택지입니다.

그러나 현대적 변형과 비교할 때, YOLOX는 후처리 단계에서 비최대 억제(NMS) 에 의존합니다. 이 단계는 지연 시간 변동성을 유발하여, 최신 종단간 모델에 비해 엄격한 실시간 산업용 애플리케이션에서 예측 가능성이 떨어집니다.

YOLOX에 대해 자세히 알아보세요

RT-DETRv2: 실시간 트랜스포머

RT-DETRv2 (실시간 탐지 트랜스포머 v2)는 바이두가 개발한 RT-DETR 진화 버전입니다. 비전 트랜스포머(ViTs)에 일반적으로 수반되는 높은 계산 비용 문제를 해결하기 위해, 다중 스케일 특징을 신속하게 처리하는 효율적인 하이브리드 인코더를 사용합니다.

아키텍처 및 혁신

RT-DETRv2 핵심 특징은 NMS 추론 RT-DETRv2 . 객체 쿼리를 활용하는 트랜스포머 디코더를 통해 모델은 고정된 경계 상자 집합을 직접 예측합니다. 이로 인해 NMS 불필요해져 배포 파이프라인이 간소화되며, 장면 내 객체 수와 무관하게 일관된 추론 시간을 보장합니다.

RT-DETRv2 유연한 하이브리드 인코더와 최적화된 불확실성 정량화를 통해 이전 버전을 RT-DETRv2 COCO 더 높은 정확도(최대 54.3% mAP)를 달성합니다.

리소스 집약도

정확도는 높지만, RT-DETRv2 트랜스포머 블록은 메모리 집약적입니다. 훈련에는 일반적으로 CNN 기반 모델보다 훨씬 많은 CUDA 필요하며, 비GPU (일반 CPU 등)에서의 추론 속도는 어텐션 메커니즘의 복잡성으로 인해 느릴 수 있습니다.

RT-DETR에 대해 자세히 알아보세요.

Ultralytics : 왜 YOLO26을 선택해야 할까요?

YOLOX는 신뢰할 수 있는 연구 기준선 역할을 하고 RT-DETRv2 트랜스포머 정확도의 한계를 RT-DETRv2 , Ultralytics 양쪽의 장점을 조화시킨 솔루션을 제공합니다. Ultralytics 실험적인 저장소의 복잡성 없이 최첨단 성능을 요구하는 개발자를 위해 설계되었습니다.

본질적으로 종단 간이며 NMS

YOLONMS 6은 YOLOv10 과 RT-DETR 엔드투엔드 NMS 프리(End-to-End NMS-Free) 설계 철학을 RT-DETR , 이를 고효율 CNN 아키텍처 내에서 구현합니다. 이는 복잡한 후처리 로직 없이 RT-DETRv2간소화된 배포와 CNN의 순수한 속도를 결합한 것을 의미합니다.

에지 컴퓨팅을 위한 탁월한 효율성

RT-DETRv2의 무거운 트랜스포머 블록과 달리, YOLO26은 다양한 하드웨어에 최적화되어 있습니다.

  • DFL 제거: 분산 초점 손실(Distribution Focal Loss)을 제거함으로써 모델 구조가 단순화되어, 에지 가속기 및 저전력 장치와의 호환성이 향상됩니다.
  • CPU : YOLO26은 이전 세대에 비해 CPU에서 최대 43% 더 빠른 추론을 제공하여 GPU를 사용할 수 없는 에지 AI 배포 환경에서 탁월한 선택입니다.

고급 훈련 역학

YOLO26은 대규모 언어 모델(LLM) 훈련에서 영감을 받은 SGD 뮤온 SGD Muon) 최적화기의 하이브리드인 MuSGD 최적화기를 통합합니다. 이 혁신은 대규모 언어 모델 훈련의 안정성을 컴퓨터 비전 분야에 도입하여 더 빠른 수렴과 더 견고한 가중치를 실현합니다. 또한 ProgLossSTAL과 같은 개선된 손실 함수는 YOLOX와 같은 기존 모델의 일반적인 약점인 소형 물체에 대한 성능을 크게 향상시킵니다.

Ultralytics 통한 원활한 워크플로우

아마도 가장 큰 장점은 Ultralytics 것입니다. YOLOX와 RT-DETRv2 분산된 GitHub 코드베이스를 탐색해야 하는 반면, Ultralytics 통합된 인터페이스를 Ultralytics . 모델 이름을 변경하기만 하면탐지, 분할, 자세 추정, 분류, OBB등 다양한 작업 간에 전환할 수 있습니다.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

YOLO26에 대해 더 알아보기

결론

순수한 CNN 기준선이 필요한 학술 연구의 경우, YOLOX는 여전히 유효한 선택지입니다. 충분한 GPU 보유한 환경에서 최대 정확도만이 유일한 지표인 시나리오에서는 RT-DETRv2 가 강력한 경쟁자입니다. 그러나 속도, 정확도, 유지보수 용이성의 균형을 요구하는 실제 생산 시스템에서는 Ultralytics 최상의 선택으로 자리매김하며, 현대적 배포에 필요한 효율성과 함께 차세대 엔드투엔드 기능을 제공합니다.

추가 자료

Ultralytics 다른 고성능 모델을 살펴보려면 다음을 확인하세요:

  • YOLO11: 다양한 비전 작업을 지원하는 강력한 범용 모델.
  • YOLOv10: 실시간 종단간 객체 탐지를 최초로 도입한 YOLO .
  • RT-DETR: 트랜스포머 기반 아키텍처를 선호하는 분들을 위한 실시간 탐지 트랜스포머 구현체.

댓글