RTDETRv2 대 YOLOX: 실시간 객체 탐지 진화의 심층 분석
물체 탐지 분야의 지형도는 지난 몇 년간 급속히 진화하여 앵커 기반 아키텍처에서 앵커 프리 설계로, 그리고 최근에는 트랜스포머 기반 하이브리드 모델로 전환되었습니다. 이 과정에서 두 가지 중요한 이정표는 RTDETRv2와 YOLOX입니다. YOLOX가 2021년 앵커와 NMS 제거하며 YOLO 성능을 재정의했다면, RTDETRv2(2024년 출시)는 복잡한 장면에서 우수한 정확도를 위해 비전 트랜스포머(ViT)를 통합함으로써 한계를 더욱 확장했습니다.
이 가이드는 컴퓨터 비전 프로젝트에 적합한 도구를 선택하는 데 도움을 주기 위해, 두 가지 영향력 있는 모델의 아키텍처, 성능 지표 및 이상적인 사용 사례를 분석하여 포괄적인 기술적 비교를 제공합니다.
RTDETRv2: 트랜스포머 기반의 경쟁자
RTDETRv2(실시간 탐지 트랜스포머 버전 2)는 트랜스포머 아키텍처를 실시간 시나리오에 적용하는 데 있어 중대한 도약을 의미합니다. 기존 트랜스포머는 강력하지만 느린 단점이 있었으나, RTDETRv2는 이러한 상충 관계를 최적화하여 경쟁력 있는 속도로 최첨단 정확도를 제공합니다.
주요 아키텍처 기능
RTDETRv2는 기존 RT-DETR 기반으로 하이브리드 인코더-디코더 구조를 활용합니다. CNN 백본(일반적으로 ResNet 또는 HGNetv2)을 사용하여 효율적으로 특징을 추출한 후, 트랜스포머 인코더를 통해 이미지 전반에 걸친 장거리 의존성을 포착합니다.
- 비전 트랜스포머 통합: 순수 CNN 기반 모델과 달리, RTDETRv2는 자기 주의 메커니즘을 활용하여 이미지 내 멀리 떨어진 부분 간의 관계를 이해하므로, 가림 현상과 복잡한 장면 처리에 탁월한 성능을 발휘합니다.
- 종단 간 예측: 탐지 파이프라인을 간소화하는 것을 목표로 하지만, 일부 구현체는 여전히 최적화의 혜택을 받습니다.
- 동적 스케일 스케일링: 이 아키텍처는 기존 설계보다 다중 스케일 특징을 보다 효과적으로 처리하도록 설계되었습니다.
저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속:Baidu
날짜: 2023년 4월 17일 (v1), 2024년 7월 (v2)
링크:Arxiv | GitHub
욜록스: 닻을 내리지 않는 선구자
2021년 출시된 YOLOX는 앵커 프리 메커니즘과 분리형 헤드를 채택함으로써 기존 YOLO (YOLOv3, v4, v5)과는 차별화된 혁신적인 모델이었다.
주요 아키텍처 기능
YOLOX는 사전 정의된 앵커 박스의 필요성을 제거함으로써 탐지 과정을 단순화했습니다. 이는 특정 데이터셋에 대해 경험적 조정이 필요한 경우가 많았습니다.
- 앵커 프리 메커니즘: 객체 중심점과 크기를 직접 예측함으로써 YOLOX는 설계 복잡성을 줄이고 다양한 데이터셋에서의 일반화 성능을 향상시켰다.
- 분리된 헤드: 분류와 회귀 작업을 네트워크 헤드의 서로 다른 분기로 분리함으로써 수렴성과 정확도가 향상되었습니다.
- SimOTA 라벨 할당: 이 고급 라벨 할당 전략은 학습 과정을 최적 수송 문제로 처리하여 더 빠른 수렴과 향상된 동적 라벨 할당을 이끌어 냈습니다.
저자: 정거(Zheng Ge), 류송타오(Songtao Liu), 왕펑(Feng Wang), 리쩌밍(Zeming Li), 쑨젠(Jian Sun)
소속:Megvii
날짜: 2021년 7월 18일
링크:Arxiv | GitHub
기술 성능 비교
생산용 모델을 선택할 때 원시 지표는 매우 중요합니다. 아래는 COCO 에서의 성능에 대한 상세한 비교입니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
지표 분석
데이터는 명확한 세대 차이를 보여줍니다. RTDETRv2는 유사한 모델 크기에서 YOLOX보다 정확도(mAP) 측면에서 지속적으로 우수한 성능을 보입니다. 예를 들어, RTDETRv2-l은 53.4 mAP 달성하여 YOLOX-l의 49.7%보다 현저히 높으며, GPU 유사한 추론 속도를 유지합니다.
그러나 YOLOX는 초경량 부문에서 여전히 우위를 점하고 있습니다. YOLOX-Nano 및 Tiny 변종은 극도로 소형화되어(0.91M 파라미터부터 시작) 메모리 용량이 킬로바이트 단위로 중요한 구형 엣지 컴퓨팅 하드웨어에서도 활용 가능합니다.
트랜스포머 메모리 사용량
RTDETRv2는 더 높은 정확도를 제공하지만, 트랜스포머 기반 모델은 일반적으로 YOLOX와 같은 순수 CNN 아키텍처에 비해 훈련 및 추론 과정에서 훨씬 더 많은 VRAM을 소모합니다. 이러한 높은 메모리 요구 사항은 CUDA 제한된 소비자용 GPU에서 훈련할 때 병목 현상이 될 수 있습니다.
Ultralytics 이점
역사적인 모델인 YOLOX와 RTDETRv2를 분석하는 것은 연구에 가치 있지만, 현대적인 개발에는 사용 편의성, 잘 관리된 생태계, 그리고 우수한 효율성을 제공하는 도구가 요구됩니다.
Ultralytics , 포함 YOLOv8 과 최신 기술인 YOLO26을 포함한 Ultralytics 모델들은 고성능과 개발자 경험 사이의 격차를 해소하도록 설계되었습니다.
- 간소화된 API: 모델 간 전환은 단 한 줄의 코드만으로 가능합니다.
- 다용도성: 순수 탐지에만 집중하는 YOLOX와 달리, Ultralytics 세분화, 자세 추정 및 방향성 바운딩 박스(OBB) 탐지를 기본적으로 Ultralytics .
- 훈련 효율성: Ultralytics 더 낮은 메모리 오버헤드로 더 빠르게 훈련되도록 최적화되어, 산업용 하드웨어 없이도 고급 AI를 활용할 수 있게 합니다.
차세대 성능: YOLO26
2026년 최고의 성능을 추구하는 개발자에게는 YOLO26을 권장합니다. 이 모델은 CNN과 트랜스포머의 장점을 모두 통합하면서 단점을 제거했습니다.
- 엔드투엔드 NMS: YOLO26은 기본적으로 엔드투엔드 방식으로, 비최대 억제(NMS)가 필요하지 않습니다. 이는 YOLOX에 비해 배포 파이프라인을 상당히 단순화합니다.
- MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 기술의 혁신을 활용(Moonshot AI에서 영감을 얻음), YOLO26은 안정적이고 빠른 수렴을 위해 MuSGD 최적화기를 사용합니다.
- 에지 최적화: 분포 초점 손실(DFL) 제거로 YOLO26은 CPU 최대 43% 더 빠르며, 강력한 GPU가 부족한 에지 디바이스에서 RTDETRv2보다 훨씬 우수한 성능을 보여줍니다.
실제 사용 사례
이러한 아키텍처 중 하나를 선택하는 것은 특정 배포 환경에 크게 좌우됩니다.
RTDETRv2에 이상적으로 적합
- 혼잡 감시: 변압기 주의 메커니즘은 객체(사람)가 심하게 겹치는 군중 관리 시나리오에서 탁월한 성능을 발휘한다.
- 복잡한 장면 이해: 자율 주행 차량 내비게이션과 같이 상황 인지가 필요한 응용 분야는 트랜스포머의 글로벌 수용 영역으로부터 이점을 얻습니다.
YOLOX에 이상적으로 적합
- 레거시 에지 디바이스: 구형 라즈베리 파이 또는 마이크로컨트롤러와 같이 극도로 제약된 디바이스의 경우, YOLOX-Nano는 변압기가 적용될 수 없는 환경에 적합한 경량 옵션입니다.
- 학술적 기준선: 분리된 헤드와 앵커 없는 설계 덕분에 YOLOX는 연구에서 기본적인 객체 탐지 메커니즘을 연구하기 위한 인기 있는 기준선으로 남아 있습니다.
코드 예시: Ultralytics
Ultralytics 사용해야 하는 가장 강력한 이유 중 하나는 통합된 인터페이스입니다. RT-DETR 같은 트랜스포머 기반 모델을 사용하든 CNN 기반 YOLO RT-DETR , 코드는 일관성을 유지합니다.
Ultralytics Python 사용하여 로드하고 추론을 실행하는 방법은 다음과 같습니다:
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display results
results_yolo[0].show()
실험 추적
Ultralytics MLflow 및 Weights & Biases과 같은 도구와 원활하게 통합되어, 훈련 스크립트를 변경하지 않고도 서로 다른 모델의 track 나란히 track 수 있습니다.
결론
RTDETRv2와 YOLOX 모두 컴퓨터 비전 분야에 크게 기여했습니다. YOLOX는 앵커 프리 설계가 매우 효과적일 수 있음을 입증했으며, RTDETRv2는 트랜스포머가 실시간으로 작동할 수 있음을 보여주었습니다.
그러나 2026년 대부분의 실용적 적용 분야에서는 Ultralytics 모델이 가장 균형 잡힌 솔루션을 제공합니다. NMS(네트워크 모드 선택) NMS 설계, 소형 물체용 ProgLoss 함수, CPU 통해 트랜스포머의 막대한 계산 비용 없이 높은 정확도를 달성하는 '양쪽 장점을 모두 갖춘' 시나리오를 구현합니다. 스마트 제조나 농업 모니터링을 위한 시스템을 구축하든, 잘 관리되는 Ultralytics 프로젝트가 미래에도 유효하도록 보장합니다.
추가적인 탐구를 위해 RT-DETR YOLO11 비교하거나 YOLOv10 구체적인 장점을 살펴보는 것도 흥미로울 수 있습니다.