RTDETRv2 대 YOLOv10: 실시간 탐지 아키텍처 비교
컴퓨터 비전 분야의 급속한 발전 속에서 정확성, 속도, 효율성 간의 최적 균형을 추구하는 노력은 혁신을 지속적으로 주도하고 있다. 최근 논의를 주도한 두 가지 주요 아키텍처는 RT-DETRv2 와 YOLOv10입니다. 두 모델 모두 실시간 객체 탐지의 오랜 과제를 해결하고자 하지만, 트랜스포머와 CNN 기반 혁신이라는 근본적으로 다른 아키텍처 관점에서 접근합니다.
이 기술 비교는 아키텍처, 성능 지표 및 이상적인 사용 사례를 탐구하여 개발자와 연구원이 특정 애플리케이션에 적합한 도구를 선택할 수 있도록 돕습니다.
비교표
다음 표는 COCO 주요 성능 지표를 보여줍니다. 굵은 글씨로 표시된 값은 각 범주에서 최고의 성능을 나타냅니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2: 실시간 트랜스포머 정교화
RT-DETRv2 RT-DETRRT-DETRv2 실시간 탐지 트랜스포머 버전 2)는 최초의 트랜스포머 기반 탐지기로서 CNN 기반 모델(예: YOLOv8과 경쟁할 수 있는 최초의 트랜스포머 기반 탐지기였습니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜: 2023년 4월 17일 (원본), 2024년 7월 (v2)
- Arxiv:RT-DETRv2: 실시간 탐지 트랜스포머를 위한 Bag-of-Freebies를 활용한 개선된 베이스라인
아키텍처 및 혁신
RT-DETRv2 변환기의 핵심 강점인 이미지 전체에 걸친 글로벌 컨텍스트 모델링 능력을 RT-DETRv2 , 이는 복잡하고 혼잡한 장면에서 물체를 탐지하는 데 특히 유용합니다. 국소 수용 야영에 의존하는 기존 CNN과 달리, RT-DETRv2 다중 스케일 특징을 효율적으로 처리하는 하이브리드 인코더를 RT-DETRv2 .
v2 업데이트의 핵심 기능은 더 유연한 그리드 샘플링을 가능하게 하는 이산 샘플링 메커니즘의 도입으로, 속도와 정확도 간의 균형을 더욱 최적화합니다. 본 모델은 객체 집합을 직접 예측함으로써 비최대 억제(NMS) 의 필요성을 제거하여 후처리 파이프라인을 간소화합니다.
트랜스포머 메모리 사용량
트랜스포머는 글로벌 컨텍스트 처리에는 탁월하지만, 훈련 시 CNN에 비해 훨씬 더 많은 GPU 필요로 합니다. 하드웨어 자원이 제한된 사용자는 가벼운 YOLO 모델에 비해 RTDETRv2 훈련이 어려울 수 있습니다.
성능
RT-DETRv2 COCO 유사한 규모의 YOLO 종종 능가하는 탁월한 정확도를 RT-DETRv2 . 특히 높은 정밀도와 가림에 대한 내성이 요구되는 시나리오에서 강점을 발휘합니다. 그러나 이러한 정확도는 종종 더 높은 계산 요구사항을 수반하여, Ultralytics YOLO 비해 순수 CPU 에지 배포에는 적합하지 않습니다.
YOLOv10: 종단간 CNN의 진화
YOLOv10 기존 CNN 아키텍처에 NMS 필요 NMS 훈련 방식을 도입함으로써 YOLO 중대한 변화를 YOLOv10 . 이 혁신은 CNN의 단순성과 트랜스포머의 종단간 처리 능력 사이의 간극을 메워줍니다.
- 저자: Ao Wang, Hui Chen, Lihao Liu 외
- 조직:조직: 칭화 대학교
- 날짜: 2024년 5월 23일
- Arxiv:YOLOv10: 실시간 종단 간 객체 detect
아키텍처 및 혁신
YOLOv10 NMS(최소 교차 NMS 훈련할 수 있는 일관된 이중 할당 전략을 YOLOv10 . 훈련 중 모델은 일대다(one-to-many)와 일대일(one-to-one) 라벨 할당을 동시에 사용합니다. 이를 통해 모델은 풍부한 감독 신호의 이점을 누리면서도 추론 시 객체당 하나의 박스만 예측하도록 보장합니다.
또한 이 아키텍처는 효율성과 정확성을 종합적으로 고려한 설계 방식을 특징으로 합니다. 여기에는 경량 분류 헤드와 공간-채널 분리 다운샘플링이 포함되어, 계산 오버헤드(FLOPs)와 매개변수 수를 줄입니다.
성능
YOLOv10 추론 지연 시간에서 YOLOv10 . NMS(네트워크 다중 스폿)를 제거함으로써 지연 시간 편차를 낮추며, 이는 자율 주행과 같은 실시간 애플리케이션에 매우 중요합니다. YOLOv10n 및 YOLOv10s와 같은 소형 변형 모델은 에지 디바이스에서 놀라운 속도를 제공하여, 리소스가 제한된 환경에서 매우 효과적입니다.
중요한 차이점과 사용 사례
1. NMS 아키텍처
두 모델 모두 "엔드투엔드" 기능을 주장하지만, 이를 달성하는 방식은 다릅니다. RT-DETRv2 트랜스포머의 고유한 쿼리 기반 메커니즘을 RT-DETRv2 개별 객체를 예측합니다. YOLOv10 CNN 백본에 적용된 새로운 훈련 전략을 통해 이를 YOLOv10 . 이로 인해 YOLOv10 컨볼루션 연산에 최적화된 표준 하드웨어에서 YOLOv10 빠른 성능을 보이며, RT-DETRv2 병렬 트랜스포머 연산이 효율적인 GPU 환경에서 RT-DETRv2 .
2. 훈련 효율성 및 메모리
Ultralytics 역사적으로 뛰어난 분야 중 하나는 훈련 효율성입니다. RT-DETRv2 같은 트랜스포머는 메모리 소모가 심하고 수렴 속도가 느린 것으로 악명 RT-DETRv2 . 반면 YOLOv10 YOLO11 는 하드웨어 자원에 대해 훨씬 관대합니다.
Ultralytics YOLO 여기서 뚜렷한 우위를 유지합니다:
- 낮은 메모리 요구량: YOLO 훈련은 일반적으로 더 적은 VRAM을 필요로 하여, 소비자용 GPU에서 더 큰 배치 크기를 허용합니다.
- 더 빠른 수렴: CNN은 일반적으로 트랜스포머 기반 아키텍처에 비해 수렴에 도달하는 데 더 적은 에포크가 필요합니다.
3. 다용도성과 생태계
RT-DETRv2 YOLOv10 강력한 YOLOv10 , 주로 바운딩 박스 탐지에 초점을 맞추고 있습니다. 반면 Ultralytics 더 다양한 작업을 기본적으로 지원하는 모델을 제공합니다.
Ultralytics 사용자가 단순한 모델이 아닌 완전한 워크플로를 확보할 수 있도록 보장합니다. 여기에는 데이터셋 관리를 위한 Ultralytics 원활한 통합과 다음과 같은 형식으로의 간편한 내보내기가 포함됩니다. ONNX, TensorRT, OpenVINO 등의 형식으로의 간편한 내보내기를 포함합니다.
Ultralytics : YOLO26 소개
RT-DETRv2 YOLOv10 매력적인 기능을 YOLOv10 , 해당 분야는 계속 발전해 왔습니다. 성능, 효율성, 사용 편의성 측면에서 절대적인 정점을 추구하는 개발자에게는 Ultralytics 탁월한 선택입니다.
2026년 1월 출시된 YOLO26은 트랜스포머와 CNN의 최고의 혁신을 통합하여 차세대 아키텍처를 구현합니다.
YOLO26이 권장되는 선택인 이유
- 네이티브 엔드투엔드: YOLOv10 마찬가지로 YOLO26은 엔드투엔드 NMS( NMS) 설계를 특징으로 합니다. 이는 후처리 단계의 지연 병목 현상을 제거하여 안전이 중요한 시스템에 필수적인 일관되고 예측 가능한 추론 속도를 보장합니다.
- 모든 하드웨어에 최적화: YOLO26은 분포 초점 손실(DFL)을 제거하여 모델 그래프를 크게 단순화합니다. 이로 인해 에지 AI 가속기와의 호환성이 향상되었으며, 이전 세대에 비해 CPU 속도가 최대 43% 빨라졌습니다.
- 고급 훈련 역학: Moonshot AI의 대규모 언어 모델 훈련에서 영감을 받은 SGD 뮤온(Muon)의 하이브리드인 MuSGD 최적화기를 도입함으로써, YOLO26은 안정적인 훈련과 더 빠른 수렴을 달성하여 대규모 언어 모델의 혁신을 컴퓨터 비전 분야로 가져왔다.
- 작업 다용도성: RT-DETRv2 탐지에 집중하는 것과 달리, YOLO26은 객체 탐지, 인스턴스 분할, 자세 추정, 방향성 경계 상자(OBB), 분류를 기본적으로 지원합니다.
원활한 마이그레이션
Ultralytics 를 사용하면 YOLO26으로의 전환이 매우 쉽습니다. Python 에서 모델 이름을 변경하기만 하면 됩니다:
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
model.train(data="coco8.yaml", epochs=100)
결론
순수 연구 또는 GPU 무제한이고 트랜스포머 어텐션 메커니즘이 특별히 필요한 시나리오에서는, RT-DETRv2 가 강력한 후보입니다. 에지 디바이스에서 낮은 지연 시간을 우선시하며 NMS CNN 아키텍처를 선호하는 사용자에게는 YOLOv10 은 여전히 견고한 학술적 선택지입니다.
그러나 속도, 정확도, 견고한 도구 간의 균형이 필요한 생산 환경 배포에는 Ultralytics 확실한 추천 솔루션입니다. 잘 관리된 생태계로의 통합, 다양한 컴퓨터 비전 작업 지원, 획기적인 아키텍처 개선을 통해 2026년 이후에도 가장 미래 대비가 가능한 솔루션으로 자리매김하고 있습니다.
참고
- Ultralytics YOLO11 - 산업계에서 널리 채택된 견고한 선행 모델.
- RT-DETR - 최초의 실시간 감지 변압기.
- YOLOv8 - YOLO 다재다능한 클래식 모델.