YOLOv10 RTDETRv2: 실시간 탐지를 위한 아키텍처와 성능
컴퓨터 비전 애플리케이션을 구축하는 개발자에게 적합한 객체 탐지 아키텍처를 선택하는 것은 매우 중요한 결정입니다. 본 가이드는 실시간 탐지를 위한 두 가지 서로 다른 접근법을 심층적으로 살펴봅니다: YOLOv10: CNN 기반 YOLO 진화형으로 엔드투엔드 기능을 도입한 YOLO , RTDETRv2: CNN의 우위를 도전하기 위해 설계된 트랜스포머 기반 모델. 우리는 이들의 아키텍처, 벤치마크, 그리고 다양한 배포 시나리오에 대한 적합성을 분석합니다.
모델 개요 및 기원
이러한 모델들의 계보를 이해하는 것은 그들의 설계 철학과 의도된 사용 사례를 명확히 하는 데 도움이 됩니다.
YOLOv10: NMS CNN
2024년 5월 칭화대 연구진이 발표한 YOLOv10 YOLO 중대한 전환점을 YOLOv10 . 이 모델은 실시간 탐지기의 오랜 병목 현상이었던 비최대 억제(NMS) 문제를 해결했다. 일관된 이중 할당을 통한 NMS 훈련 방식을 채택함으로써, YOLOv10 YOLOv9 YOLOv8 같은 이전 세대에 비해 더 낮은 지연 시간을 YOLOv10 배포 파이프라인을 단순화합니다.
- 저자: Ao Wang, Hui Chen, Lihao Liu 외
- 조직:조직: 칭화 대학교
- 날짜:23
- 링크:아카이브논문 | 깃허브 리포지토리
RTDETRv2: 트랜스포머 챌린저
RT-DETR 실시간 탐지 트랜스포머) YOLO 진정으로 경쟁할 수 있는 최초의 트랜스포머 기반 모델이었다. 바이두가 개발한 RTDETRv2는 "Bag of Freebies" 접근법으로 이 아키텍처를 개선하여, 더 나은 수렴성과 유연성을 위해 훈련 전략과 아키텍처를 최적화했습니다. 이 모델은 비전 트랜스포머(ViTs) 의 힘을 활용하여 글로벌 컨텍스트를 포착하며, 계산 비용은 더 높지만 가림 현상이 있는 복잡한 장면에서 CNN보다 종종 우수한 성능을 보입니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- 조직조직: Baidu
- 날짜: 2023-04-17 (원본 RT-DETR), 2024년 업데이트
- 링크:아카이브논문 | 깃허브 리포지토리
기술 아키텍처 비교
핵심적인 차이는 이러한 모델들이 특징을 처리하고 예측을 생성하는 방식에 있습니다.
YOLOv10
YOLOv10 컨볼루션 신경망(CNN) 백본을 YOLOv10 헤드와 훈련 과정을 혁신적으로 개선했습니다.
- 일관된 이중 할당: 훈련 중 풍부한 지도 학습을 위해 일대다 할당을 사용하고 추론 시에는 일대일 할당을 사용합니다. 이를 통해 모델은 개체당 단일 최적 박스를 예측할 수 있어 NMS(네어링 다중 스폿 제거)가 필요하지 않습니다.
- 전체적 효율성 설계: 이 아키텍처는 경량 분류 헤드와 공간-채널 분리 다운샘플링을 통해 계산적 중복을 줄입니다.
- 대형 커널 컨볼루션: 최근 발전된 기법과 유사하게, 자체 주의 메커니즘의 과도한 비용 없이 정확도를 향상시키기 위해 대형 수용 야역을 사용합니다.
RTDETRv2 아키텍처
RTDETRv2는 트랜스포머 인코더-디코더 구조를 기반으로 합니다.
- 하이브리드 인코더: CNN 백본(일반적으로 ResNet 또는 HGNetv2)을 사용하여 특징을 추출한 후, 이를 트랜스포머 인코더로 처리합니다. 이를 통해 이미지 전반에 걸친 장거리 의존성을 모델링할 수 있습니다.
- 불확실성 최소화 쿼리 선택: 이 메커니즘은 디코더를 위한 고품질 초기 쿼리를 선택하여 초기화 및 수렴 속도를 향상시킵니다.
- 유연한 분리: RTDETRv2는 이산 샘플링을 지원하여 사용자가 속도와 정확도 사이에서 경직된 CNN 구조보다 더 동적으로 절충할 수 있게 합니다.
생태계가 중요한 이유
RTDETRv2와 같은 학술 모델은 새로운 아키텍처를 제공하지만, 생산 환경에 필요한 견고한 툴링이 종종 부족합니다. Ultralytics YOLO26 와 YOLO11 과 같은 Ultralytics 모델은 완전한 생태계에 통합되어 있습니다. 여기에는 데이터셋 관리, 원클릭 훈련, 에지 디바이스로의 원활한 배포를 위한 Ultralytics 포함됩니다.
성능 지표
다음 표는 COCO 데이터셋에서 두 모델의 성능을 비교합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
벤치마크 분석
- 지연 시간 우위: YOLOv10 모든 모델 크기에서 현저히 낮은 지연 시간을 YOLOv10 . 예를 들어, YOLOv10s는 T4 GPU에서 RTDETRv2-s보다 약 2배 빠른 속도를 유지하면서도 경쟁력 있는 정확도( mAP 46.7% 대 48.1%)를 제공합니다.
- 매개변수 효율성: YOLOv10 매개변수와 FLOP 측면에서 매우 YOLOv10 . YOLOv10m은 RTDETRv2-m과 유사한 정확도를 달성하지만 매개변수가 절반 이하(15.4M vs 36M)로, 모바일 및 에지 AI 애플리케이션에 훨씬 더 적합합니다.
- 정확도 상한선: RTDETRv2는 트랜스포머의 글로벌 컨텍스트 인식 능력을 활용하여 원시 정확도(mAP) 측면에서 "소형" 및 "중형" 범주에서 두각을 나타냅니다. 그러나 최대 규모(초대형)에서는 YOLOv10 RTDETRv2를 YOLOv10 심지어 능가하면서도 더 빠른 속도를 유지합니다.
훈련 및 배치 고려 사항
연구 단계에서 생산 단계로 넘어갈 때, 훈련 효율성과 메모리 사용량 같은 요소들이 가장 중요해진다.
메모리 요구 사항
RTDETRv2와 같은 트랜스포머 기반 모델은 일반적으로 자기 주의 메커니즘의 이차적 복잡성으로 인해 훈련 중 CUDA 훨씬 더 많이 소모합니다. 이로 인해 훈련에는 고가의 고급 GPU가 필요합니다. 반면 Ultralytics YOLO 효율성으로 유명합니다. YOLOv10 최신 YOLO26과 같은 모델은 소비자용 하드웨어나 표준 클라우드 인스턴스에서도 종종 미세 조정할 수 있어 진입 장벽을 낮춥니다.
사용 편의성 및 에코시스템
Ultralytics YOLOv10 사용하는 가장 큰 장점 중 하나는 간소화된 사용자 경험입니다.
- Ultralytics : Python 몇 줄 YOLOv10 로드, 훈련 및 배포할 수 있으며, 이는 YOLOv8 또는 YOLO11 동일한 워크플로입니다.
- 수출 옵션: Ultralytics 다음과 같은 형식으로 즉시 내보내기를 Ultralytics . ONNX, TensorRT, CoreML, OpenVINO 등의 형식으로 즉시 내보내기를 지원합니다. RTDETRv2는 배포 지원이 개선되었지만, 트랜스포머와 관련된 동적 형상을 처리하기 위해 종종 더 복잡한 구성이 필요합니다.
- 문서화: 포괄적인 문서화를 통해 개발자가 튜토리얼, 하이퍼파라미터 가이드 및 문제 해결 리소스에 접근할 수 있도록 보장합니다.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for deployment
model.export(format="onnx")
이상적인 사용 사례
10 선택해야 할 때
YOLOv10 속도와 자원 제약이 중요한 시나리오에서 선호되는 YOLOv10 .
- 모바일 애플리케이션: 배터리 소모 없이 실시간 추론이 필요한iOS .
- 임베디드 시스템: 라즈베리 파이(Raspberry Pi)나 NVIDIA ) 과 같은 장치에서 실행되며, 메모리(RAM)가 제한적입니다.
- 고프레임률 영상 처리: 교통 모니터링이나 스포츠 분석과 같은 응용 분야에서는 모션 블러나 이벤트 누락을 방지하기 위해 높은 프레임률을 유지하는 것이 필수적입니다.
RTDETRv2를 선택해야 하는 경우
RTDETRv2는 정확도가 최우선이며 하드웨어 자원이 풍부한 경우에 적합합니다.
- 복잡한 장면: 중첩된 물체를 구분하는 데 전역적 주의 메커니즘이 도움이 되는, 심한 가림 현상이나 복잡한 환경.
- 서버 측 추론: 모델이 강력한 클라우드 GPU에서 실행되는 시나리오로, mAP 소폭 향상을 위해 높은 지연 시간과 메모리 비용을 감수할 수 있는 경우.
미래: Ultralytics
YOLOv10 NMS 개념을 YOLOv10 , 해당 분야는 빠르게 진화하고 있습니다. 2026년 1월에 출시된 Ultralytics 이 진화의 정점을 보여줍니다.
YOLO26은 YOLOv10 개척한 엔드투엔드 NMS 설계를 YOLOv10 LLM 훈련에서 영감을 받은 MuSGD 최적화기와 ProgLoss 같은 개선된 손실 함수로 이를 강화했습니다. 그 결과 이전 세대 대비 훈련이 더 쉬울 뿐만 아니라 CPU 최대 43% 더 빠른 모델을 구현했습니다. 또한 YOLO26은 세분화, 자세 추정, OBB 등 다양한 작업을 기본적으로 지원하여 RTDETRv2와 같은 탐지 중심 모델이 따라잡을 수 없는 다용도성을 제공합니다.
속도, 정확도, 배포 용이성의 최적 균형을 추구하는 개발자에게는 YOLO26로의 전환을 적극 권장합니다.
요약
YOLOv10 RTDETRv2 모두 실시간 객체 탐지의 한계를 뛰어넘습니다. YOLOv10 NMS 현상을 YOLOv10 제거하여 놀라울 정도로 빠르고 효율적인 순수 CNN 아키텍처를 제공합니다. RTDETRv2는 트랜스포머가 실시간 경쟁자로서 복잡한 특징 추출에 탁월함을 입증합니다. 그러나 속도, 효율성, 개발자 친화적 툴링의 조화를 요구하는 대다수 실제 적용 분야에서는 YOLOv10, YOLO11, 그리고 최첨단 YOLO26을 지원하는 Ultralytics 여전히 업계 표준으로 자리 잡고 있습니다.
더 많은 비교를 원하신다면, YOLOv10 분석을 살펴보거나, 모델 최적화 방법을 알아보려면 저희의 내보내기 가이드를 참고하세요.