RTDETRv2와 YOLOv5: 기술 비교
적절한 객체 탐지 아키텍처를 선택하는 것은 배포 비용부터 사용자 경험에 이르기까지 모든 것에 영향을 미치는 중대한 결정입니다. 이 상세한 비교에서 우리는 바이두의 최첨단 실시간 트랜스포머인 RTDETRv2와Ultralytics YOLOv5(컴퓨터 비전 분야에서 사용 편의성과 신뢰성의 기준을 세운 전설적인 CNN 기반 모델) 간의 장단점을 살펴봅니다.
RTDETRv2가 흥미로운 트랜스포머 기반 혁신을 도입하는 동안, YOLOv5 그 후속 모델들( 최신 기술인 YOLO26 등) YOLOv5 여전히 다용도성, 배포 속도, 개발자 경험 측면에서 업계의 기준점으로 자리 잡고 있습니다.
경영진 요약
RTDETRv2 (실시간 탐지 트랜스포머 v2)는 DETR 아키텍처의 진화형으로, GPU 높은 정확도를 달성하면서 비최대 억제(NMS)를 제거하도록 설계되었습니다. VRAM이 풍부한 연구 환경 및 고급 서버 배포에 이상적입니다.
YOLOv5 (You Only Look Once v5)는 성숙하고 실전 배치 가능한 CNN 아키텍처입니다. "설치 후 바로 실행"이라는 간편함으로 유명하며, 엣지 컴퓨팅, 빠른 훈련, 광범위한 하드웨어 호환성에서 탁월합니다. 속도와 정확도 측면에서 최첨단을 추구하는 개발자를 위해 Ultralytics YOLO26을 추천합니다. YOLO26은 트랜스포머의 NMS 장점과 YOLO 속도를 결합한 모델입니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
아키텍처 및 설계
이러한 모델들이 시각 정보를 처리하는 방식에 근본적인 차이가 있습니다: 트랜스포머 대 컨볼루션 신경망(CNN).
RTDETRv2: 트랜스포머 접근 방식
저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속:Baidu
날짜: 2023-04-17 (원본 RT-DETR), 2024 (v2)
링크:ArXiv | GitHub
RTDETRv2는 하이브리드 인코더-디코더 아키텍처를 채택합니다. CNN 백본(주로 ResNet 또는 HGNetv2)을 사용하여 특징을 추출한 후, 이를 효율적인 트랜스포머 인코더로 처리합니다. 핵심 혁신은 하이브리드 인코더로, 스케일 내 상호작용과 스케일 간 융합을 분리하여 계산 비용을 절감합니다.
가장 두드러진 특징은 NMS NMS 예측 기능입니다. 훈련 과정에서 이분 매칭을 활용함으로써, 모델은 객체당 정확히 하나의 박스만 출력하도록 학습되어 NMS 같은 후처리 단계가 불필요해집니다. 그러나 이는 순수 CNN에 비해 더 높은 메모리 소비와 느린 훈련 수렴 속도를 대가로 합니다.
YOLOv5: CNN의 표준
저자: 글렌 조커
조직:Ultralytics
날짜: 2020-06-26
링크:문서 | GitHub
YOLOv5 CSPNet 백본과 PANet 넥을 기반으로 한 고도로 최적화된 CNN 아키텍처를 YOLOv5 . 이 설계는 기울기 흐름과 특징 재사용을 우선시하여 매우 가볍고 빠른 모델을 구현합니다. 글로벌 컨텍스트 학습에 방대한 데이터셋이 필요한 트랜스포머와 달리, YOLOv5 유도적 편향(inductive bias)은 훨씬 적은 컴퓨팅 자원으로 소규모 데이터셋에서도 효과적으로 학습할 수 있게 합니다.
진화: YOLO26
YOLOv5 NMS YOLOv5 반면, 새로운 Ultralytics RTDETRv2와 유사한 엔드투엔드 NMS 설계를 채택하면서도 YOLO 속도와 훈련 효율성을 유지합니다. 또한 MuSGD 최적화기를 도입하여 수렴 속도를 크게 가속화합니다.
성능 분석
추론 속도와 지연 시간
프로덕션 환경에 배포할 때 지연 시간이 종종 병목 현상을 일으킵니다. YOLOv5 CPU 기반 환경과 엣지 디바이스에서 YOLOv5 . CNN의 단순한 아키텍처는 표준 프로세서와 모바일 NPU에 효율적으로 매핑됩니다.
RTDETRv2는 NVIDIA A100과 같은 최신 GPU에서 행렬 곱셈 연산이 효과적으로 병렬화되어 뛰어난 성능을 발휘합니다. 그러나 라즈베리 파이와 같은 에지 디바이스에서는 트랜스포머 연산이 지나치게 무거워 YOLOv5n이나 YOLOv5s에 비해 프레임 속도가 낮아질 수 있습니다.
정확도 (mAP)
RTDETRv2는 COCO YOLOv5 비해 일반적으로 더 높은 평균 정밀도(mAP)를 달성하며, 특히 글로벌 컨텍스트가 중요한 대형 물체 및 복잡한 장면에서 두드러집니다. 예를 들어, RTDETRv2-L은 더 적은 매개변수를 사용하면서도 YOLOv5x(50.7%)를 능가하는 53. mAP 달성합니다.
그러나 정확도만이 유일한 지표는 아닙니다. 작은 물체나 모션 블러가 있는 영상 피드가 포함된 실제 시나리오에서는 그 차이가 좁혀집니다. 또한, YOLO111과 같은 최신 Ultralytics YOLO11 와 YOLO26과 같은 최신 Ultralytics 모델들은 이 격차를 좁혀, 더 나은 효율성으로 동등하거나 더 우수한 정확도를 제공합니다.
교육 효율성 및 에코시스템
바로 여기서 Ultralytics 뚜렷한 우위를 제공합니다.
Ultralytics YOLOv5 YOLO26:
- 빠른 수렴: CNN은 일반적으로 트랜스포머보다 더 빠르게 수렴합니다. GPU 몇 시간 내에 사용 가능한 YOLOv5 훈련시킬 수 있습니다.
- 낮은 메모리 사용량: YOLO 훈련에는 현저히 적은 VRAM만 YOLO , 소비자용 그래픽 카드(예: RTX 3060)를 사용하는 연구자들도 접근할 수 있습니다.
- 데이터 증강: Ultralytics 기본적으로 활성화된 최첨단 증강 전략 (모자이크, MixUp)이 포함됩니다.
- 플랫폼 통합: 데이터셋 관리, 클라우드 트레이닝 및 원클릭 배포를 위해 Ultralytics 과 원활하게 연결됩니다.
RTDETRv2:
- 자원 집약적: 트랜스포머는 훈련 과정에서 데이터 소비량이 많고 연산 집약적인 것으로 악명 높습니다. 어텐션 메커니즘을 안정화하려면 종종 더 긴 훈련 일정이 필요하며( YOLO 더 적은 에포크로 YOLO 수준을 맞추려면 보통 72회 이상 에포크가 소요됨).
- 복잡한 구성: 연구 중심 저장소로서, RTDETRv2를 사용자 정의 데이터셋에 설정하는 작업은 종종 구성 파일을 수정하고 데이터 로더를 수동으로 조정하는 과정을 수반합니다.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
실제 사용 사례
YOLOv5 YOLO26의 이상적인 시나리오
Ultralytics 컴퓨터 비전의 '만능 도구'로, 상용 애플리케이션의 90%에 적합합니다.
- 엣지 AI 및 IoT: 전력 소비와 열 제한이 엄격한 제약 조건인 NVIDIA 또는 모바일 애플리케이션에 완벽합니다.
- 제조: 생산 속도를 따라잡기 위해 추론이 밀리초 단위로 이루어져야 하는 조립 라인 품질 관리에 사용됩니다.
- 다양한 작업: 탐지를 넘어, Ultralytics 인스턴스 분할, 자세 추정, OBB 및 분류를 기본적으로 지원합니다.
- 농업: YOLOv5n과 같은 경량 모델은 드론 기반 작물 모니터링에 이상적이며, 드론 하드웨어에서 직접 실행됩니다.
RTDETRv2의 이상적인 시나리오
- 고성능 감시: 강력한 서버에 연결된 고정형 보안 카메라로, 에지 지연보다 최대 정확도가 우선시되는 환경.
- 학술 연구: 주의 메커니즘과 비전 트랜스포머 탐구
- 혼잡한 장면: 하드웨어가 계산 부하를 감당할 수 있다면, 글로벌 어텐션 메커니즘은 순수 CNN보다 심한 가림 현상을 더 잘 처리할 수 있다.
결론
RTDETRv2와 YOLOv5 모두 객체 탐지 역사에서 중요한 이정표를 YOLOv5 . RTDETRv2는 트랜스포머가 고성능 GPU에서 실시간으로 작동할 수 있음을 입증하며, 높은 정확도와 우아한 NMS 아키텍처를 제공합니다.
그러나 대다수의 개발자와 상용 애플리케이션에 있어서는 Ultralytics 여전히 최상의 선택입니다. 성숙한 YOLOv5 생태계와 YOLO26의 첨단 혁신 기술의 결합은 어떠한 제약 조건에도 적합한 도구를 확보할 수 있도록 보장합니다.
왜 YOLO26으로 업그레이드해야 할까요? 2026년 신규 프로젝트를 위해 이 모델들을 비교 중이라면, YOLO26을 강력히 추천합니다. 이 모델은 두 모델의 장점을 모두 결합하고 있습니다:
- 네이티브 엔드투엔드: RTDETRv2와 마찬가지로 NMS 제거하여 배포를 NMS .
- 최대 43% 빠른 CPU : 무거운 트랜스포머와 달리 에지 환경에 특화되어 최적화되었습니다.
- 작업 다용도성: 단일 프레임워크 내에서 탐지, 분할, 자세 추정 및 OBB를 지원합니다.
다른 아키텍처에 대한 추가 정보를 원하시면, RT-DETR YOLO11 및 YOLOv8 EfficientDet 비교 자료를 살펴보시기 바랍니다.