RTDETRv2 대 YOLO11: 트랜스포머와 CNN 아키텍처 비교
실시간 객체 탐지 분야는 급속히 진화해 왔으며, 두 가지 뚜렷한 아키텍처 철학이 주도하고 있습니다: RTDETRv2와 같은 모델이 주도하는 비전 트랜스포머(ViT) 접근법과, Ultralytics YOLO11가 완성한 CNN 계보입니다.
RTDETRv2(실시간 탐지 트랜스포머 버전 2)는 정확도와 글로벌 컨텍스트 이해 측면에서 트랜스포머 기반 아키텍처가 달성할 수 있는 한계를 넓히고 있지만, YOLO11 는 효율성, 다용도성, 배포 용이성의 정점을 보여줍니다. 본 비교 분석은 기술 사양, 아키텍처 차이점, 실제 적용 사례를 탐구하여 개발자가 컴퓨터 비전 프로젝트에 적합한 도구를 선택하는 데 도움을 줍니다.
비교표: 지표 및 사양
다음 표는 두 모델의 성능 지표를 보여줍니다. 다음 사항에 유의하십시오. YOLO11 는 마이크로컨트롤러부터 고성능 서버까지 모든 환경에 적용 가능한 광범위한 모델 크기를 제공하는 반면, RTDETRv2는 주로 대용량 모델에 집중하고 있음을 알 수 있습니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
아키텍처 분석
이 두 첨단 모델의 핵심적 차이는 시각 정보를 처리하는 방식에 있다.
RTDETRv2: 트랜스포머 접근 방식
바이두 연구진이 개발한 RTDETRv2는 RT-DETR 성공을 기반으로 합니다. 이 모델은 트랜스포머의 힘을 활용하여 이미지 내 장거리 의존성을 포착하는데, 이는 기존 CNN이 종종 어려움을 겪는 특징입니다.
- 하이브리드 인코더: RTDETRv2는 다중 스케일 특징을 처리하는 하이브리드 인코더를 채택하여 모델이 이미지의 서로 다른 부분에 동시에 '주목'할 수 있도록 합니다.
- NMS 예측: 이 기술의 핵심 특징 중 하나는 비최대 억제(NMS)를 제거한다는 점입니다. 일련의 쿼리를 사용하여 객체를 직접 예측함으로써 후처리 파이프라인을 단순화하지만, 이는 종종 더 높은 훈련 복잡성을 대가로 합니다.
- 무료 선물 꾸러미: "v2" 업데이트는 최적화된 훈련 전략과 아키텍처 조정을 도입하여 기존 기준 모델 대비 수렴 속도와 정확도를 향상시킵니다.
메타데이터:
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organization: Baidu
- 날짜: 2024-07-17 (Arxiv v2)
- Arxiv:RT-DETRv2 논문
- GitHub:RT-DETR 리포지토리
YOLO11: 정제된 CNN 표준
Ultralytics YOLO11CNN 아키텍처의 진화를 나타내며, 계산 오버헤드를 최소화하면서 특징 추출 효율을 극대화하는 데 중점을 둡니다.
- C3k2 및 C2PSA 블록: YOLO11 백본과 넥에 고급 빌딩 블록을 YOLO11 . C3k2 블록은 풍부한 특징 표현을 위해 다양한 커널 크기를 활용하는 반면, C2PSA 블록은 전체 트랜스포머의 무거운 비용 없이도 어텐션 메커니즘을 효율적으로 통합합니다.
- 통합 작업 지원: 주로 객체 탐지기로 설계된 RTDETRv2와 달리, YOLO11 범용 비전 기반 기술로 YOLO11 . 동일한 프레임워크 내에서 인스턴스 분할, 자세 추정, OBB(Object Bounding Box) 및 분류 작업을 기본적으로 지원합니다.
- 엣지 최적화: 이 아키텍처는 CPU부터 NVIDIA 같은 엣지 AI 가속기에 이르기까지 다양한 하드웨어에서 속도를 위해 특별히 튜닝되었습니다.
메타데이터:
- 저자: 글렌 조커와 징 치우
- 조직:Ultralytics
- 날짜:27
- Docs:YOLO11 문서
알고 계셨나요?
RTDETRv2는 NMS 제거하는 반면, Ultralytics YOLO26 역시 CNN의 속도와 트랜스포머의 간소화된 배포를 결합한 네이티브 엔드투엔드 NMS 설계를 특징으로 합니다.
에코시스템 및 사용 편의성
개발자와 머신러닝 엔지니어에게 모델을 둘러싼 소프트웨어 생태계는 종종 모델의 원시 지표만큼 중요합니다.
Ultralytics 장점: YOLO11 데이터 관리부터 배포까지 일관된 경험을 제공하는 업계 선도적인 Ultralytics 혜택을YOLO11 .
- 훈련 효율성: YOLO11 훈련 속도가 매우 빠른 것으로 유명합니다. 코드베이스에는 자동화된 하이퍼파라미터 튜닝과 스마트한 데이터셋 검사가 포함되어 있습니다.
- 배포 유연성: 사용자는 모델을 다음과 같은 형식으로 내보낼 수 있습니다. ONNX, TensorRT, CoreML, TFLite 모델을 내보낼 수 있습니다.
- 커뮤니티 지원: 수백만 건의 다운로드를 기록한 Ultralytics YouTube 튜토리얼부터 활발한 GitHub 이슈 토론에 이르기까지 방대한 리소스를 제공합니다.
RTDETRv2 고려 사항: RTDETRv2는 주로 연구용 저장소입니다. 강력하지만, 종종 "배터리 포함" 경험이 부족합니다. 훈련 파이프라인 설정, 데이터셋 관리, 에지 디바이스용 내보내기는 일반적으로 더 많은 수동 구성과 Python 스크립팅이 필요합니다.
성능 및 리소스 요구 사항
실제 환경에 배포할 때는 정확도와 자원 소모 간의 균형을 맞추는 것이 핵심이다.
GPU 및 훈련
변압기는 악명 높게도 메모리를 많이 소모합니다. RTDETRv2는 일반적으로 상당한 GPU VRAM을 필요로 합니다. 이로 인해 소비자용 하드웨어에서 훈련하기 어렵거나 더 작은 배치 크기를 요구할 수 있으며, 이는 배치 정규화 통계에 영향을 미칠 수 있습니다.
YOLO11 YOLO11은 훨씬 더 높은 메모리 효율성을 자랑합니다. CNN 기반 아키텍처 덕분에 표준 GPU에서 더 큰 배치 크기를 처리할 수 있어 훈련 속도가 빨라지고 개발 비용이 절감됩니다. 이러한 효율성은 추론 단계까지 이어져 YOLO11n 모델은 CPU에서도 실시간으로 실행될 수 있습니다. 이는 이미지 토큰에 대한 이차적 계산 복잡성으로 인해 트랜스포머 기반 모델들이 따라잡기 어려운 성과입니다.
정확도와 속도의 상충 관계
비교표에서 볼 수 있듯이, YOLO11x는 더 높은 mAP (54.7) 을 달성하는 동시에 경쟁력 있는 추론 속도를 유지합니다. 극한의 속도가 필요한 애플리케이션의 경우, 더 작은 YOLO11 (n/s)은 RTDETRv2가 목표로 삼지 않는 성능 계층을 제공하여 모바일 및 IoT 배포에 있어 YOLO11 확실한 YOLO11 만듭니다.
코드 예시: YOLO11 RT-DETR 사용
Ultralytics 자체 YOLO 지원되는 RT-DETR 버전에 대해 모두 최상급 지원을 Ultralytics , 아키텍처를 원활하게 전환할 수 있도록 합니다.
from ultralytics import RTDETR, YOLO
# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the YOLO11 results
for result in results_yolo:
result.show()
실제 응용 분야
YOLO11 장점
경량 구조와 고속 성능 덕분에 YOLO11 다음 분야에서 선호되는 YOLO11 :
- 자율 시스템: 안전이 생명인 저지연 드론 및 로봇 공학
- 스마트 시티: NVIDIA 과 같은 에지 디바이스에서의 실시간 교통 모니터링.
- 농업: 배터리 구동 이동식 장비에서의 작물 모니터링 및 잡초 탐지.
- 다양한 작업: 탐지와 함께 자세 추정 또는 방향성 바운딩 박스가 필요한 프로젝트.
RTDETRv2의 적용 범위
RTDETRv2는 다음에 적합합니다.
- 고성능 컴퓨팅 서버: 무제한 전력과 GPU 사용할 수 있는 시나리오.
- 복잡한 가림 현상: 트랜스포머의 전역 수용 야역이 객체 간 중첩을 해결하는 데 도움이 되는 환경.
- 연구: 비전 트랜스포머(ViTs)에 대한 학술적 탐구.
결론
두 아키텍처 모두 컴퓨터 비전 분야의 놀라운 발전을 보여줍니다. RTDETRv2는 탐지 작업에서 CNN의 우위를 위협할 수 있는 트랜스포머의 잠재력을 입증합니다. 그러나 대부분의 실제 응용 분야에서는 Ultralytics YOLO11 이 여전히 더 나은 선택입니다.
통합된 프레임워크, 낮은 리소스 요구사항, 더 넓은 작업 지원 범위, 성숙한 배포 생태계를 갖춘 YOLO11 개발자가 프로토타입에서 생산 환경으로 더 빠르게 전환할 수 있도록 YOLO11 . 효율성과 NMS 설계 측면에서 최첨단을 추구하는 분들을 위해, 양쪽의 장점을 통합한 엔드투엔드 파워하우스인 최첨단 YOLO26도 살펴보시길 권장합니다.