YOLO11 RTDETRv2: CNN과 비전 트랜스포머의 진화 비교
컴퓨터 비전 분야는 급속히 확장되어 개발자들에게 견고한 비전 기반 애플리케이션 구축을 위한 다양한 선택지를 제공하고 있습니다. 실시간 객체 탐지 영역에서는 컨볼루션 신경망(CNN)과 비전 트랜스포머(ViT) 간의 논쟁이 그 어느 때보다 두드러집니다. 본 기술 비교는 두 가지 선도적인 아키텍처를 심층적으로 분석합니다: YOLO11, 고도로 최적화된 CNN 프레임워크의 정점을 대표하는 모델과, 탐지 트랜스포머 계열의 강력한 진화형인 RTDETRv2를 심층적으로 분석합니다.
이 가이드에서는 아키텍처, 성능 지표 및 이상적인 배포 시나리오를 분석함으로써 머신러닝 엔지니어가 정보에 기반한 의사 결정을 내릴 수 있도록 돕고자 합니다. 두 모델 모두 정확도의 한계를 넓히고 있지만, Ultralytics YOLO 모델은 일반적으로 속도, 생태계 지원, 실제 생산 환경에서의 사용 편의성 측면에서 우수한 균형을 제공합니다.
YOLO11: 실세계 다용도성을 위한 벤치마크
Ultralytics)가 선보인 YOLO11 수년간의 기초 연구를 YOLO11 빠르고 정확하며 놀라울 정도로 다재다능한 모델을 YOLO11 . 이 모델은 객체 탐지, 인스턴스 분할, 이미지 분류, 자세 추정, 방향성 바운딩 박스(OBB) 추출을 원활하게 처리하도록 설계되었습니다.
- 저자: 글렌 조커와 징 치우
- 조직:Ultralytics
- 날짜:27
- GitHub:Ultralytics 리포지토리
- Docs:YOLO11 문서
아키텍처 및 강점
YOLO11 정교한 CNN 백본과 고급 공간 특징 피라미드를 YOLO11 탁월한 자원 효율성을 제공합니다. 엄격한 하드웨어 제약이 있는 환경에서도 뛰어난 성능을 발휘하며, 훈련 및 추론 시 최소한의 메모리 사용량을 보장합니다. Ultralytics YOLO11 대한 네이티브 지원을 제공하여, 서로 다른 MLOps 도구를 조합할 필요 없이 모델 모니터링, 데이터 주석 작업 및 클라우드 훈련을 원활하게 수행할 수 있게 합니다.
엣지 컴퓨팅을 목표로 하는 개발자들에게 YOLO11 초저지연 성능을 YOLO11 . 경량화된 특성 덕분에 라즈베리 파이부터 소비자용 모바일 기기에 이르기까지 다양한 장치에서 효율적으로 실행되어 스마트 리테일, 제조 품질 관리, 자동화된 교통 관리 분야의 표준 솔루션으로 자리매김하고 있습니다.
RTDETRv2: 바이두의 실시간 트랜스포머
RTDETRv2(실시간 탐지 트랜스포머 버전 2)는 트랜스포머 기반 아키텍처를 실시간 작업에 적용 가능하도록 만들기 위한 바이두의 노력을 나타냅니다. 이 모델은 추론 지연 시간을 늘리지 않으면서 기준 정확도를 향상시키기 위해 "무료 요소 모음(bag-of-freebies)" 접근법을 RT-DETR 기존 RT-DETR 기반으로 구축되었습니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜:24
- Arxiv:2407.17140
- GitHub:RT-DETRv2 저장소
- 문서:RTDETRv2 사용 설명서
아키텍처 및 강점
기존 CNN과 달리 RTDETRv2는 자기 주의 메커니즘을 갖춘 인코더-디코더 구조를 채택하여 이미지 전체의 글로벌 컨텍스트를 포착할 수 있습니다. 이는 가림 현상이 빈번한 복잡한 장면에서 특히 유리합니다. RTDETRv2는 후처리 단계에서 비최대 억제(NMS)가 필요 없으며, 대신 훈련 과정에서 헝가리 매칭을 활용하여 일대일 이분 그래프 매칭을 수행합니다.
그러나 트랜스포머 모델은 VRAM과 CUDA 매우 많이 소모하는 것으로 악명 높습니다. RTDETRv2를 처음부터 훈련하거나 맞춤형 데이터셋으로 미세 조정하는 작업에는 대개 상당한 규모의 고성능 GPU 필요하며, 이는 Ultralytics 경량 훈련 환경과 비교할 때 소규모 민첩한 팀에게는 장벽이 될 수 있습니다.
성과 및 지표 분석
표준 COCO 이러한 모델들을 평가할 때, 우리는 매개변수, FLOPs, 그리고 순수 정확도 사이에서 명확한 상충 관계를 관찰합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
결과 분석
표에서 볼 수 있듯이, YOLO11 놀라운 성능 대비 크기 비율을 YOLO11 . YOLO11x는 RTDETRv2-x(54.3)에 비해 더 높은mAPval (54.7)을 달성하는 동시에, 훨씬 적은 매개변수(56.9M vs 76M)와 현저히 낮은 연산량(194.9B vs 259B)을 사용합니다.
또한, YOLO11 T4에서의 추론 속도는 TensorRT 에서 매우 빠릅니다. YOLO11s는 단 2.5ms 만에 추론을 완료하는 반면, 가장 작은 RTDETRv2-s는 5.03ms가 소요됩니다. 이는 프레임 처리 시간이 주요 병목 현상인 고속 실시간 영상 분석 스트림에 YOLO11 확실한 YOLO11 되게 합니다.
변압기의 비용
RTDETRv2는 어텐션 레이어를 통해 뛰어난 정확도를 달성하지만, 이러한 메커니즘은 이미지 해상도에 따라 이차적으로 확장되어 훈련 및 추론 과정에서 더 많은 VRAM을 소모합니다. YOLO11 초고효율 컨볼루션 블록을 통해 이러한 문제를 YOLO11 .
교육 에코시스템 및 사용성
Ultralytics 채택의 핵심 이점은 주변 생태계에 있습니다. RTDETRv2 훈련은 종종 복잡한 연구용 저장소를 탐색하고, 정교한 이분 그래프 매칭 손실 가중치를 조정하며, 상당한 메모리 오버헤드를 관리하는 과정을 수반합니다.
반대로, Ultralytics 개발자 경험에 중점을 Ultralytics . 통합된 Python 반복적인 코드를 추상화하여 다음과 같은 도구들과 원활하게 통합됩니다. Weights & Biases 와 같은 도구와 원활하게 통합되며, 데이터 증강을 자동으로 처리합니다.
다음은 모델을 훈련하고 내보내는 방법이 얼마나 간단한지 보여줍니다. ultralytics 패키지:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")
훈련이 완료된 YOLO11 다음과 같은 형식으로 내보내기 ONNX, OpenVINO, 또는 CoreML 단일 명령어만으로 구현 가능하여, 다양한 하드웨어 백엔드에서 비전 파이프라인을 손쉽게 확장할 수 있습니다.
다중 작업 기능
RTDETRv2는 경계 상자 탐지에만 집중하는 반면, YOLO11 본질적으로 자세 추정 및 인스턴스 분할을 지원하므로 여러 비전 작업을 단일 모델 계열로 통합할 수 있습니다.
사용 사례 및 권장 사항
YOLO11 RT-DETR 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 RT-DETR .
YOLO11 선택해야 할 때
YOLO11 다음에 대한 강력한 YOLO11 :
- 생산 환경 배포: 라즈베리 파이(Raspberry Pi )나 NVIDIA (NVIDIA NVIDIA )과 같은 장치에서 신뢰성과 능동적 유지보수가 최우선인 상용 애플리케이션.
- 다중 작업 비전 애플리케이션: 단일 통합 프레임워크 내에서 탐지, 분할, 자세 추정 및 OBB(외부 경계 박스)가 필요한 프로젝트.
- 신속한 프로토타이핑 및 배포: 데이터 수집에서 생산 단계까지 신속하게 진행해야 하는 팀을 위한 간소화된 Ultralytics Python .
RT-DETR 선택해야 할 때
RT-DETR 다음에 권장RT-DETR :
- 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
- 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
- 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.
Ultralytics YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:
- NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
- 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.
앞으로 바라보기: YOLO26의 힘
YOLO11 우수한 생산 YOLO11 , 최첨단을 추구하는 팀들은 YOLO26을 적극 고려해야 합니다. 2026년 1월 출시된 YOLO26은 엔드투엔드 NMS 프리 설계 ( YOLOv10 최초로 도입)를 핵심에 직접 통합함으로써 아키텍처 격차를 해소하고, 후처리 지연 시간과 배포 로직 복잡성을 완전히 제거합니다.
YOLO26은 또한 몇 가지 혁신적인 기능을 도입합니다:
- MuSGD 최적화기: Moonshot AI의 Kimi K2 대규모 언어 모델(LLM) 훈련 기법에서 영감을 받은 이 SGD 뮤온(Muon)의 하이브리드 방식은 놀라울 정도로 안정적인 훈련과 획기적으로 빠른 수렴을 보장합니다.
- DFL 제거: 더 깔끔하고 간소화된 내보내기 프로세스를 위해 분포 초점 손실(DFL)이 제거되어 저전력 에지 장치 호환성이 크게 향상되었습니다.
- ProgLoss + STAL: 이러한 고급 손실 함수는 드론 감시, 농업 모니터링 및 IoT 에지 센서에 필수적인 소형 물체 인식 성능에서 현저한 개선을 가져옵니다.
- 최대 43% 빠른 CPU : 전용 GPU가 없는 환경에서도 YOLO26은 CPU 특화되어 최적화되었으며, 이전 세대보다 훨씬 뛰어난 성능을 발휘합니다.
더 다양한 아키텍처를 탐구하고자 하는 분들을 위해, Ultralytics 다음과 같은 내용에 대한 통찰력도 제공합니다. YOLOv8, 널리 채택된 YOLOv5, 그리고 오픈 어휘 탐지 애플리케이션을 위한 YOLO 같은 특수 모델에 대한 통찰력을 제공합니다. 궁극적으로, 검증된 안정성을 자랑하는 YOLO11 우선시하든 획기적인 혁신을 이룬 YOLO26을 YOLO11 , Ultralytics 컴퓨터 비전 솔루션을 현실로 구현할 수 있는 탁월한 도구를 제공합니다.