RTDETRv2 대 YOLO11: 트랜스포머와 CNN 아키텍처 비교

실시간 객체 탐지 분야는 급속히 진화해 왔으며, 두 가지 뚜렷한 아키텍처 철학이 주도하고 있습니다: RTDETRv2와 같은 모델이 주도하는 비전 트랜스포머(ViT) 접근법과, Ultralytics YOLO11가 완성한 CNN 계보입니다.

RTDETRv2(실시간 탐지 트랜스포머 버전 2)는 정확도와 글로벌 컨텍스트 이해 측면에서 트랜스포머 기반 아키텍처가 달성할 수 있는 한계를 넓히고 있지만, YOLO11 는 효율성, 다용도성, 배포 용이성의 정점을 보여줍니다. 본 비교 분석은 기술 사양, 아키텍처 차이점, 실제 적용 사례를 탐구하여 개발자가 컴퓨터 비전 프로젝트에 적합한 도구를 선택하는 데 도움을 줍니다.

비교표: 지표 및 사양

다음 표는 두 모델의 성능 지표를 보여줍니다. 다음 사항에 유의하십시오. YOLO11 는 마이크로컨트롤러부터 고성능 서버까지 모든 환경에 적용 가능한 광범위한 모델 크기를 제공하는 반면, RTDETRv2는 주로 대용량 모델에 집중하고 있음을 알 수 있습니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLO11에 대해 자세히 알아보세요

아키텍처 분석

이 두 첨단 모델의 핵심적 차이는 시각 정보를 처리하는 방식에 있다.

RTDETRv2: 트랜스포머 접근 방식

바이두 연구진이 개발한 RTDETRv2는 RT-DETR 성공을 기반으로 합니다. 이 모델은 트랜스포머의 힘을 활용하여 이미지 내 장거리 의존성을 포착하는데, 이는 기존 CNN이 종종 어려움을 겪는 특징입니다.

하이브리드 인코더: RTDETRv2는 다중 스케일 특징을 처리하는 하이브리드 인코더를 채택하여 모델이 이미지의 서로 다른 부분에 동시에 '주목'할 수 있도록 합니다.
NMS 예측: 이 기술의 핵심 특징 중 하나는 비최대 억제(NMS)를 제거한다는 점입니다. 일련의 쿼리를 사용하여 객체를 직접 예측함으로써 후처리 파이프라인을 단순화하지만, 이는 종종 더 높은 훈련 복잡성을 대가로 합니다.
무료 선물 꾸러미: "v2" 업데이트는 최적화된 훈련 전략과 아키텍처 조정을 도입하여 기존 기준 모델 대비 수렴 속도와 정확도를 향상시킵니다.

메타데이터:

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
Organization: Baidu
날짜: 2024-07-17 (Arxiv v2)
Arxiv:RT-DETRv2 논문
GitHub:RT-DETR 리포지토리

YOLO11: 정제된 CNN 표준

Ultralytics YOLO11CNN 아키텍처의 진화를 나타내며, 계산 오버헤드를 최소화하면서 특징 추출 효율을 극대화하는 데 중점을 둡니다.

C3k2 및 C2PSA 블록: YOLO11 백본과 넥에 고급 빌딩 블록을 YOLO11 . C3k2 블록은 풍부한 특징 표현을 위해 다양한 커널 크기를 활용하는 반면, C2PSA 블록은 전체 트랜스포머의 무거운 비용 없이도 어텐션 메커니즘을 효율적으로 통합합니다.
통합 작업 지원: 주로 객체 탐지기로 설계된 RTDETRv2와 달리, YOLO11 범용 비전 기반 기술로 YOLO11 . 동일한 프레임워크 내에서 인스턴스 분할, 자세 추정, OBB(Object Bounding Box) 및 분류 작업을 기본적으로 지원합니다.
엣지 최적화: 이 아키텍처는 CPU부터 NVIDIA 같은 엣지 AI 가속기에 이르기까지 다양한 하드웨어에서 속도를 위해 특별히 튜닝되었습니다.

메타데이터:

저자: 글렌 조커와 징 치우
조직:Ultralytics
날짜:27
Docs:YOLO11 문서

알고 계셨나요?

RTDETRv2는 NMS 제거하는 반면, Ultralytics YOLO26 역시 CNN의 속도와 트랜스포머의 간소화된 배포를 결합한 네이티브 엔드투엔드 NMS 설계를 특징으로 합니다.

에코시스템 및 사용 편의성

개발자와 머신러닝 엔지니어에게 모델을 둘러싼 소프트웨어 생태계는 종종 모델의 원시 지표만큼 중요합니다.

Ultralytics 장점: YOLO11 데이터 관리부터 배포까지 일관된 경험을 제공하는 업계 선도적인 Ultralytics 혜택을YOLO11 .

훈련 효율성: YOLO11 훈련 속도가 매우 빠른 것으로 유명합니다. 코드베이스에는 자동화된 하이퍼파라미터 튜닝과 스마트한 데이터셋 검사가 포함되어 있습니다.
배포 유연성: 사용자는 모델을 다음과 같은 형식으로 내보낼 수 있습니다. ONNX, TensorRT, CoreML, TFLite 모델을 내보낼 수 있습니다.
커뮤니티 지원: 수백만 건의 다운로드를 기록한 Ultralytics YouTube 튜토리얼부터 활발한 GitHub 이슈 토론에 이르기까지 방대한 리소스를 제공합니다.

RTDETRv2 고려 사항: RTDETRv2는 주로 연구용 저장소입니다. 강력하지만, 종종 "배터리 포함" 경험이 부족합니다. 훈련 파이프라인 설정, 데이터셋 관리, 에지 디바이스용 내보내기는 일반적으로 더 많은 수동 구성과 Python 스크립팅이 필요합니다.

성능 및 리소스 요구 사항

실제 환경에 배포할 때는 정확도와 자원 소모 간의 균형을 맞추는 것이 핵심이다.

GPU 및 훈련

변압기는 악명 높게도 메모리를 많이 소모합니다. RTDETRv2는 일반적으로 상당한 GPU VRAM을 필요로 합니다. 이로 인해 소비자용 하드웨어에서 훈련하기 어렵거나 더 작은 배치 크기를 요구할 수 있으며, 이는 배치 정규화 통계에 영향을 미칠 수 있습니다.

YOLO11 YOLO11은 훨씬 더 높은 메모리 효율성을 자랑합니다. CNN 기반 아키텍처 덕분에 표준 GPU에서 더 큰 배치 크기를 처리할 수 있어 훈련 속도가 빨라지고 개발 비용이 절감됩니다. 이러한 효율성은 추론 단계까지 이어져 YOLO11n 모델은 CPU에서도 실시간으로 실행될 수 있습니다. 이는 이미지 토큰에 대한 이차적 계산 복잡성으로 인해 트랜스포머 기반 모델들이 따라잡기 어려운 성과입니다.

정확도와 속도의 상충 관계

비교표에서 볼 수 있듯이, YOLO11x는 더 높은 mAP (54.7) 을 달성하는 동시에 경쟁력 있는 추론 속도를 유지합니다. 극한의 속도가 필요한 애플리케이션의 경우, 더 작은 YOLO11 (n/s)은 RTDETRv2가 목표로 삼지 않는 성능 계층을 제공하여 모바일 및 IoT 배포에 있어 YOLO11 확실한 YOLO11 만듭니다.

코드 예시: YOLO11 RT-DETR 사용

Ultralytics 자체 YOLO 지원되는 RT-DETR 버전에 대해 모두 최상급 지원을 Ultralytics , 아키텍처를 원활하게 전환할 수 있도록 합니다.

from ultralytics import RTDETR, YOLO

# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the YOLO11 results
for result in results_yolo:
    result.show()

실제 응용 분야

YOLO11 장점

경량 구조와 고속 성능 덕분에 YOLO11 다음 분야에서 선호되는 YOLO11 :

자율 시스템: 안전이 생명인 저지연 드론 및 로봇 공학
스마트 시티: NVIDIA 과 같은 에지 디바이스에서의 실시간 교통 모니터링.
농업: 배터리 구동 이동식 장비에서의 작물 모니터링 및 잡초 탐지.
다양한 작업: 탐지와 함께 자세 추정 또는 방향성 바운딩 박스가 필요한 프로젝트.

RTDETRv2의 적용 범위

RTDETRv2는 다음에 적합합니다.

고성능 컴퓨팅 서버: 무제한 전력과 GPU 사용할 수 있는 시나리오.
복잡한 가림 현상: 트랜스포머의 전역 수용 야역이 객체 간 중첩을 해결하는 데 도움이 되는 환경.
연구: 비전 트랜스포머(ViTs)에 대한 학술적 탐구.

결론

두 아키텍처 모두 컴퓨터 비전 분야의 놀라운 발전을 보여줍니다. RTDETRv2는 탐지 작업에서 CNN의 우위를 위협할 수 있는 트랜스포머의 잠재력을 입증합니다. 그러나 대부분의 실제 응용 분야에서는 Ultralytics YOLO11 이 여전히 더 나은 선택입니다.

통합된 프레임워크, 낮은 리소스 요구사항, 더 넓은 작업 지원 범위, 성숙한 배포 생태계를 갖춘 YOLO11 개발자가 프로토타입에서 생산 환경으로 더 빠르게 전환할 수 있도록 YOLO11 . 효율성과 NMS 설계 측면에서 최첨단을 추구하는 분들을 위해, 양쪽의 장점을 통합한 엔드투엔드 파워하우스인 최첨단 YOLO26도 살펴보시길 권장합니다.

YOLO11 탐색하기