콘텐츠로 건너뛰기

RTDETRv2 대 YOLO11: 트랜스포머와 CNN 아키텍처 비교

실시간 객체 탐지 분야는 급속히 진화해 왔으며, 두 가지 뚜렷한 아키텍처 철학이 주도하고 있습니다: RTDETRv2와 같은 모델이 주도하는 비전 트랜스포머(ViT) 접근법과, Ultralytics YOLO11가 완성한 CNN 계보입니다.

RTDETRv2(실시간 탐지 트랜스포머 버전 2)는 정확도와 글로벌 컨텍스트 이해 측면에서 트랜스포머 기반 아키텍처가 달성할 수 있는 한계를 넓히고 있지만, YOLO11 는 효율성, 다용도성, 배포 용이성의 정점을 보여줍니다. 본 비교 분석은 기술 사양, 아키텍처 차이점, 실제 적용 사례를 탐구하여 개발자가 컴퓨터 비전 프로젝트에 적합한 도구를 선택하는 데 도움을 줍니다.

비교표: 지표 및 사양

다음 표는 두 모델의 성능 지표를 보여줍니다. 다음 사항에 유의하십시오. YOLO11 는 마이크로컨트롤러부터 고성능 서버까지 모든 환경에 적용 가능한 광범위한 모델 크기를 제공하는 반면, RTDETRv2는 주로 대용량 모델에 집중하고 있음을 알 수 있습니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

YOLO11에 대해 자세히 알아보세요

아키텍처 분석

이 두 첨단 모델의 핵심적 차이는 시각 정보를 처리하는 방식에 있다.

RTDETRv2: 트랜스포머 접근 방식

바이두 연구진이 개발한 RTDETRv2는 RT-DETR 성공을 기반으로 합니다. 이 모델은 트랜스포머의 힘을 활용하여 이미지 내 장거리 의존성을 포착하는데, 이는 기존 CNN이 종종 어려움을 겪는 특징입니다.

  • 하이브리드 인코더: RTDETRv2는 다중 스케일 특징을 처리하는 하이브리드 인코더를 채택하여 모델이 이미지의 서로 다른 부분에 동시에 '주목'할 수 있도록 합니다.
  • NMS 예측: 이 기술의 핵심 특징 중 하나는 비최대 억제(NMS)를 제거한다는 점입니다. 일련의 쿼리를 사용하여 객체를 직접 예측함으로써 후처리 파이프라인을 단순화하지만, 이는 종종 더 높은 훈련 복잡성을 대가로 합니다.
  • 무료 선물 꾸러미: "v2" 업데이트는 최적화된 훈련 전략과 아키텍처 조정을 도입하여 기존 기준 모델 대비 수렴 속도와 정확도를 향상시킵니다.

메타데이터:

YOLO11: 정제된 CNN 표준

Ultralytics YOLO11CNN 아키텍처의 진화를 나타내며, 계산 오버헤드를 최소화하면서 특징 추출 효율을 극대화하는 데 중점을 둡니다.

  • C3k2 및 C2PSA 블록: YOLO11 백본과 넥에 고급 빌딩 블록을 YOLO11 . C3k2 블록은 풍부한 특징 표현을 위해 다양한 커널 크기를 활용하는 반면, C2PSA 블록은 전체 트랜스포머의 무거운 비용 없이도 어텐션 메커니즘을 효율적으로 통합합니다.
  • 통합 작업 지원: 주로 객체 탐지기로 설계된 RTDETRv2와 달리, YOLO11 범용 비전 기반 기술로 YOLO11 . 동일한 프레임워크 내에서 인스턴스 분할, 자세 추정, OBB(Object Bounding Box) 및 분류 작업을 기본적으로 지원합니다.
  • 엣지 최적화: 이 아키텍처는 CPU부터 NVIDIA 같은 엣지 AI 가속기에 이르기까지 다양한 하드웨어에서 속도를 위해 특별히 튜닝되었습니다.

메타데이터:

알고 계셨나요?

RTDETRv2는 NMS 제거하는 반면, Ultralytics YOLO26 역시 CNN의 속도와 트랜스포머의 간소화된 배포를 결합한 네이티브 엔드투엔드 NMS 설계를 특징으로 합니다.

에코시스템 및 사용 편의성

개발자와 머신러닝 엔지니어에게 모델을 둘러싼 소프트웨어 생태계는 종종 모델의 원시 지표만큼 중요합니다.

Ultralytics 장점: YOLO11 데이터 관리부터 배포까지 일관된 경험을 제공하는 업계 선도적인 Ultralytics 혜택을YOLO11 .

  • 훈련 효율성: YOLO11 훈련 속도가 매우 빠른 것으로 유명합니다. 코드베이스에는 자동화된 하이퍼파라미터 튜닝과 스마트한 데이터셋 검사가 포함되어 있습니다.
  • 배포 유연성: 사용자는 모델을 다음과 같은 형식으로 내보낼 수 있습니다. ONNX, TensorRT, CoreML, TFLite 모델을 내보낼 수 있습니다.
  • 커뮤니티 지원: 수백만 건의 다운로드를 기록한 Ultralytics YouTube 튜토리얼부터 활발한 GitHub 이슈 토론에 이르기까지 방대한 리소스를 제공합니다.

RTDETRv2 고려 사항: RTDETRv2는 주로 연구용 저장소입니다. 강력하지만, 종종 "배터리 포함" 경험이 부족합니다. 훈련 파이프라인 설정, 데이터셋 관리, 에지 디바이스용 내보내기는 일반적으로 더 많은 수동 구성과 Python 스크립팅이 필요합니다.

성능 및 리소스 요구 사항

실제 환경에 배포할 때는 정확도와 자원 소모 간의 균형을 맞추는 것이 핵심이다.

GPU 및 훈련

변압기는 악명 높게도 메모리를 많이 소모합니다. RTDETRv2는 일반적으로 상당한 GPU VRAM을 필요로 합니다. 이로 인해 소비자용 하드웨어에서 훈련하기 어렵거나 더 작은 배치 크기를 요구할 수 있으며, 이는 배치 정규화 통계에 영향을 미칠 수 있습니다.

YOLO11 YOLO11은 훨씬 더 높은 메모리 효율성을 자랑합니다. CNN 기반 아키텍처 덕분에 표준 GPU에서 더 큰 배치 크기를 처리할 수 있어 훈련 속도가 빨라지고 개발 비용이 절감됩니다. 이러한 효율성은 추론 단계까지 이어져 YOLO11n 모델은 CPU에서도 실시간으로 실행될 수 있습니다. 이는 이미지 토큰에 대한 이차적 계산 복잡성으로 인해 트랜스포머 기반 모델들이 따라잡기 어려운 성과입니다.

정확도와 속도의 상충 관계

비교표에서 볼 수 있듯이, YOLO11x는 더 높은 mAP (54.7) 을 달성하는 동시에 경쟁력 있는 추론 속도를 유지합니다. 극한의 속도가 필요한 애플리케이션의 경우, 더 작은 YOLO11 (n/s)은 RTDETRv2가 목표로 삼지 않는 성능 계층을 제공하여 모바일 및 IoT 배포에 있어 YOLO11 확실한 YOLO11 만듭니다.

코드 예시: YOLO11 RT-DETR 사용

Ultralytics 자체 YOLO 지원되는 RT-DETR 버전에 대해 모두 최상급 지원을 Ultralytics , 아키텍처를 원활하게 전환할 수 있도록 합니다.

from ultralytics import RTDETR, YOLO

# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the YOLO11 results
for result in results_yolo:
    result.show()

실제 응용 분야

YOLO11 장점

경량 구조와 고속 성능 덕분에 YOLO11 다음 분야에서 선호되는 YOLO11 :

RTDETRv2의 적용 범위

RTDETRv2는 다음에 적합합니다.

  • 고성능 컴퓨팅 서버: 무제한 전력과 GPU 사용할 수 있는 시나리오.
  • 복잡한 가림 현상: 트랜스포머의 전역 수용 야역이 객체 간 중첩을 해결하는 데 도움이 되는 환경.
  • 연구: 비전 트랜스포머(ViTs)에 대한 학술적 탐구.

결론

두 아키텍처 모두 컴퓨터 비전 분야의 놀라운 발전을 보여줍니다. RTDETRv2는 탐지 작업에서 CNN의 우위를 위협할 수 있는 트랜스포머의 잠재력을 입증합니다. 그러나 대부분의 실제 응용 분야에서는 Ultralytics YOLO11 이 여전히 더 나은 선택입니다.

통합된 프레임워크, 낮은 리소스 요구사항, 더 넓은 작업 지원 범위, 성숙한 배포 생태계를 갖춘 YOLO11 개발자가 프로토타입에서 생산 환경으로 더 빠르게 전환할 수 있도록 YOLO11 . 효율성과 NMS 설계 측면에서 최첨단을 추구하는 분들을 위해, 양쪽의 장점을 통합한 엔드투엔드 파워하우스인 최첨단 YOLO26도 살펴보시길 권장합니다.

YOLO11 탐색하기


댓글