RTDETRv2 대 YOLO26: 실시간 객체 탐지에서 트랜스포머 대 차세대 CNN

실시간 객체 탐지 분야의 기술 지형은 끊임없이 진화하고 있으며, 현재 두 가지 주요 아키텍처가 주도권을 놓고 경쟁 중이다: 트랜스포머 기반의 RTDETRv2와 CNN 기반의 YOLO26이다. 두 모델 모두 객체를 빠르고 정확하게 탐지하는 근본적인 과제를 해결하고자 하지만, 이 문제를 접근하는 방식과 아키텍처 선택은 뚜렷이 다르다.

이 가이드는 두 모델의 기술 사양, 성능 지표 및 이상적인 사용 사례에 대한 심층 분석을 제공하여 배포 요구 사항에 가장 적합한 아키텍처를 선택하는 데 도움을 줍니다.

RTDETRv2 개요

RTDETRv2(실시간 DEtection TRansformer v2)는 DETR(DEtection TRansformer) 계열의 진화를 나타내며, 비전 트랜스포머의 성능을 실시간 애플리케이션에 적용하려는 시도입니다. 기존 RT-DETR 기반으로 한 이번 버전은 유연성과 훈련 수렴성에 중점을 둡니다.

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
조직조직: Baidu
날짜: 2024-07-24(v2 릴리스)
논문:RT-DETRv2: 실시간 탐지 트랜스포머를 위한 Bag-of-Freebies를 활용한 개선된 베이스라인
GitHub:RT-DETR 리포지토리

RTDETRv2는 CNN 백본과 트랜스포머 인코더-디코더를 결합한 하이브리드 아키텍처를 활용합니다. 핵심 특징은 기존 트랜스포머 대비 수렴 속도를 향상시키기 위한 개선된 훈련 전략과 아키텍처 조정을 포함하는 "Bag-of-Freebies"입니다. 그러나 이전 모델들과 마찬가지로, 어텐션 메커니즘에 내재된 효율적인 행렬 곱셈을 위해 GPU 크게 의존합니다.

RT-DETR에 대해 자세히 알아보세요.

YOLO26 개요

YOLO26은 Ultralytics 개발한 You Only Look Once 계보의 최신 진화 단계로, 에지 디바이스의 효율성 한계를 뛰어넘기 Ultralytics 설계되었습니다. 이 모델은 이전 세대와는 확연히 차별화되는데, 컨볼루션 신경망(CNN)의 속도 이점을 유지하면서도 원생적인 엔드투엔드 NMS 프리(네트워크 관리 시스템 불필요) 설계를 채택했기 때문입니다.

저자: 글렌 조커와 징 치우
조직:Ultralytics
날짜:14
문서:YOLO26 문서
GitHub:Ultralytics 리포지토리

YOLO26은 "에지 우선" 배포를 위해 설계되었습니다. 대규모 언어 모델(LLM) 훈련 안정성에서 영감을 받은 MuSGD 최적화기를 도입하고, 모델 내보내기를 간소화하기 위해 분포 초점 손실(DFL)을 제거했습니다. 이러한 변경으로 인해 트랜스포머가 종종 어려움을 겪는 CPU 장치에서도 높은 정확도와 함께 탁월한 속도를 자랑하는 모델이 탄생했습니다.

YOLO26에 대해 더 알아보기

기술적 비교

다음 표는 RTDETr v2와 YOLO26 간의 성능 차이를 보여줍니다. CPU 속도와 매개변수 효율성에서 현저한 차이가 있음을 주목하십시오.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

아키텍처 및 설계

이러한 모델들이 시각적 데이터를 처리하는 방식에 근본적인 차이가 있다.

RTDETRv2는 어텐션 메커니즘에 의존합니다. 이를 통해 모델은 글로벌 컨텍스트(먼 픽셀 간의 관계 이해)를 포착할 수 있지만, 이미지 크기에 비례하여 이차적인 계산 비용이 발생합니다. 이로 인해 고해상도 추론은 비용이 많이 듭니다. 훈련 중 이분 매칭을 사용하여 비최대 억제(NMS) 의 필요성을 제거하는데, 이는 새로운 YOLO26과 공유하는 특성입니다.

YOLO26은 고급 CNN 아키텍처를 활용하지만 획기적인 종단간 NMS 설계를 도입합니다. 기존 YOLO 모델들은 중복 경계 상자를 제거하기 위해 NMS 필요했습니다. YOLO26은 DETR과 유사하게 이 단계를 기본적으로 제거하지만, 트랜스포머의 무거운 계산 오버헤드 없이 구현합니다. 또한 분포 초점 손실(DFL)을 제거함으로써 ONNX TensorRT 같은 형식으로의 아키텍처 내보내기를 단순화하여 저전력 엣지 가속기와의 광범위한 호환성을 보장합니다.

훈련 효율성과 최적화

훈련 효율성은 맞춤형 데이터셋을 반복적으로 개선하는 팀에게 중요한 요소입니다.

YOLO26은 SGD Muon의 하이브리드인 MuSGD 최적화기를 도입합니다. 대규모 언어 모델(예: Moonshot AI의 Kimi K2) 훈련 분야의 혁신에서 영감을 받은 이 최적화기는 비전 작업에 향상된 안정성과 더 빠른 수렴을 제공합니다. ProgLoss (진보적 손실) 및 STAL (자가 학습 앵커 학습)과 결합된 YOLO26은 빠른 훈련 시간과 낮은 메모리 사용량을 제공하여 소비자용 GPU에서도 더 큰 배치 크기를 지원합니다.
RTDETRv2는 일반적으로 더 많은 GPU (VRAM)와 더 긴 훈련 일정이 필요하며, 이를 통해 어텐션 레이어를 안정화시킵니다. 트랜스포머는 데이터 집약적이라는 평판을 가지고 있으며, CNN 기반 모델에 비해 수렴 속도가 더 느릴 수 있습니다.

메모리 효율성

YOLO26의 CNN 기반 아키텍처는 트랜스포머 기반 대안보다 메모리 효율성이 현저히 높습니다. 이를 통해 제한된 VRAM(예: RTX 3060 또는 4060)을 가진 GPU에서도 더 큰 모델을 훈련하거나, 더 안정적인 기울기를 위해 더 큰 배치 크기를 사용할 수 있습니다.

실제 적용 사례 분석

이러한 모델들 사이에서 선택하는 것은 특정 하드웨어 제약 조건과 정확도 요구 사항에 크게 좌우됩니다.

YOLO26이 뛰어난 점

1. 에지 AI와 IoT: 최대 43% 빠른 CPU 제공하는 YOLO26은 에지 컴퓨팅의 확실한 강자입니다. 라즈베리 파이, NVIDIA Nano 또는 모바일 기기에서 실행되는 애플리케이션의 경우, RTDETRv2의 트랜스포머 블록 오버헤드는 종종 큰 장애물이 됩니다. YOLO26n(나노)은 트랜스포머가 밀리초 단위가 아닌 초 단위로 지연 시간을 측정하는 CPU 환경에서도 실시간 속도를 제공합니다.

2. 로봇 공학 및 내비게이션: YOLO26의 NMSNormalized Mean Subtraction) 없는 설계는 로봇 공학에 매우 중요합니다. NMS 단계를 제거함으로써 YOLO26은 지연 시간 편차를 줄여, 고속 내비게이션 및 조작 작업에 필요한 일관되고 결정론적인 추론 시간을 제공합니다.

3. 다양한 비전 작업: YOLO26은 단순한 탐지기가 아닙니다. Ultralytics 다음과 같은 작업들을 기본적으로 지원합니다:

인스턴스 분할: 픽셀 단위의 객체 이해를 위한 기술.
자세 추정: 고정밀 키포인트를 위한 잔차 로그우도 추정(RLE) 활용
방향성 경계 상자(OBB): 선박이나 항공기 같은 회전된 물체를 탐지하기 위한 특수 각도 손실 함수.

RTDETRv2의 적용 범위

RTDETRv2는 주로 연구 중심의 아키텍처입니다. 다음 시나리오에 가장 적합합니다:

글로벌 컨텍스트는 로컬 특징(예: 특정 의료 영상 작업)보다 더 중요하다.
하드웨어 제약은 존재하지 않으며, 고성능 서버급 GPU(예: NVIDIA 또는 H100)를 배포할 수 있습니다.
특정 연구 과제를 해결하기 위해서는 트랜스포머의 특정 유도적 편향이 필요하다.

그러나 프로덕션 환경에서는 Ultralytics 비해 성숙한 배포 생태계가 부족하여 Ultralytics 마찰을 일으킵니다.

Ultralytics 이점

순수한 지표 이상의 요소로, 소프트웨어 생태계는 프로젝트 성공에 핵심적인 역할을 합니다. YOLO26은 전체 MLOps 라이프사이클을 간소화하는 강력한 Ultralytics 혜택을 누립니다.

사용 편의성: "초보자도 전문가처럼"이라는 경험은 10줄 미만의 Python 모델을 로드, 훈련 및 배포할 수 있음을 의미합니다.
잘 관리된 생태계: 수개월 동안 업데이트되지 않을 수 있는 연구 저장소와 달리, Ultralytics 빈번한 패치, 활발한 커뮤니티 지원 및 방대한 문서를 Ultralytics .
배포 유연성: CoreMLiOS 실행, TF.js를 활용한 웹 브라우저 실행, 또는 에지 TPU 실행이 필요하든, 내장된 내보내기 모드 덕분에 전환이 원활하게 이루어집니다.

코드 예제: YOLO26 시작하기

다음 예시는 Ultralytics Python 사용하여 YOLO26 모델을 훈련시키는 것이 얼마나 간단한지 보여줍니다. 이러한 간편함은 연구 기반 트랜스포머 모델에 필요한 복잡한 구성 파일과 대조를 이룹니다.

from ultralytics import YOLO

# Load the YOLO26 Nano model (efficient for edge devices)
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free prediction ensures low latency
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for broad deployment compatibility
path = model.export(format="onnx")

결론

RTDETRv2가 탐지 분야에서 트랜스포머의 학술적 잠재력을 입증하는 반면, Ultralytics 실제 적용 사례의 대다수에 대해 보다 실용적이고 효율적이며 다용도로 활용 가능한 솔루션을 제공합니다.

엔드투엔드 NMS 아키텍처, MuSGD 최적화, 우수한 에지 성능의 독보적인 조합으로 YOLO26은 2026년을 대비한 미래 지향적 선택입니다. 스마트 카메라 시스템, 자율 비행 드론, 고처리량 영상 분석 파이프라인 구축 시에도 YOLO26은 프로토타입에서 양산 단계로의 전환을 확신할 수 있는 속도와 정확도의 균형을 제공합니다.

최첨단 옵션을 원하는 개발자를 위해 Ultralytics 또한 YOLO11 및 원본 RT-DETR을 지원하여 통합된 API 내에서 손쉬운 벤치마킹이 가능합니다.