콘텐츠로 건너뛰기

RTDETRv2 대 YOLO26: 차세대 객체 탐지기의 기술적 비교

컴퓨터 비전 프로젝트에 적합한 객체 탐지 모델을 선택하는 것은 종종 복잡한 아키텍처 선택, 속도와 정확도의 절충점, 배포 제약 조건이라는 환경을 탐색하는 과정을 수반합니다. 본 가이드는 바이두의 실시간 탐지 트랜스포머인 RTDETRv2와 Ultralytics YOLO 최신 버전인 YOLO26 간의 심층적인 기술적 비교를 제공합니다. 두 모델의 아키텍처, 성능 벤치마크, 이상적인 사용 사례를 분석하여 정보에 기반한 결정을 내리는 데 도움을 드립니다.

경영진 요약

두 모델 모두 2026년 기준 실시간 탐지의 최첨단을 대표합니다. RTDETRv2는 트랜스포머 기반 탐지의 한계를 계속해서 넓혀가며, 특히 복잡한 장면에서 어텐션 메커니즘을 통해 탁월한 정확도를 제공합니다. 2026년 1월 출시된 YOLO26은 엔드투엔드 방식의 NMS 원천적으로 배제한 설계로 YOLO 혁신하며, CPU에서의 추론 속도를 크게 향상시키고 배포를 단순화하면서도 최첨단 정확도를 유지합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

RTDETRv2: 실시간 트랜스포머 정교화

RTDETRv2는 실시간 시나리오에서 YOLO 진정으로 도전한 최초의 트랜스포머 기반 탐지기인 RT-DETR 성공을 기반으로 합니다. 바이두가 개발한 이 모델은 실용적인 속도와 정확도를 위해 비전 트랜스포머(ViT) 아키텍처 최적화에 중점을 둡니다.

건축 하이라이트

RTDETRv2의 핵심 혁신은 유연한 하이브리드 인코더와 효율적인 쿼리 선택에 있습니다. 기존 CNN 기반 탐지기와 달리, 자체 주의 메커니즘을 활용하여 글로벌 컨텍스트를 포착함으로써 복잡한 관계나 가림 현상이 있는 객체 탐지에 특히 유리합니다. v2 업데이트에서는 추론 비용 증가 없이 훈련 안정성과 성능을 향상시키는 "Bag-of-Freebies"를 도입했습니다. 이 기법은 쿼리에 대해 이산적 샘플링 전략을 적용하여 모델이 가장 관련성 높은 이미지 영역에 집중할 수 있도록 합니다.

성과 및 훈련

RTDETRv2는 정확도 면에서 탁월하며, 높은 정밀도가 요구되는 시나리오에서 종종 이전 세대 YOLO를 능가합니다. 그러나 이는 대가를 수반합니다. 트랜스포머 아키텍처는 일반적으로 CNN에 비해 훈련 과정에서 훨씬 더 GPU 필요로 합니다. 추론 속도는 강력한 GPU(예: NVIDIA )에서는 "실시간" 수준이지만, CPU 장치나 엣지 하드웨어에서는 컨볼루션 연산에 비해 트랜스포머 연산이 덜 최적화되어 있어 어려움을 겪을 수 있습니다.

주요 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속 기관:Baidu
날짜: 2024년 7월 (Arxiv v2)
링크:Arxiv | GitHub

RT-DETR에 대해 자세히 알아보세요.

YOLO26: 엔드투엔드 엣지 파워하우스

YOLO26은 Ultralytics 주요 아키텍처 전환을 의미합니다. 기존에 의존하던 비최대 억제(NMS) 방식을 버리고, 본질적으로 종단 간(end-to-end) 아키텍처를 채택했습니다. 이 설계 선택은 객체 탐지 배포에서 가장 오래 지속된 병목 현상 중 하나인 후처리 과정의 지연 시간과 복잡성을 해결합니다.

아키텍처 혁신

YOLO26의 아키텍처는 효율성과 다용도성을 위해 간소화되었습니다:

  • 엔드투엔드 NMS: 훈련 중 일대일 매칭을 예측함으로써 YOLO26은 NMS 단계를 필요로 하지 않습니다. 이는 특히 FPGA나 NPU 같은 비표준 하드웨어에서 지연 시간 예측 불가능성을 줄이고 배포 파이프라인을 단순화합니다.
  • DFL 제거: 분포 초점 손실(DFL) 을 제거함으로써 출력 헤드가 단순화되어 모델을 ONNX CoreML 같은 형식으로 더 쉽게 내보낼 수 CoreML 8비트 양자화와의 호환성도 향상됩니다.
  • MuSGD 최적화기: Moonshot AI의 Kimi K2와 같은 대규모 언어 모델(LLM) 훈련의 혁신에서 영감을 받아, YOLO26은 SGD ) SGD 결합한 하이브리드 최적화기를 활용합니다. 이를 통해 더 빠른 수렴과 더 안정적인 훈련 실행이 가능합니다.
  • ProgLoss + STAL: 새로운 손실 함수인 '진행형 손실 균형(Progressive Loss Balancing)'과 '소형 목표물 인식 라벨 할당(Small-Target-Aware Label Assignment)'은 단일 단계 탐지기의 전통적인 약점인 소형 물체 탐지를 특별히 겨냥합니다.

성능과 다용도성

YOLO26은 속도와 정확도 사이에서 탁월한 균형을 제공합니다. YOLO26n (나노) 모델은 CPU에서 이전 버전 대비 최대 43% 더 빠르게 실행되어 모바일 및 IoT 애플리케이션에 최적의 선택입니다. 또한 YOLO26은 통합 모델 패밀리로, 동일한 API를 사용하여 객체 탐지, 인스턴스 분할, 자세 추정, 분류, 방향 객체 탐지(OBB) 작업 간 원활하게 전환할 수 있습니다.

주요 저자: 글렌 조커(Glenn Jocher)와 징 치우(Jing Qiu)
기관:Ultralytics
날짜: 2026년 1월 14일
링크:Ultralytics | GitHub

YOLO26에 대해 더 알아보기

상세 비교

1. 에지 디바이스에서의 속도와 효율성

이것이 가장 뚜렷한 차별점입니다. RTDETRv2는 GPU에서는 확장성이 우수하지만 CPU에서는 병목 현상을 일으킬 수 있는 행렬 곱셈에 크게 의존합니다. CNN 기반 백본과 NMS 프리 헤드를 갖춘 YOLO26은 리소스 제약이 있는 장치에서 훨씬 더 효율적입니다. 예를 들어, YOLO26n 모델은 CPU 38.9ms의 지연 시간을 달성하는 반면, 트랜스포머 기반 모델은 전용 가속 장치 없이는 실시간 성능을 달성하기 어려운 경우가 많습니다.

엣지 배포

라즈베리 파이, 제트슨 나노 또는 모바일 기기에 배포할 경우, YOLO26은 최적화된 연산 집합과 낮은 메모리 사용량으로 인해 일반적으로 더 우수한 선택입니다. DFL 제거로 인해 TFLite로의 내보내기 과정이 더욱 간소화됩니다. TFLiteCoreML으로의 내보내기 과정을 더욱 간소화합니다.

2. 교육 자원 요구 사항

Ultralytics 효율적인 훈련 루프로 유명합니다. YOLO26은 RTDETRv2에 비해 훈련에 필요한 VRAM이 현저히 적습니다. 트랜스포머 모델은 일반적으로 수렴을 위해 큰 배치 크기와 긴 훈련 일정이 필요하며, 이는 클라우드 컴퓨팅 비용 증가로 이어집니다. YOLO26의 MuSGD 최적화기는 이 과정을 더욱 가속화하여 연구자들이GPU 빠르게 반복GPU 수행할 수 있게 합니다.

3. 작업 다용도성

RTDETRv2는 주로 객체 탐지에 초점을 맞추고 있지만, YOLO26 생태계는 본질적으로 다중 작업(multi-task)을 수행합니다.

  • RTDETRv2: 바운딩 박스 탐지에 탁월합니다.
  • YOLO26: 탐지, 분할, 자세 추정, OBB 추적, 분류를 기본적으로 지원합니다. 이로 인해 YOLO26은 개발자들에게 "만능 도구" 역할을 합니다. 개발자들은 전체 소프트웨어 스택을 변경하지 않고도 바운딩 박스 탐지에서 마스크 분할이나 키포인트 추정으로 전환할 수 있습니다.

4. 생태계와 사용 편의성

Ultralytics 개발자 경험 측면에서 상당한 이점을 제공합니다. 통합된 Python , 방대한 문서, 그리고 다음과 같은 도구와의 원활한 통합을 통해 Weights & Biases , Roboflow과 같은 도구와의 원활한 통합을 통해 데이터셋에서 배포까지 YOLO26 모델을 손쉽게 구축할 수 있습니다. RTDETRv2는 강력하지만, 트랜스포머 아키텍처에 익숙하지 않은 사용자에게는 수동 설정이 더 많이 필요하고 학습 곡선이 가파른 편입니다.

코드 예시: YOLO2 실행

Ultralytics 의 단순성 덕분에 즉시 테스트 및 통합이 가능합니다.

from ultralytics import YOLO

# Load a pretrained YOLO26s model
model = YOLO("yolo26s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

결론

두 모델 모두 컴퓨터 비전 분야에서 탁월한 성과입니다. RTDETRv2는 복잡한 장면에서 최대 정확도가 가장 중요하며 트랜스포머의 계산 비용이 허용 가능한 고성능 GPU 환경에 적합한 강력한 후보입니다.

그러나 YOLO26은 실제 적용 사례의 압도적 다수에서 권장되는 만능 솔루션입니다. NMS 엔드투엔드 설계, 우수한 CPU , 낮은 메모리 요구량, 그리고 다양한 비전 작업 지원 덕분에 확장성 있고 효율적이며 다목적 AI 시스템을 구축하는 엔지니어에게 실용적인 선택지입니다. 서버 팜에 배포하든 스마트 카메라에 적용하든, YOLO26은 타의 추종을 불허하는 균형 잡힌 성능 프로파일을 제공합니다.

고려할 다른 모델

  • YOLO11: YOLO26의 신뢰할 수 있는 선행 모델로, 여전히 널리 사용되며 완벽하게 지원됩니다.
  • YOLO: 훈련 세트에 존재하지 않는 detect 하는 개방형 어휘 탐지에 이상적입니다.
  • FastSAM: 실시간 속도로 segment 처리 기능이 특히 필요한 경우.

댓글