RTDETRv2 대YOLO: 실시간 정밀도를 위한 대결
최적의 객체 탐지 아키텍처를 찾는 과정은 종종 트랜스포머의 글로벌 컨텍스트 모델링과 컨볼루션 신경망(CNN)의 속도 사이의 절충을 수반합니다. 이 분야에서 두 가지 주요 경쟁자는 YOLO. RTDETRv2는 바이두의 실시간 탐지 트랜스포머(Real-Time Detection Transformer)의 두 번째 버전으로, 어텐션 메커니즘을 활용하여 비최대 억제(NMS)의 필요성을 제거합니다. 반면 알리바바YOLO 신경망 구조 탐색(NAS)과 효율적인 재매개변수화에 중점을 두어 기존 CNN 구조에서 최대한의 성능을 끌어냅니다.
이 가이드는 컴퓨터 비전 프로젝트에 적합한 도구를 선택하는 데 필요한 통찰력을 제공하기 위해, 해당 아키텍처, 벤치마크 및 이상적인 배포 시나리오에 대한 심층 분석을 제공합니다.
경영진 요약
RTDETRv2는 물체가 크게 겹칠 수 있는 복잡한 환경에서 높은 정밀도가 요구되는 애플리케이션에 탁월한 선택입니다. 트랜스포머 기반 설계로 글로벌 컨텍스트를 자연스럽게 처리하여 가림 현상에 강합니다. 다만, 특히 에지 디바이스에서 더 높은 연산 성능이 필요하다는 단점이 있습니다.
YOLO 표준 하드웨어에서 낮은 지연 시간을 우선시하는 산업 현장에서 탁월한 성능을 발휘합니다. NAS 활용과 효율적인 백본 설계로 실시간 제조 및 검사 작업에 매우 효과적입니다. 속도는 빠르지만, 트랜스포머의 종단간 특성에 비해 하이퍼파라미터 조정에 민감할 수 있는 전통적인 앵커 기반 방법론을 사용합니다.
최첨단 속도, 엔드투엔드 NMS 프리 추론, 사용 편의성이라는 두 마리 토끼를 모두 잡으려는 분들을 위해, Ultralytics 모델은 손실 함수의 최신 최적화와 향상된 CPU 결합하여 탁월한 대안을 제공합니다.
RTDETRv2: 실시간 트랜스포머 정교화
RTDETRv2(실시간 탐지 트랜스포머 v2)는 기존 RT-DETR의 성공을 바탕으로 하이브리드 인코더와 불확실성을 고려한 쿼리 선택을 더욱 정교화했습니다. 이는 트랜스포머 모델의 우수한 정확도를 유지하면서 전형적인 지연 시간 병목 현상을 해결하는 것을 목표로 합니다.
저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속:Baidu
날짜: 2023년 4월 17일
Arxiv:RTDETRv2 논문
GitHub:RT-DETR
주요 아키텍처 혁신
- 하이브리드 인코더: 동일 스케일 내 상호작용과 스케일 간 융합을 분리하여 다중 스케일 특징을 효율적으로 처리함으로써, 표준 변형 가능 DETR 인코더 대비 계산 비용을 크게 절감합니다.
- 불확실성 최소화 질의 선택: 가장 높은 분류 점수를 가진 특징을 선택함으로써 객체 질의의 초기화를 개선하여, 더 빠른 수렴과 향상된 초기 탐지 성능을 제공합니다.
- NMS 추론: 트랜스포머 기반 모델인 RTDETRv2는 고정된 객체 집합을 직접 예측하므로, 비최대 억제(NMS)가 필요하지 않습니다. 이는 배포 파이프라인을 단순화하고, 밀집 예측 후처리와 관련된 지연 시간 변동성을 제거합니다.
- 유연한 백본 지원: 이 아키텍처는 ResNet 및 HGNetv2를 포함한 다양한 백본을 지원하여 사용자가 사용 가능한 컴퓨팅 리소스에 따라 모델을 확장할 수 있도록 합니다.
트랜스포머 이점
CNN이 픽셀의 국소 영역을 처리하는 것과 달리, RTDETRv2의 자기 주의 메커니즘은 이미지의 모든 부분이 다른 모든 부분에 주의를 기울일 수 있게 합니다. 이러한 "전역 수용 영역"은 특히 큰 물체를 탐지하거나 장면의 멀리 떨어진 부분들 간의 관계를 이해하는 데 유용합니다.
YOLO: 산업용 등급의 효율성
YOLO 엄격한 신경망 구조 탐색(NAS)과 혁신적인 특징 융합 기법을 통해 "You Only Look Once" 패러다임의 효율성을 극대화하는 데YOLO . 산업용 애플리케이션을 위해 속도와 정확도의 균형을 맞춘 견고한 범용 탐지기로 설계되었습니다.
저자: 쉬셴저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속:알리바바 그룹(Alibaba Group)
날짜: 2022년 11월 23일
Arxiv:YOLO
GitHub:YOLO
주요 아키텍처 기능
- MAE-NAS 백본: 신경망 구조 탐색을 위한 보조 고유값 방법을 활용하여 분류 대용이 아닌 탐지 작업에 특화되어 최적화된 백본을 발견합니다.
- 효율적인 RepGFPN: 재매개변수화(Rep) 기법으로 최적화된 일반화된 피라미드 구조 네트워크(GFPN). 이를 통해 훈련 중 복잡한 특징 융합이 가능하며, 추론 시에는 단순하고 빠른 구조로 축소된다.
- ZeroHead: 평균 정밀도(mAP)를 저하시키지 않으면서 매개변수 수와 연산량(FLOPs)을 크게 줄인 경량 탐지 헤드.
- AlignedOTA: 분류 및 회귀 작업 간의 정렬 불일치 문제를 해결하는 개선된 레이블 할당 전략으로, 훈련 과정에서 고품질 앵커가 선택되도록 보장합니다.
기술 성능 비교
이러한 아키텍처를 비교할 때 순수 추론 속도와 탐지 정확도(mAP) 간의 상충 관계를 살펴보는 것이 중요합니다. 아래 표는 RTDETRv2가 특히 COCO 일반적으로 더 높은 정확도를 달성하는 반면,YOLO 특정 하드웨어 구성에서 잠재적으로 더 낮은 지연 시간으로 경쟁력 있는 성능을YOLO 보여줍니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
배포 및 사용 사례
RTDETRv2의 이상적인 시나리오
- 복잡한 도시 장면: 글로벌 어텐션 메커니즘은 혼잡한 거리에서의 가림 현상 처리에 탁월하여 자율 주행이나 교통 모니터링에 이상적입니다.
- 의료 영상: 정밀도가 최우선이며, 종양 검출과 같이 위음성 결과가 치명적인 경우, RTDETRv2의 높은 정확도는 유익합니다.
- 군중 계수: NMS 없이 중첩된 개인을 구분하는 능력은 군중 관리 애플리케이션에 탁월함을 제공합니다.
YOLO 위한 이상적인 시나리오
- 고속 제조: 결함 감지를 위해 밀리초 단위의 지연 시간이 요구되는 조립 라인에서,YOLO 낮은 지연 시간은 처리량이 병목 현상을 일으키지 않도록 보장합니다.
- 임베디드 IoT: 연산 능력이 제한된 장치에서 변환 연산이 부담스러운 경우,YOLO CNN 기반 효율성이YOLO .
- 소매 분석: 진열대 상품 추적 또는 재고 관리에 활용되며, 상당히 빠른 처리 속도를 위해 중간 수준의 정확도가 허용되는 경우.
Ultralytics : YOLO26
RTDETRv2와YOLO 모두 강력한 기능을YOLO , Ultralytics 모델은 효율성과 사용성의 정점을 보여줍니다. 2026년 1월 출시된 YOLO26은 트랜스포머의 NMS( NMS) 없는 설계를 고도로 최적화된 에지 친화적 아키텍처에 통합함으로써 이 두 철학 간의 간극을 메웠습니다.
개발자들이 Ultralytics 선택하는 이유
- 통합 플랫폼: 유지보수가 부족한 경우가 많은 연구 저장소와 달리, Ultralytics 모델 훈련, 배포 및 관리를 위한 포괄적인 플랫폼을 Ultralytics . 포즈 추정, 분할 또는 OBB가 필요하든, 모든 기능이 하나의 라이브러리에서 이용 가능합니다.
사용 편의성: 최신 모델을 훈련하는 데 최소한의 코드만 필요합니다. 이러한 접근성 덕분에 연구자들은 복잡한 훈련 루프를 디버깅하는 대신 데이터에 집중할 수 있습니다.
from ultralytics import YOLO # Load the latest YOLO26 model (NMS-free by design) model = YOLO("yolo26n.pt") # Train on a custom dataset with MuSGD optimizer results = model.train(data="coco8.yaml", epochs=100, imgsz=640)종단간 효율성: YOLO26은 YOLOv10 처음 YOLOv10 생산 환경에 맞게 개선된 종단간 NMS 설계를 도입합니다. 이는YOLO 발견된 후처리 오버헤드를 제거하는YOLO RTDETRv2의 전체 어텐션 레이어가 요구하는 막대한 계산 비용을 피합니다.
- 에지 최적화: 분포 초점 손실(DFL) 제거 및 CPU 위한 특정 최적화를 통해 YOLO26은 이전 세대 대비 에지 디바이스에서 최대 43% 더 빠른 성능을 발휘하여 모바일 배포에 탁월한 선택지입니다.
- 고급 훈련: MuSGD 최적화기 (LLM 훈련에서 영감을 얻음) 및 ProgLoss와 같은 기능은 안정적인 훈련과 더 빠른 수렴을 보장하여 모델 개발과 관련된 시간 및 비용을 절감합니다.
결론
순수 연구나 고성능 GPU에서 최대 이론적 정확도를 요구하는 시나리오에서는 RTDETRv2가 강력한 후보입니다. 절대적으로 최소한의 CNN 공간을 필요로 하는 엄격한 제약 조건의 레거시 시스템에서는 YOLO 여전히 유효합니다. 그러나 속도, 정확도, 다용도성, 배포 용이성의 균형을 요구하는 대다수의 실제 적용 분야에서는 Ultralytics 권장 솔루션입니다.
다른 비교를 살펴보고 Ultralytics 어떻게 평가되는지 확인하세요 YOLOv8 및 EfficientDet와 비교해 보세요.