YOLOv7 RTDETRv2: 기존 속도와 트랜스포머 정밀도의 균형
물체 탐지 분야의 지형도는 지난 몇 년간 극적으로 진화하여 순수한 컨볼루션 신경망(CNN)에서 정교한 하이브리드 아키텍처로 전환되었습니다. 이 이야기에서 두 가지 핵심 모델은 YOLOv7, 2022년에 등장한 유명한 "bag-of-freebies" CNN 강자, 그리고 2023/2024년 바이두가 YOLO 도전하기 위해 발표한 실시간 탐지 트랜스포머인 RTDETRv2입니다.
YOLOv7 기존 앵커 기반 접근법을 극한까지 YOLOv7 반면, RTDETRv2는 비전 트랜스포머(ViT) 의 힘을 활용해 비최대 억제(NMS) 같은 후처리 단계를 제거했습니다. 본 가이드는 두 모델의 아키텍처, 성능, 현대 컴퓨터 비전 프로젝트 적합성을 비교하면서, Ultralytics 같은 차세대 모델이 생산 배포의 표준으로 점점 자리 잡는 이유를 탐구합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7: 앵커 기반 탐지의 정점
2022년 7월 출시된 YOLOv7YOLO ImageNet 의존하지 않으면서도 아키텍처 효율성에 중점을 둔 YOLO 주요 도약을 나타냈습니다. 이 모델은 "훈련 가능한 프리비즈 백(trainable bag-of-freebies)" 개념을 도입했는데, 이는 추론 지연 시간을 증가시키지 않으면서도 훈련 중 정확도를 향상시키는 최적화 방법입니다.
주요 기술 세부사항:
- 저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- 기관: 대만 중앙연구원 정보과학연구원
- 날짜:06
- 링크:ArXiv 논문 | GitHub 저장소
YOLOv7 핵심 혁신 은 확장 효율적 레이어 집계 네트워크(E-ELAN) YOLOv7 . 이 아키텍처는 기울기 경로 길이를 제어함으로써 네트워크가 더 다양한 특징을 학습할 수 있게 하여, 더 깊은 네트워크에서도 효과적인 학습을 보장합니다. 매우 효과적이긴 하지만, YOLOv7 앵커 기반 YOLOv7 , 사물 위치를 예측하기 위해 미리 정의된 앵커 박스에 의존합니다. 이러한 의존성으로 인해 사용자 정의 데이터셋에 대한 신중한 하이퍼파라미터 튜닝이 필요한 경우가 많지만, YOLO11과 같은 현대적인 앵커 프리 탐지기는 이러한 복잡성을 제거합니다.
RTDETRv2: 실시간 속도 변환기
RTDETRv2 (실시간 탐지 트랜스포머 v2)는 RT-DETR 성공을 바탕으로, DETR과 같은 전통적인 트랜스포머 기반 탐지기의 높은 계산 비용 문제를 해결하기 위해 개발되었습니다. 바이두가 개발한 이 모델은 트랜스포머 아키텍처가 GPU 실시간 속도를 달성할 수 있음을 입증합니다.
주요 기술 세부사항:
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- 조직조직: Baidu
- 날짜: 2023-04-17 (v1), 2024 (v2 업데이트)
- 링크:ArXiv 논문 | GitHub 저장소
RTDETRv2는 다중 스케일 특징을 효율적으로 처리하는 하이브리드 인코더를 활용합니다. 핵심 특징은 IoU 쿼리 선택( IoU-aware Query Selection)으로, 모델이 이미지의 가장 관련성 높은 부분에 집중하도록 돕습니다. 중요한 점은 RTDETRv2가 엔드투엔드 탐지기라는 것입니다. 비최대 억제(NMS) 후처리 과정이 필요하지 않아 배포 파이프라인을 단순화하고 혼잡한 장면에서의 지연 시간 변동성을 줄입니다. 그러나 이는 CNN 기반 모델에 비해 훈련 중 더 높은 메모리 소비를 초래합니다.
기술 비교: 아키텍처 및 사용 사례
이러한 아키텍처 간의 근본적인 차이점을 이해하는 것은 특정 컴퓨터 비전 애플리케이션에 적합한 도구를 선택하는 데 도움이 됩니다.
1. 아키텍처: CNN 대 하이브리드 트랜스포머
YOLOv7 순수하게 컨볼루션에만 YOLOv7 . 이는 CNN이 본질적으로 변환 불변성을 지니기 때문에 메모리는 제한적이지만 적당한 연산 능력을 가진 에지 디바이스에서 매우 효율적입니다. RTDETRv2는 CNN 백본과 트랜스포머 인코더를 혼합합니다. 이는 글로벌 컨텍스트를 더 잘 포착할 수 있게 해 주지만(복잡한 장면에서 정확도 향상), CUDA 요구량을 크게 증가시킵니다. 예를 들어, 트랜스포머 모델 훈련은 합리적인 배치 크기를 처리하기 위해 고성능 GPU(예: A100 또는 H100)가 필요한 경우가 많은 반면, YOLOv7 소비자용 하드웨어에서도 훈련이 YOLOv7 경우가 많습니다.
2. 추론: NMS 현상
YOLOv7 수천 개의 후보 경계 상자를 YOLOv7 , 이는 NMS 통해 필터링되어야 합니다. 밀집된 객체가 존재하는 시나리오(예: 소매 재고 계수)에서는 NMS 속도 병목 현상이 될 NMS . RTDETRv2는 이 단계를 완전히 제거하여 정확히 필요한 수의 상자만 출력합니다.
두 세계의 장점을 모두 갖춘
YOLO26과 같은 현대적인 Ultralytics 이제 RTDETRv2와 유사한 엔드투엔드 NMS 설계를 특징으로 하지만, 고도로 최적화된 CNN 아키텍처 위에 구축되었습니다. 이는 트랜스포머의 배포 간편성과 YOLO 훈련 효율성 및 속도를 동시에 제공합니다.
3. 배포 및 생태계
두 모델 모두 강력한 연구적 근거를 갖추고 있지만, Ultralytics 유지 관리 측면에서 뚜렷한 이점을 제공합니다. YOLOv7 공식 저장소는 대체로 정적인 반면, Ultralytics 빈번한 업데이트를 받아 최신 버전의 호환성을 보장합니다. PyTorch, ONNX, TensorRT 호환성을 보장합니다.
현대적 대안: Ultralytics
트랜스포머의 정확성과 CNN의 속도를 동시에 추구하는 개발자들에게 Ultralytics 탁월한 선택으로 부각됩니다. 2026년 출시된 이 모델은 RTDETRv2의 '엔드투엔드' 장점을 계승하면서도 자원 사용 측면의 약점을 해결했습니다.
왜 YOLO26을 선택해야 할까요?
- 네이티브 엔드투엔드: RTDETRv2와 마찬가지로 YOLO26은 NMS 제거하여 TensorRT 및 CoreML 내보내기를 단순화합니다.
- MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련에서 영감을 받아 개발된 이 최적화기는 안정적인 수렴을 보장하며, YOLOv7 같은 기존 모델 훈련 시 흔히 필요한 '시행착오' 과정을 줄여줍니다.
- 엣지 최적화: YOLO26은 분포 초점 손실(DFL)을 제거하여 훨씬 가벼워졌습니다. 이는 최대 43% 빠른 CPU 제공하며, 이는 RTDETRv2가 무거운 트랜스포머 연산으로 인해 종종 어려움을 겪는 엣지 디바이스에서 중요한 지표입니다.
- 다용도성: 주로 탐지에 초점을 맞춘 YOLOv7 RTDETRv2와 달리, YOLO26은 세그멘테이션, 자세 추정, 방향성 바운딩 박스(OBB) 를 기본적으로 지원합니다.
성능 균형
YOLO26은 ProgLoss와 STAL (소프트 타겟 앵커 손실) 을 활용하여 소형 객체 탐지 성능을 향상시킵니다. 이는 기존 YOLO 역사적으로 트랜스포머에 뒤처졌던 분야입니다. 이로 인해 항공 이미지 분석이나 의료용 세포 계수 같은 응용 분야에 이상적입니다.
코드 예시: 원활한 통합
구형 모델에서 최신 Ultralytics 로 전환하는 것은 매우 쉽습니다. Ultralytics Python 아키텍처 차이의 복잡성을 추상화하여 처리합니다.
from ultralytics import YOLO
# Load the latest YOLO26 model (recommended)
model = YOLO("yolo26n.pt")
# Alternatively, load RT-DETR or YOLOv7 within the same ecosystem
# model = YOLO("rtdetr-l.pt")
# model = YOLO("yolov7.pt")
# Train on a dataset like COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with NMS-free speed (native in YOLO26)
results = model("https://ultralytics.com/images/bus.jpg")
요약
- 레거시 시스템을 유지 관리 중이며 검증된 순수 CNN 기반 탐지기가 필요하고 앵커 조정에 시간을 할애할 수 있다면 YOLOv7 사용하십시오.
- 고성능 GPU에서 엔드투엔드 추론을 수행해야 하며 훈련 중 더 높은 VRAM 비용을 감당할 수 있다면 RTDETRv2를 사용하십시오.
- 최적의 균형을 위해 Ultralytics 사용하십시오. 이 모델은 RTDETR의 엔드투엔드 NMS 이점, YOLO 속도와 낮은 메모리 사용량, 그리고 Ultralytics 강력한 지원을 제공합니다.
2026년 대부분의 신규 프로젝트에서 YOLO26의 사용 편의성, 문서화 수준, 성능/효율성 비율은 이를 권장되는 시작점으로 만듭니다.