RTDETRv2 대 YOLOv7: 트랜스포머 기반 진화 대 CNN 효율성

객체 탐지 분야의 풍경은 아키텍처 철학에서 흥미로운 분화를 보여왔다. 한쪽에는 고성능으로 대표되는 컨볼루션 신경망(CNN) 계보가 있다. YOLOv7가 대표합니다. 다른 한편으로는 트랜스포머 혁명이 실시간 속도로 비전 트랜스포머(ViTs)의 글로벌 컨텍스트 능력을 구현하려는 모델인 RTDETRv2 (실시간 탐지 트랜스포머)를 탄생시켰습니다.

이 가이드는 두 아키텍처의 기술적 분석을 제공하며, 속도, 정확도, 배포 복잡성 측면에서의 장단점을 비교합니다. 두 아키텍처 모두 출시 당시 최첨단 성능을 보여주었지만, 현대 개발 환경에서는 통합된 생태계와 에지 최적화 성능을 갖춘 Ultralytics 을 선호하는 경향이 있습니다. 이는 엔드투엔드 NMS 프리 추론과 같이 두 아키텍처의 장점을 원활하게 통합한 솔루션입니다.

경영진 비교

다음 표는 COCO RTDETRv YOLOv7 공식 성능 지표를 비교합니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

RTDETRv2: 트랜스포머 챌린저

RTDETRv2 (실시간 탐지 트랜스포머 버전 2)는 바이두 연구진이 개발한 RT-DETR 진화형 모델입니다. 효율적인 하이브리드 인코더를 도입하고 쿼리 선택 과정을 단순화함으로써 비전 트랜스포머에 일반적으로 수반되는 높은 계산 비용 문제를 해결합니다.

주요 기술 세부사항:

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organization: Baidu
날짜: 2023-04-17 (v1 릴리스 컨텍스트)
링크:ArXiv 논문 | GitHub 저장소

RTDETRv2는 비최대 억제(NMS)의 필요성을 제거함으로써 두드러집니다. 후처리 필터링이 필요한 수천 개의 중복 경계 상자를 생성하는 CNN과 달리, RTDETRv2는 고정된 객체 쿼리 집합을 직접 예측합니다. 이러한 종단 간 기능은 지연 시간 편차를 줄여 일관된 추론 시간이 중요한 애플리케이션에 매력적입니다.

그러나 주의 메커니즘에 의존한다는 점은 순수 CNN에 비해 RTDETRv2가 훈련 과정에서 메모리 집약적일 수 있음을 의미합니다. 이 모델은 원격 부분 간의 관계를 이해하는 등 글로벌 컨텍스트를 포착하는 데 탁월하여, 중첩이 심한 복잡한 장면에서 유용합니다.

RT-DETR에 대해 자세히 알아보세요.

YOLOv7: CNN 효율성의 정점

2022년 중반에 출시된, YOLOv7 순수 컨볼루션 아키텍처가 달성할 수 있는 한계를 뛰어넘었습니다. 이 모델은 "훈련 가능한 무료 도구 모음"에 중점을 두고 설계되었는데, 이는 추론 비용을 증가시키지 않으면서도 훈련 중 정확도를 향상시키는 최적화 방법입니다.

주요 기술 세부사항:

저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
기관명: 중앙연구원 정보과학연구원
날짜:06
링크:ArXiv 논문 | GitHub 저장소

YOLOv7 핵심 혁신은 확장 효율적 레이어 집계 네트워크(E-ELAN) YOLOv7 . 이 아키텍처는 기울기 경로 길이를 효과적으로 제어함으로써 네트워크가 더 다양한 특징을 학습할 수 있게 합니다. GPU 인상적인 속도를 제공하지만, YOLOv7 앵커 기반 YOLOv7 . 이는 사용자 정의 데이터셋의 특정 객체 규모에 맞추기 위해 앵커 박스의 신중한 하이퍼파라미터 조정이 필요함을 의미하며, 이 단계는 YOLOv4와 같은 최신 모델에서는 종종 자동화되거나 제거됩니다. YOLO11에서는 자동화되거나 생략되는 경우가 많습니다.

7에 대해 자세히 알아보기

심층적인 아키텍처 분석

주의 vs. 합성

이러한 모델들의 근본적인 차이는 시각적 데이터를 처리하는 방식에 있습니다. YOLOv7 컨볼루션 연산을 YOLOv7 , 이는 이미지를 국소 창(local window) 단위로 스캔합니다. 이로 인해 가장자리나 질감 같은 국소적 특징을 탐지하는 데는 매우 빠르고 효율적이지만, 장면 전체의 의미적 관계를 이해하는 데는 상대적으로 취약할 수 있습니다.

RTDETRv2는 자기 주의(self-attention) 메커니즘을 활용합니다. 모든 픽셀이 다른 모든 픽셀(또는 특정 변형 가능한 주의점 내)과 갖는 관련성을 계산합니다. 이를 통해 모델은 공간적 거리에 관계없이 관련 특징에 "주의"를 기울일 수 있어, 물체가 크게 겹치는 복잡한 장면에서 우수한 성능을 제공합니다.

후처리 및 NMS

YOLOv7 이전 버전들처럼 YOLOv5 과 YOLOv6과 마찬가지로 NMS 통해 필터링해야 하는 밀집 예측을 출력합니다. 이 단계는 군중 밀집 시나리오에서 병목 현상이 될 수 있는 휴리스틱 프로세스이며, 정밀도와 재현율에 영향을 미치는 하이퍼파라미터(IoU )를 도입합니다.

RTDETRv2는 NMS )NMS 않습니다. 훈련 과정에서 이분 매칭을 사용하여 하나의 진실 객체를 정확히 하나의 예측 객체에 할당합니다. 이는 배포 파이프라인을 단순화합니다. ONNX 또는 TensorRT NMS 로직을 구현할 필요가 없기 때문입니다.

두 세계의 장점을 모두 갖춘

RTDETRv2가 실시간 변압기를 위한 NMS 검출을 개척한 반면, Ultralytics 이 개념을 CNN에 성공적으로 적용했습니다. YOLO26은 CNN의 낮은 메모리 사용량과 높은 훈련 효율성을 NMS 제거하는 내재적 엔드투엔드 설계를 활용합니다.

Ultralytics : 왜 YOLO26으로 업그레이드해야 할까요?

기존 모델을 분석하는 것은 유용한 맥락을 제공하지만, 새로운 프로젝트를 Ultralytics 시작하는 것은 성능, 사용성 및 미래 대비 측면에서 상당한 이점을 제공합니다. YOLO26은 YOLOv7 RTDETR에서 얻은 교훈을 정제하여 현재 최첨단 기술을 대표합니다.

1. 네이티브 엔드투엔드(네트워크NMS)

YOLO2v6은 RTDETRv2와 마찬가지로 NMS 설계되었으며, 훈련에는 원-투-매니(One-to-Many) 헤드를, 추론에는 원-투-원(One-to-One) 헤드를 사용합니다. 이는 YOLOv7 발견된 후처리 오버헤드를 제거하여 NVIDIA Raspberry Pi와 같은 에지 디바이스에서 더 빠르고 간편한 배포를 가능하게 합니다.

2. 우수한 CPU

RTDETRv2와 같은 변환기는 GPU 필요한 수학적 연산이 많은 경우가 많습니다. YOLO26은 CPU 위한 특정 최적화를 포함하여,GPU 이전 버전 대비 최대 43% 더 빠른 속도를 달성합니다. 이는 모바일 앱이나 저전력 IoT 센서에서 훨씬 더 다양한 활용이 가능하게 합니다.

3. 고급 훈련 안정성

YOLO26은 SGD 뮤온 최적화기(Moonshot AI의 Kimi K2에서 영감을 얻음)의 하이브리드인 MuSGD 최적화기를 도입합니다. 이는 대규모 언어 모델(LLM) 훈련에서 얻은 안정성 혁신을 컴퓨터 비전 분야로 가져와, YOLOv7 SGD 모델이 더 빠르고 높은 정확도로 수렴하도록 보장합니다.

4. 특수 손실 함수

ProgLoss와 STAL을 통해 YOLO26은 소형 객체 인식 능력을 향상시켰습니다. 이는 기존 CNN과 일부 트랜스포머 아키텍처의 전통적인 약점이었습니다. 이는 항공 이미지 분석이나 제조 품질 관리와 같은 작업에 매우 중요합니다.

5. 통합 Ultralytics

YOLOv7 RTDETRv2로 개발할 때는 종종 서로 다른 저장소와 복잡한 설치 스크립트를 관리해야 합니다. Ultralytics 는 이러한 워크플로를 통합합니다. 단일하고 간단한 API를 통해 탐지, 분할, 분류, 자세 추정 및 OBB (Object Bounding Box)를 위한 모델을 훈련, 검증 및 배포할 수 있습니다.

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")

# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

YOLO26에 대해 더 알아보기

사용 사례 권장 사항

다음과 같은 경우 RTDETRv2를 선택하십시오: 강력한 GPU(예: NVIDIA 또는 A100)를 사용할 수 있고, 애플리케이션이 CNN의 주요 실패 지점인 가림 현상이 발생하는 매우 복잡한 장면을 포함하는 경우입니다. 이러한 특정 시나리오에서는 글로벌 컨텍스트 어텐션이 약간의 우위를 제공할 수 있습니다.
YOLOv7 선택하십시오: - 구형 YOLO 형식에 특별히 의존하는 레거시 시스템을 유지 관리 중이거나 - 순수 CNN 접근 방식이 필요하지만 Ultralytics 지원하는 최신 Python 업그레이드할 수 없는 경우
Ultralytics 선택해야 하는 경우: 모든 하드웨어 유형(CPU, GPU, NPU)에서 속도와 정확도의 최적 균형이 필요할 때. DFL 제거 기능으로 CoreML 또는 TFLite 내보내기가 용이하며, 메모리 효율성 덕분에 소비자용 GPU에서도 훈련이 가능합니다. 보안 경보 시스템을 구축하든 스마트 주차 관리 시스템을 구축하든, 방대한 문서와 활발한 커뮤니티 지원 덕분에 기업 배포 시 가장 위험 부담이 적은 선택지입니다.

결론

RTDETRv2와 YOLOv7 모두 컴퓨터 비전 발전에 크게 YOLOv7 . RTDETRv2는 트랜스포머가 고속화될 수 있음을 입증했으며, YOLOv7 최적화된 CNN의 지속적인 힘을 YOLOv7 . 그러나 이 분야는 빠르게 진화하고 있습니다.

오늘날 개발자와 연구자들에게 Ultralytics 트랜스포머의 NMS 누릴 수 있는 편리함과 CNN(컨볼루션 신경망)의 순수한 속도 및 효율성을 통합함으로써 "양쪽의 장점"을 모두 포착합니다. 데이터 주석 작업부터 모델 내보내기까지 모든 과정을 간소화하는 강력한 생태계의 지원을 받으며, 현대적인 AI 프로젝트의 권장 시작점으로 자리매김하고 있습니다.