YOLOv9 RTDETRv2: 실시간 탐지 아키텍처 심층 분석

컴퓨터 비전 분야의 급속한 발전 속에서, 속도, 정확도 및 배포 제약 조건 간의 균형을 맞추기 위해서는 올바른 객체 탐지 모델을 선택하는 것이 매우 중요합니다. 본 가이드는 YOLOv9(프로그래밍 가능한 기울기 정보와 효율성으로 유명한)과 RTDETRv2(선도적인 실시간 트랜스포머 기반 탐지기) 간의 포괄적인 기술적 비교를 제공합니다. 두 모델의 아키텍처, 성능 지표 및 사용 사례를 분석함으로써 개발자는 특정 애플리케이션에 대한 정보에 기반한 결정을 내릴 수 있습니다.

성능 벤치마크

다음 표는 주요 지표의 직접 비교를 보여줍니다. 굵은 글씨로 표시된 값은 각 범주에서 가장 우수한 성능을 나타냅니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9: 프로그래밍 가능한 그래디언트 정보

YOLOv9 You Only Look Once 시리즈의 중요한 도약을 나타내며, 심층 신경망 내 정보 병목 현상 해결에 중점을 둡니다. GELAN(Generalized Efficient Layer Aggregation Network) 과 PGI(Programmable Gradient Information) 를 도입하여 네트워크의 심층 레이어 전반에 걸쳐 중요한 데이터 특징을 유지합니다.

9에 대해 자세히 알아보기

주요 아키텍처 혁신

GELAN 아키텍처: 이 새로운 아키텍처는 CSPNet과 ELAN의 장점을 결합하여 기울기 경로 계획을 최적화합니다. 다양한 규모에서 특징을 효과적으로 집계하면서도 높은 추론 속도를 유지하는 경량 구조를 가능하게 합니다.
프로그래머블 그라디언트 정보(PGI): 딥 네트워크는 데이터가 레이어를 통과할 때 정보 손실이 발생하는 경우가 많습니다. PGI는 보조 감독 분기를 도입하여 그라디언트 업데이트를 안내함으로써, 추론 과정에서 추가 비용 없이 주 분기가 견고한 특징을 학습하도록 보장합니다.
효율성: "t"(초소형) 및 "s"(소형) 변종은 특히 극히 낮은 매개변수 개수(200만 개부터 시작)로 유명하여, 메모리가 부족한 에지 AI 배포에 매우 적합합니다.

기술 사양

저자: Chien-Yao Wang, Hong-Yuan Mark Liao
조직:정보 과학 연구소, 아카데미아 시니카
날짜: 2024년 2월 21일
참고문헌:arXiv:2402.13616
저장소:GitHub

왜 YOLOv9를 선택해야 할까요?

YOLOv9 계산 자원이 제한적이면서도 높은 정확도가 요구되는 시나리오에서 YOLOv9 성능을 YOLOv9 . 혁신적인 PGI 손실 함수는 소형 모델도 효과적으로 학습할 수 있도록 보장하여, 많은 선행 모델들에 비해 우수한 매개변수 대 정확도 비율을 제공합니다.

RTDETRv2: 실시간 트랜스포머

RTDETRv2는 RT-DETR 성공을 바탕으로 실시간 탐지 트랜스포머를 위한 '무료 기능 모음(Bag-of-Freebies)'을 더욱 정교화했습니다. 트랜스포머의 전역적 컨텍스트 처리 능력을 활용하면서도 높은 계산 비용을 완화함으로써 YOLO 능가하는 것을 목표로 합니다.

RT-DETR에 대해 자세히 알아보세요.

주요 아키텍처 혁신

하이브리드 인코더: RTDETRv2는 동일 규모 내 상호작용과 규모 간 융합을 분리함으로써 다중 규모 특징을 효율적으로 처리하여, 일반적으로 높은 비용이 드는 트랜스포머 인코더의 부담을 줄입니다.
IoU 쿼리 선택: 이 메커니즘은 고품질 인코더 특징을 객체 쿼리로 선택함으로써 초기화를 개선하여 디코더의 수렴 속도를 높입니다.
동적 샘플링: 개선된 기준 모델은 훈련 과정에서 유연한 샘플링 전략을 통합하여 추론 지연 시간을 추가하지 않으면서 수렴 속도와 최종 정확도를 향상시킵니다.
앵커 프리 설계: 이전 버전과 마찬가지로 앵커 박스 조정이 필요 없어 데이터 주석 및 훈련 파이프라인을 단순화합니다.

기술 사양

저자: 룽원위, 자오옌, 외 다수
Organization: Baidu
날짜: 2023년 4월 17일 (v1), 2024년 7월 (v2)
참고문헌:arXiv:2304.08069
저장소:GitHub

비판적 비교: 속도, 정확성, 효율성

이 두 아키텍처 사이에서 선택할 때, 몇 가지 장단점이 분명해집니다.

추론 속도와 지연 시간

YOLOv9 순수 추론 속도에서 우위를 유지하며, 특히 GPU 두드러집니다. YOLOv9t 모델은 단 200만 개의 매개변수로 극히 낮은 지연 시간(T4 TensorRT 기준 2.3ms)을 달성하여, 약 5.03ms의 속도를 보이는 가장 작은 RTDETRv2-s 변형보다 더 빠릅니다. 자율주행 차량이나 고속 제조와 같이 매 밀리초가 중요한 실시간 영상 처리에서 YOLOv9 뚜렷한 처리량 이점을 YOLOv9 .

정확도와 소형 물체 탐지

YOLOv9 55.6%라는 엄청난 mAP 달성하는 반면, RTDETRv2는 중대형 모델 범위에서 매우 경쟁력 있습니다. RTDETRv2-x는 54.3% mAP 기록하여 YOLOv9 약간 낮지만, 트랜스포머의 글로벌 수용 야영지 덕분에 복잡한 장면에서 종종 더 나은 안정성을 보여줍니다. 트랜스포머는 객체 간 맥락 이해에 본질적으로 뛰어나 소매점 분석과 같은 혼잡한 환경에서 오탐을 줄일 수 있습니다. 그러나 YOLOv9 GELAN 아키텍처는 미세한 디테일 보존에 특화되어 있어 작고 식별이 어려운 객체 탐지에서 종종 우위를 점합니다.

리소스 및 메모리 요구 사항

이는 주요 차별화 요소입니다. RTDETRv2의 트랜스포머 기반 아키텍처는 일반적으로 CNN 기반 YOLOv9 비해 훈련 및 추론 과정에서 더 많은 CUDA 필요로 합니다.

YOLOv9: 매우 효율적인 메모리 사용량. 초소형 및 소형 모델은 라즈베리 파이(Raspberry Pi)나 휴대폰과 같은 엣지 디바이스에서 쉽게 실행할 수 있습니다.
RTDETRv2: 실시간 속도에 최적화되었지만, 어텐션 메커니즘은 여전히 높은 메모리 비용을 발생시키므로, 서버 측 배포나 NVIDIA Orin과 같은 강력한 에지 GPU에 더 적합한 경우가 많습니다.

Ultralytics와의 통합

두 모델 모두 복잡한 설정 절차를 추상화하는 Ultralytics Python 사용하여 워크플로에 원활하게 통합될 수 있습니다.

사용 편의성 및 에코시스템

Ultralytics 훈련, 검증 및 배포를 위한 통합 인터페이스를 제공합니다. YOLOv9 CNN 효율성을 선택하든 RT-DETR 통한 RTDETRv2의 트랜스포머 성능을 YOLOv9 API는 일관성을 유지합니다. 이를 통해 개발자는 단 한 줄의 코드로 모델을 교체하여 자신의 데이터셋에 가장 적합한 아키텍처를 테스트할 수 있습니다.

from ultralytics import RTDETR, YOLO

# Load YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=100)

# Load RT-DETR model (RTDETRv2 architecture compatible)
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr.train(data="coco8.yaml", epochs=100)

교육 효율성

Ultralytics 훈련 효율성으로 유명합니다. 이 프레임워크는 하이퍼파라미터에 대한 스마트 기본값, 자동화된 데이터 증강, 효율적인 메모리 관리를 구현합니다. 이는 특히 YOLOv9 작업 시 유용하며, 사용자는 사전 훈련된 가중치를 활용하여 트랜스포머를 처음부터 훈련하는 것에 비해 훈련 시간과 계산 비용을 크게 줄일 수 있습니다.

미래 대비: YOLO26의 필요성

YOLOv9 RTDETRv2가 훌륭한 선택지임에도 불구하고, AI 혁신의 영역은 멈추지 않습니다. 최상의 성능과 간편한 배포를 추구하는 개발자들에게는 YOLO26이 권장되는 차세대 모델입니다.

YOLO26에 대해 더 알아보기

YOLO26은 이전 세대의 한계를 해결하는 몇 가지 획기적인 기능을 도입합니다:

엔드투엔드 NMS: YOLOv9 사후 처리로 비최대 억제(NMS)를 필요로 YOLOv9 달리, RTDETRv2의 엔드투엔드 특성과 유사하게 YOLO26은 기본적으로 NMS 않습니다. 이는 ONNX 및 TensorRT 배포 지연 시간을 줄입니다.
MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련에서 영감을 받아, 이 최적화기는 SGD Muon) SGD 결합하여 더 빠른 수렴성과 안정성을 제공하며, 복잡한 아키텍처에서 흔히 발생하는 훈련 불안정성 문제를 해결합니다.
탁월한 속도: CPU 에지 추론을 위해 특별히 최적화된 YOLO26은 이전 버전 대비 최대 43% 빠른 CPU 제공하여 서버급 정확도와 에지 디바이스 제약 조건 간의 격차를 해소합니다.
작업 다용도성: RTDETRv2가 주로 탐지에 초점을 맞추는 반면, YOLO26은 분할, 자세 추정, OBB에 걸쳐 최첨단 성능을 제공하여 다양한 비전 작업을 위한 범용 도구로 자리매김합니다.

결론

YOLOv9 RTDETRv2 모두 매력적인 장점을 제공합니다. YOLOv9 는 효율성의 챔피언으로, 에지 배포 및 제한된 자원 환경에서 타의 추종을 불허하는 속도 대 정확도 비율을 제공합니다. RTDETRv2는 특히 강력한 하드웨어에서 글로벌 컨텍스트와 트랜스포머 아키텍처의 혜택을 받는 시나리오에 대한 강력한 대안을 제공합니다.

그러나 가장 간소화된 경험, 최저 지연 시간, 그리고 가장 광범위한 작업 지원을 위해, Ultralytics 생태계—특히 새로운 YOLO26 Ultralytics 현대 컴퓨터 비전 애플리케이션을 위한 가장 강력하고 "미래에도 대비된" 솔루션을 제공합니다.

추가 자료

다른 비교를 살펴보고 이 모델들이 경쟁사 대비 어떻게 평가되는지 확인하세요:

YOLOv9 RTDETRv2: 실시간 탐지 아키텍처 심층 분석

성능 벤치마크

YOLOv9: 프로그래밍 가능한 그래디언트 정보

주요 아키텍처 혁신

기술 사양

RTDETRv2: 실시간 트랜스포머

주요 아키텍처 혁신

기술 사양

비판적 비교: 속도, 정확성, 효율성

추론 속도와 지연 시간

정확도와 소형 물체 탐지

리소스 및 메모리 요구 사항

Ultralytics와의 통합

사용 편의성 및 에코시스템

교육 효율성

미래 대비: YOLO26의 필요성

결론

댓글