YOLOv9 RTDETRv2: 현대 객체 탐지 기술에 대한 심층 분석

실시간 객체 탐지 분야는 최근 몇 년간 패러다임 전환을 경험했습니다. 이 분야를 주도하는 두 가지 뚜렷한 아키텍처 철학이 등장했는데, 고도로 최적화된 컨볼루션 신경망(CNN)과 실시간 탐지 트랜스포머(DETR)입니다. 이 두 접근법의 정점을 대표하는 것은 YOLOv9 와 RTDETRv2가 대표합니다.

이 포괄적인 가이드는 두 가지 강력한 모델을 비교하여, 각각의 아키텍처 혁신, 성능 지표 및 이상적인 배포 시나리오를 분석함으로써 컴퓨터 비전 파이프라인에 적합한 모델을 선택하는 데 도움을 드립니다.

경영진 요약

두 모델 모두 최첨단 결과를 달성하지만, 약간 다른 배포 제약 조건과 개발 생태계에 맞춰져 있습니다.

다음과 같은 경우 YOLOv9를 선택하세요: 엣지 장치에서 고도로 효율적인 매개변수 활용과 빠른 추론이 필요한 경우. YOLOv9는 CNN 효율성의 이론적 한계를 뛰어넘어 컴퓨팅 리소스가 엄격하게 제한된 환경에 이상적입니다.
RTDETRv2를 선택하십시오: Transformer가 제공하는 미묘한 맥락 이해가 필요하고, 특히 심한 가려짐 또는 복잡한 객체 관계가 있는 장면에서, 약간 더 무거운 아키텍처를 지원할 수 있는 하드웨어가 있는 경우 RTDETRv2를 선택하십시오.
다음과 같은 경우 YOLO26(권장)을 선택하세요: 두 가지 장점을 모두 원한다면. Ultralytics Platform에서 사용할 수 있는 최신 세대인 YOLO26은 기본 End-to-End NMS-Free Design(DETR 모델과 유사하지만 훨씬 빠름)을 특징으로 하여 후처리 병목 현상을 제거하고 이전 세대보다 최대 43% 더 빠른 CPU 추론을 제공합니다.

기술 사양 및 저작권

이러한 모델들의 기원과 설계 의도를 이해하는 것은 그들의 건축적 선택에 대한 중요한 맥락을 제공한다.

9

저자: 왕젠야오(Chien-Yao Wang) 및 리아오홍위안(Hong-Yuan Mark Liao)
소속기관:중앙연구원 정보과학연구원
날짜: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9

9에 대해 자세히 알아보기

RTDETRv2

저자: 룽원위(吕文宇), 자오이안(赵一安), 창친야오(常勤耀), 황쿠이(黄奎), 왕관종(王冠中), 류이(刘毅)
소속:바이두(Baidu) 날짜: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RT-DETR

RTDETR에 대해 자세히 알아보세요.

아키텍처 혁신

YOLOv9: 정보 병목 현상 해결

Ultralytics YOLOv9은 데이터가 심층 신경망을 통과할 때 발생하는 정보 손실을 해결하기 위해 고안된 두 가지 주요 혁신을 도입합니다.

Programmable Gradient Information (PGI): 이 보조 감독 프레임워크는 네트워크 가중치를 업데이트하기 위한 신뢰할 수 있는 기울기가 생성되도록 보장하며, 매우 깊은 네트워크 레이어에서도 중요한 특징 정보를 보존합니다.
일반화된 효율적인 계층 집계 네트워크 (GELAN): CSPNet과 ELAN의 강점을 결합한 새로운 아키텍처입니다. GELAN은 매개변수 효율성을 최적화하여 YOLOv9가 기존 CNN에 비해 더 적은 FLOPs로 더 높은 정확도를 달성할 수 있도록 합니다.

RTDETRv2: 실시간 트랜스포머 강화

원본 RT-DETR의 성공을 기반으로, RTDETRv2는 Non-Maximum Suppression (NMS)의 필요성을 본질적으로 회피하는 트랜스포머 기반 아키텍처를 활용합니다. 개선 사항은 다음과 같습니다:

Bag-of-Freebies 전략: v2 반복은 추론 지연 시간에 오버헤드를 추가하지 않고 정확도를 크게 향상시키는 고급 훈련 기술과 데이터 증강을 통합합니다.
효율적인 하이브리드 인코더: RTDETRv2는 분리된 스케일 내 및 스케일 간 어텐션 메커니즘을 통해 다중 스케일 특징을 처리함으로써, Vision Transformer의 전통적으로 높은 계산 비용을 효율적으로 관리합니다.

네이티브 종단 간 탐지

RTDETRv2가 NMS 탐지를 수행하기 위해 트랜스포머를 활용하는 반면, 새로운 YOLO26 아키텍처는 고도로 최적화된 CNN 구조 내에서 이를 본질적으로 달성하여 동일한 간소화된 배포를 제공하면서도 훨씬 뛰어난 에지 추론 속도를 구현합니다.

성능 비교

생산용 모델을 평가할 때 정확도와 계산 요구 사항 간의 균형은 매우 중요합니다. 아래 표는 표준 벤치마크에서 다양한 모델 크기의 성능을 요약한 것입니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

분석

데이터가 보여주듯이, YOLOv9은 파라미터 효율성에서 엄격한 이점을 유지합니다. YOLOv9c 모델은 단 25.3M 파라미터로 인상적인 53.0 mAP를 달성하여 놀랍도록 경량입니다.

반대로, RTDETRv2는 중대형 모델 카테고리에서 강력한 경쟁력을 제공합니다. 하지만 이는 Transformer 모델의 일반적인 특징인 더 많은 파라미터 수와 훨씬 더 큰 FLOPs를 대가로 합니다. 이러한 아키텍처 차이는 메모리 사용량에도 영향을 미칩니다. YOLO 모델은 일반적으로 Transformer 모델에 비해 학습 및 추론 시 훨씬 적은 CUDA 메모리를 필요로 합니다.

Ultralytics : 생태계와 다용도성

순수한 아키텍처 지표도 중요하지만, 소프트웨어 생태계가 종종 AI 프로젝트의 성공을 좌우합니다. Ultralytics Python 통해 이러한 고급 모델에 접근하는 것은 비교할 수 없는 이점을 제공합니다.

효율화된 훈련 및 배치

탐지 트랜스포머 훈련에는 일반적으로 복잡한 구성 파일과 고성능 GPU가 필요합니다. Ultralytics 활용하면 개발자는 동일한 간단한 구문으로 YOLOv9 RTDETR 모델을 모두 훈련할 수 있으며, 고효율 훈련 파이프라인과 즉시 사용 가능한 사전 훈련된 가중치의 이점을 누릴 수 있습니다.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

타의 추종을 불허하는 작업 다용도성

RTDETRv2와 같은 특수 모델의 주요 한계는 바운딩 박스 detect에 대한 좁은 초점입니다. 대조적으로, YOLO11 및 YOLOv8과 같은 모델을 포함하는 광범위한 Ultralytics 생태계는 다양한 컴퓨터 비전 작업을 지원합니다. 여기에는 픽셀 단위의 인스턴스 segment, 골격 자세 추정, 전체 이미지 분류 및 항공 이미지를 위한 지향성 바운딩 박스(OBB) detect가 포함됩니다.

실제 응용 분야

고속 엣지 분석

소매 환경이나 제조 라인에서 에지 디바이스 상의 실시간 제품 인식이 필요한 경우, YOLOv9 이 탁월한 선택입니다. GELAN 아키텍처는 NVIDIA 시리즈와 같은 제한된 하드웨어에서도 높은 처리량을 보장하여, 상당한 지연 없이 자동화된 품질 관리를 가능하게 합니다.

복잡한 장면 분석

밀집 군중 모니터링이나 복잡한 교통 교차로처럼 물체들이 서로를 자주 가리는 시나리오에서 RTDETRv2의 글로벌 어텐션 메커니즘이 빛을 발합니다. 이 모델은 전체 이미지 컨텍스트에 대해 본질적으로 추론할 수 있는 능력을 갖추고 있어, 물체가 부분적으로 가려져 있을 때에도 견고한 추적 및 탐지 성능을 유지합니다.

사용 사례 및 권장 사항

YOLOv9와 RT-DETR 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

9 선택해야 할 때

YOLOv9 다음과 같은 경우에 강력한 YOLOv9 :

정보 병목 연구: PGI(Programmable Gradient Information) 및 GELAN(Generalized Efficient Layer Aggregation Network) 아키텍처를 연구하는 학술 프로젝트.
그라디언트 흐름 최적화 연구: 훈련 중 깊은 네트워크 레이어에서 발생하는 정보 손실을 이해하고 완화하는 데 초점을 맞춘 연구.
고정확도 감지 벤치마킹: 아키텍처 비교를 위한 참조점으로 YOLOv9의 강력한 COCO 벤치마크 성능이 필요한 시나리오.

RT-DETR 선택해야 할 때

RT-DETR 다음에 권장RT-DETR :

트랜스포머 기반 detect 연구: NMS 없이 종단 간 객체 detect를 위한 어텐션 메커니즘 및 트랜스포머 아키텍처를 탐구하는 프로젝트.
유연한 지연 시간을 가진 고정확도 시나리오: 감지 정확도가 최우선 순위이며 약간 더 높은 추론 지연 시간이 허용되는 애플리케이션.
대형 객체 detect: 트랜스포머의 전역 어텐션 메커니즘이 자연스러운 이점을 제공하는 주로 중대형 객체가 있는 장면.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.

미래: YOLO26의 등장

YOLOv9 RTDETRv2가 엄청난 성과를 보여주고 있지만, 컴퓨터 비전 분야는 빠르게 진화하고 있습니다. 새로운 프로젝트를 시작하려는 개발자들에게는 YOLO26 가 권장되는 최신 기술 솔루션입니다.

2026년에 출시된 YOLO26은 CNN과 DETR의 장점을 모두 통합합니다. 이 모델은 엔드투엔드 NMS 설계를 특징으로 하여 후처리 지연을 완전히 제거합니다. 이 기술은 최초로 YOLOv10에서 최초로 개발된 기술입니다. 또한 YOLO26은 더 나은 에지 호환성을 위해 분포 초점 손실(DFL)을 제거하고 혁신적인 MuSGD 최적화기를 도입했습니다. 대규모 언어 모델 훈련(특히 Moonshot AI의 Kimi K2)에서 영감을 받은 이 하이브리드 최적화기는 전례 없는 훈련 안정성과 더 빠른 수렴을 보장합니다.

탁월한 소형 객체 인식을 위한 ProgLoss 및 STAL과 같은 개선된 손실 함수와 결합하여, YOLO26은 최대 43% 더 빠른 CPU 추론을 제공하며, 현대 AI 배포를 위한 궁극적인 모델로서의 입지를 확고히 합니다.