RTDETRv2 대 YOLOv9: 실시간 감지 Transformer와 CNN 비교
컴퓨터 비전 분야는 주로 합성곱 신경망(CNN)과 Transformer 기반 모델 사이에서 아키텍처 철학의 흥미로운 분기를 목격해 왔습니다. RTDETRv2와 YOLOv9을 비교할 때, 개발자는 기본적으로 전역 어텐션(global attention) 메커니즘과 프로그래밍 가능한 그래디언트 정보 사이의 트레이드오프를 평가하게 됩니다. 두 모델 모두 각자의 패러다임에서 정점을 나타내며 실시간 객체 감지의 한계를 넓히고 있습니다.
모델 소개
RTDETRv2: 실시간 감지 Transformer
Baidu 연구원들이 개발한 RTDETRv2는 기존 RT-DETR을 기반으로 'Bag-of-Freebies'를 도입하여 베이스라인 실시간 감지 Transformer를 향상시켰습니다. 이는 Transformer의 전통적인 병목 현상인 추론 속도 문제를 해결하여 실시간 애플리케이션에 적합하게 만듭니다.
- 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 및 Yi Liu
- 조직: Baidu
- 날짜: 2024-07-24
- 링크: Arxiv, GitHub
RTDETRv2의 결정적인 특징은 네이티브한 엔드투엔드 NMS-free 디자인입니다. 후처리 과정에서 NMS(Non-Maximum Suppression)를 완전히 제거함으로써 모델의 추론 지연 시간을 안정화하고 배포 파이프라인을 간소화했습니다. 전역 어텐션 메커니즘은 전체 이미지 컨텍스트를 동시에 평가하므로 복잡한 장면 이해와 밀집된 군중 감지에서 뛰어난 성능을 발휘합니다.
YOLOv9: 프로그래밍 가능한 그래디언트 정보
매우 효율적인 CNN 기반 아키텍처인 YOLOv9은 딥 신경망에 내재된 정보 병목 현상 문제를 해결합니다. 이 모델은 프로그래밍 가능한 그래디언트 정보(PGI)와 범용 효율적 계층 집계 네트워크(GELAN)를 도입합니다.
- 저자: Chien-Yao Wang 및 Hong-Yuan Mark Liao
- 조직: 중앙연구원 정보과학연구소(Institute of Information Science, Academia Sinica)
- 날짜: 2024년 2월 21일
- 링크: Arxiv, GitHub
YOLOv9은 검증된 합성곱 신경망 기반에 의존하면서도 파라미터 효율성을 극대화합니다. 피드포워드 과정에서 중요한 정보를 유지함으로써 신뢰할 수 있는 가중치 업데이트를 보장하며, 결과적으로 매우 가벼우면서도 높은 정확도를 갖춘 모델을 구현합니다. 하지만 RTDETRv2와 달리 YOLOv9은 여전히 표준 NMS 후처리에 의존합니다.
성능 및 리소스 효율성
프로덕션 환경을 위해 이러한 모델들을 평가할 때는 평균 정밀도(mAP)와 컴퓨팅 비용 사이의 균형을 맞추는 것이 중요합니다. 아래 표는 MS COCO 데이터셋에서의 성능을 보여줍니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
메모리 요구 사항 및 학습 효율성
RTDETRv2와 같은 Transformer는 학습 중 메모리 집약적인 것으로 잘 알려져 있으며, 완전히 수렴하기 위해 상당한 CUDA 메모리와 더 긴 학습 시간이 필요한 경우가 많습니다. 반면, YOLOv9 및 기타 Ultralytics YOLO 모델과 같은 CNN 아키텍처는 훨씬 낮은 메모리 사용량을 제공하여 개발자가 소비자 등급의 하드웨어에서도 더 큰 배치 사이즈로 학습할 수 있게 합니다.
하드웨어 활용도를 극대화하려면 Ultralytics Platform을 활용하여 간소화된 클라우드 학습을 고려해 보십시오. 환경 설정 및 최적의 배치 사이즈 결정을 자동으로 처리합니다.
Ultralytics의 강점: 생태계와 사용 편의성
공식 RTDETRv2 또는 YOLOv9 GitHub 페이지와 같은 독립형 저장소를 조사하는 것은 매우 교육적일 수 있으나, 프로덕션 환경에서는 안정성, 사용 편의성, 그리고 잘 관리되는 생태계가 요구됩니다. Ultralytics Python API를 통해 이러한 모델을 통합하면 원활한 개발자 경험을 누릴 수 있습니다.
통합 API 및 범용성
Ultralytics 프레임워크는 데이터 로딩, 증강 및 분산 학습의 복잡성을 추상화합니다. 또한, 원본 RTDETRv2는 감지에만 엄격히 집중되어 있지만, Ultralytics 생태계를 사용하면 사용자는 객체 감지, 인스턴스 분할, 자세 추정 사이를 쉽게 전환할 수 있습니다.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")With robust documentation, automatic experiment tracking, and seamless export capabilities to formats like ONNX, TensorRT, and OpenVINO, Ultralytics drastically reduces the time from prototype to production.
이상적인 활용 사례
RTDETRv2가 뛰어난 분야
전역 어텐션 메커니즘 덕분에 RTDETRv2는 서버 측 처리 및 전역 컨텍스트가 가장 중요한 환경에서 강력한 성능을 발휘합니다. 다음과 같은 분야에서 탁월합니다:
- 의료 영상: 주변 맥락이 중요한 미세한 이상 징후 식별.
- 항공 감시: 기존 CNN 컨볼루션의 공간적 편향 없이 고해상도 드론 영상에서 작은 객체 포착.
- 밀집 군중 분석: 심각한 가림 현상이 일반적인 앵커 기반 모델을 혼란스럽게 하는 상황에서의 개별 인물 추적.
YOLOv9이 뛰어난 분야
YOLOv9은 리소스 제약이 있는 엣지 배포의 챔피언입니다. 컴퓨팅 효율성 덕분에 다음과 같은 분야에 이상적입니다:
- 로봇 공학: 최소한의 지연 시간이 요구되는 실시간 내비게이션 및 장애물 회피.
- 스마트 시티 IoT: 교통 모니터링을 위해 NVIDIA Jetson과 같은 엣지 장치에 배포.
- 산업 검사: 높은 초당 프레임 수(FPS)가 필요한 고속 조립 라인 품질 관리.
미래: Ultralytics YOLO26 도입
YOLOv9과 RTDETRv2가 엄청난 도약을 이루었지만, 기술 환경은 빠르게 진화했습니다. 현대적인 배포를 위해 새롭게 출시된 **Ultralytics YOLO26**은 두 아키텍처 철학의 궁극적인 시너지를 나타냅니다.
Transformer와 CNN의 장점을 취하여 YOLO26은 새로운 표준을 확립합니다:
- 엔드투엔드 NMS-Free 디자인: RTDETRv2와 마찬가지로 YOLO26은 네이티브 엔드투엔드 방식으로, NMS 후처리를 완전히 제거하여 더 빠르고 단순하며 매우 예측 가능한 배포 파이프라인을 제공합니다.
- MuSGD 옵티마이저: 거대 언어 모델(LLM) 학습 기법(Moonshot AI의 Kimi K2 등)에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드를 활용합니다. 이는 컴퓨터 비전에 비할 데 없는 학습 안정성과 빠른 수렴을 가져옵니다.
- 최대 43% 빠른 CPU 추론: 무거운 Transformer와 달리 YOLO26은 엣지 컴퓨팅 및 GPU가 없는 장치에 최적화되어 있습니다.
- DFL 제거: Distribution Focal Loss를 제거하여 모델 그래프를 극적으로 단순화했으며, 저전력 엣지 장치 및 임베디드 신경망 처리 장치(NPU)로의 완벽한 내보내기를 보장합니다.
- ProgLoss + STAL: 이러한 개선된 손실 함수는 IoT 및 항공 데이터셋에서 매우 중요한 특징인 소형 객체 인식 능력을 획기적으로 향상시킵니다.
새로운 컴퓨터 비전 프로젝트를 시작하려는 팀에게는 YOLO26 평가를 강력히 권장합니다. 이 모델은 고도로 최적화된 YOLO 아키텍처의 엄청난 속도 및 학습 효율성과 함께 Transformer의 NMS-free 우아함을 제공합니다.
요약
RTDETRv2와 YOLOv9 사이의 선택은 주로 배포 하드웨어와 구체적인 정확도 요구 사항에 달려 있습니다. RTDETRv2는 서버 기반 애플리케이션을 위한 최첨단 정확도와 컨텍스트 인식 능력을 제공하며, YOLOv9은 엣지 장치를 위한 탁월한 효율성을 제공합니다.
그러나 성숙한 Ultralytics 생태계를 활용하면 개발자는 두 모델 모두를 손쉽게 실험할 수 있습니다. 또한, YOLO11과 같은 최신 모델과 네이티브 엔드투엔드 방식인 YOLO26의 도입으로 고속 추론, 범용적인 작업 지원, 낮은 메모리 소비 사이의 완벽한 균형을 찾는 일이 그 어느 때보다 쉬워졌습니다.