RTDETRv2와 YOLOv9: 최첨단 탐지 모델의 기술 비교
빠르게 진화하는 컴퓨터 비전 분야에서 올바른 객체 감지 아키텍처를 선택하는 것은 정확도, 속도, 컴퓨팅 리소스 간의 균형을 맞추는 데 매우 중요합니다. 이 가이드에서는 고급 트랜스포머 기반 모델인 RTDETRv2 (실시간 감지 트랜스포머 v2)와 고급 트랜스포머 기반 모델인 YOLOv9와 Ultralytics 에코시스템에 통합된 최첨단 효율성 중심 모델인 YOLOv9를 자세히 비교합니다.
RTDETRv2는 변압기 기반 감지의 한계를 뛰어넘는 반면, YOLOv9 파라미터 효율성을 극대화하기 위해 프로그래밍 가능한 그라데이션 정보(PGI)와 같은 새로운 아키텍처 개념을 도입했습니다. 아래에서 아키텍처, 성능 메트릭, 이상적인 배포 시나리오를 분석하여 프로젝트 요구 사항에 맞는 모델을 결정하는 데 도움을 드립니다.
성능 지표: 정확도 및 속도
다음 표는 COCO 데이터 세트에서 평가된 주요 성능 메트릭을 일대일로 비교한 것입니다. 이 표는 YOLOv9 RTDETRv2에 비해 훨씬 낮은 계산 비용(FLOPs)과 빠른 추론 속도로 경쟁력이 있거나 우수한 정확도mAP를 달성하는 방법을 강조합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
그림에서 볼 수 있듯이, YOLOv9e는 정확도(55.6% 대 54.3% mAP)에서 RTDETRv2-x를 능가하는 동시에 더 적은 FLOP을 사용합니다(189B 대 259B). 이러한 효율성 덕분에 하드웨어 리소스를 고려해야 하는 실시간 애플리케이션에 YOLOv9 매력적인 선택이 될 수 있습니다.
RTDETRv2: 탐지 트랜스포머 개선
RTDETRv2는 오리지널의 진화 버전입니다. RT-DETR의 진화 버전으로, 트랜스포머 아키텍처를 활용하여 기존 앵커 기반 탐지기의 한계를 해결하도록 설계되었습니다. '백 오브 프리비' 접근 방식을 통해 실시간 감지 트랜스포머의 안정성과 성능을 개선하고, 훈련 전략과 동적 어휘 크기 조정을 최적화하는 데 중점을 둡니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜: 2024-07-24
- Arxiv:https://arxiv.org/abs/2407.17140
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Docs:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 특성
RTDETRv2는 하이브리드 인코더-디코더 아키텍처를 활용합니다. 인코더는 이미지 특징을 처리하고 트랜스포머 디코더는 개체 쿼리를 생성합니다. 주요 아키텍처 개선 사항에는 동적 쿼리 선택을 허용하는 최적화된 주의 메커니즘이 포함되어 일반적으로 트랜스포머와 관련된 계산 오버헤드를 줄입니다.
CNN 기반 백본과 헤드에 의존하는 표준 YOLO 모델과 달리, RTDETRv2는 감지 헤드에서 '앵커' 개념을 분리하여 객체 감지를 직접 집합 예측 문제로 처리합니다. 따라서 많은 구성에서 비최대 억제(NMS) 가 필요하지 않아 이론적으로 후처리 파이프라인이 간소화됩니다.
강점과 약점
강점:
- 정밀도: 글로벌 컨텍스트 인식으로 복잡한 상호작용이나 폐색이 있는 물체를 감지하는 데 탁월합니다.
- 앵커 프리: 수동으로 앵커 박스를 조정할 필요가 없어 다양한 데이터 세트에 대한 구성이 간소화됩니다.
- 적응력: 동적 어휘를 통해 모델은 다양한 훈련 조건에 더 잘 적응할 수 있습니다.
약점:
- 리소스 집약도: 트랜스포머 아키텍처는 일반적으로 CNN에 비해 트레이닝에 더 많은 GPU 메모리와 컴퓨팅 성능이 필요합니다.
- 추론 지연 시간: 최적화에도 불구하고 트랜스포머는 YOLOv9 같이 고도로 최적화된 CNN에 비해 엣지 AI 디바이스에서 속도가 느려질 수 있습니다.
- 복잡성: 트랜스포머의 트레이닝 파이프라인과 하이퍼파라미터 튜닝은 YOLO 모델보다 더 복잡할 수 있습니다.
이상적인 사용 사례
RTDETRv2는 다음과 같이 정밀도가 가장 중요한 하이엔드 서버 배포에 적합합니다:
- 의료 이미징: 글로벌 컨텍스트가 이상 징후를 식별하는 데 도움이 되는 복잡한 스캔을 분석합니다.
- 항공 감시: 고해상도 대형 위성 이미지에서 작은 물체를 감지합니다.
- 세밀한 품질 관리: 원시 속도보다 미세한 디테일이 더 중요한 제조 결함을 검사합니다.
YOLOv9: 프로그래밍 가능한 그라데이션을 통한 효율성 향상
YOLOv9 은 신경망 깊숙한 곳의 정보 병목 문제를 해결하는 아키텍처 혁신을 도입해 YOLO 제품군에서 중요한 도약을 이뤄냈습니다. 그래디언트 정보가 심층 계층에 걸쳐 보존되도록 함으로써 YOLOv9 놀라운 파라미터 효율성과 함께 최첨단 성능을 구현합니다.
- 저자: Chien-Yao Wang, Hong-Yuan Mark Liao
- 조직:기관: 대만 학술원 정보 과학 연구소
- 날짜: 2024-02-21
- Arxiv:https://arxiv.org/abs/2402.13616
- GitHub:https://github.com/WongKinYiu/yolov9
- Docs:https://docs.ultralytics.com/models/yolov9/
아키텍처 PGI 및 GELAN
YOLOv9 두 가지 획기적인 개념을 도입했습니다:
- 프로그래밍 가능한 그라데이션 정보(PGI): 네트워크 가중치를 업데이트하기 위해 신뢰할 수 있는 그라데이션을 생성하여 딥 레이어가 중요한 특징 정보를 유지하도록 하는 보조 감독 프레임워크입니다. 이는 추론 비용 없이 재매개변수화의 이점을 모방합니다.
- 일반화된 효율적인 계층 집계 네트워크(GELAN): 매개변수 사용량과 연산 처리량(FLOPs)을 최적화하는 경량 네트워크 아키텍처입니다. GELAN을 사용하면 이전 YOLOv9 경쟁사보다 적은 메모리를 사용하면서 더 빠르게 실행할 수 있습니다.
왜 YOLOv9 선택해야 하나요?
YOLOv9 Ultralytics 에코시스템에 통합하면 개발자에게 뚜렷한 이점을 제공합니다:
- 훈련 효율성: YOLOv9 RTDETRv2와 같은 트랜스포머 기반 모델보다 트레이닝 중에 훨씬 적은 GPU 메모리를 필요로 합니다. 따라서 소비자급 하드웨어 또는 엔터프라이즈 클러스터에서 더 큰 배치 크기로 훈련할 수 있습니다.
- 사용의 용이성: 사용자는 Ultralytics Python API를 사용하여 단 몇 줄의 코드만으로 YOLOv9 훈련, 검증 및 배포할 수 있습니다.
- 다목적성: 기본 아키텍처는 주로 객체 감지 모델이지만, 인스턴스 세분화 및 OBB(지향성 경계 상자) 감지와 같은 작업을 지원할 수 있을 만큼 유연합니다.
- 성능 균형: 실시간 비디오 분석에 필요한 속도와 최고 수준의 정확도를 제공하는 최적의 균형을 이룹니다.
에코시스템 이점
Ultralytics 모든 모델에 통합된 인터페이스를 제공합니다. 모델 이름 문자열만 변경하면 YOLOv8 또는 YOLO11 YOLOv9 전환할 수 있으므로 손쉽게 벤치마킹 및 실험을 수행할 수 있습니다.
이상적인 사용 사례
YOLOv9 속도와 효율성이 요구되는 실제 배포에 선호되는 선택입니다:
- 엣지 컴퓨팅: 임베디드 디바이스(예: NVIDIA 젯슨 또는 라즈베리 파이)에 배포.
- 실시간 분석: 트래픽 모니터링, 리테일 분석, 스포츠 분석 등 높은 프레임 속도가 필수적인 분야에 적합합니다.
- 모바일 앱: 다음을 통해 iOS 및 Android 기기에서 효율적으로 실행됩니다. CoreML 또는 TFLite 내보내기.
- 로보틱스: 자율 탐색 및 상호 작용을 위한 빠른 인식 제공.
비교 분석: 아키텍처 및 워크플로
RTDETRv2와 YOLOv9 중 하나를 결정할 때는 근본적인 아키텍처의 차이점을 고려하세요. RTDETRv2는 트랜스포머의 성능에 의존하며, 자체 주의 메커니즘을 활용하여 글로벌 컨텍스트를 이해합니다. 따라서 까다로운 정적 이미지에서 정확도가 높아지는 경우가 많지만, 학습 메모리 소비가 증가하고 GPU GPU 하드웨어에서는 추론 속도가 느려지는 대가가 따릅니다.
대조적으로, YOLOv9 은 PGI에 의해 개선된 진화한 CNN 아키텍처(GELAN)를 활용합니다. 이 설계는 본질적으로 더 하드웨어 친화적이며, 다음과 같은 라이브러리에서 수년간의 CNN 최적화를 통해 이점을 얻습니다. TensorRT 및 OpenVINO.
학습 방법론
RTDETRv2 훈련에는 일반적으로 주의력 지도를 수용하기 위해 더 긴 수렴 시간과 더 많은 메모리 요구 사항이 포함됩니다. 반면, YOLOv9 Ultralytics 팀이 연마한 효율적인 훈련 프로세스의 이점을 누릴 수 있습니다. 사전 학습된 가중치를 사용할 수 있고 Ultralytics HUB와 원활하게 통합할 수 있으므로 데이터 주석에서 모델 배포에 이르는 워크플로우가 간소화됩니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with high speed
results = model("path/to/image.jpg")
결론: 어떤 모델이 가장 적합할까요?
대부분의 상업용 및 연구용 애플리케이션에 적합합니다, YOLOv9 을 권장합니다. 이 솔루션은 정확도와 속도 사이에서 탁월한 절충점을 제공하며, 강력한 Ultralytics 에코시스템의 지원을 받습니다. 메모리 사용 공간이 적고 다양한 배포 옵션이 있어 클라우드 서버부터 엣지 디바이스까지 모든 곳에 적합합니다.
RTDETRv2는 비전 트랜스포머의 고유한 특성이 특정한 이점을 제공하고 계산 제약이 주요 관심사가 아닌 학술 연구 및 특수 시나리오를 위한 강력한 툴입니다.
다른 Ultralytics 모델 살펴보기
더 많은 옵션을 찾고 있다면, Ultralytics 프레임워크 내에서 이러한 대안을 고려해 보세요:
- YOLO11: 최첨단 애플리케이션을 위해 속도와 정확성을 더욱 개선한 YOLO 시리즈의 최신 버전입니다.
- YOLOv8: 탐지, 세분화, 포즈 추정 및 분류를 지원하는 매우 다재다능한 모델로 안정성과 광범위한 채택으로 잘 알려져 있습니다.
- RT-DETR: Ultralytics 또한 원래의 RT-DETR 모델을 지원하므로 익숙한 Ultralytics API 내에서 트랜스포머 기반 탐지를 실험해 볼 수 있습니다.