RTDETRv2의 아키텍처는 Vision Transformers (ViT)를 기반으로 구축되어 self-attention 메커니즘을 통해 이미지 내에서 전역 컨텍스트를 캡처할 수 있습니다. 이러한 Transformer 기반 접근 방식은 기존의 Convolutional Neural Networks (CNNs)에 비해 뛰어난 특징 추출을 가능하게 하여, 특히 복잡한 객체 관계가 있는 복잡한 장면에서 더 높은 정확도를 제공합니다.
최적의 객체 감지 모델을 선택하는 것은 모든 컴퓨터 비전 프로젝트에서 매우 중요한 결정입니다. 선택에는 종종 정확도, 추론 속도 및 계산 비용 간의 절충이 필요합니다. 이 페이지에서는 높은 정밀도로 알려진 트랜스포머 기반 모델인 RTDETRv2와 속도와 효율성의 뛰어난 균형으로 유명한 CNN 기반 모델인 YOLOv9의 두 가지 강력한 모델 간의 자세한 기술적 비교를 제공합니다. 이 분석은 특정 요구 사항에 가장 적합한 모델을 선택하는 데 도움이 될 것입니다.
RTDETRv2: 트랜스포머 기반 고정밀
RTDETRv2 (Real-Time Detection Transformer v2)는 Baidu에서 개발한 최첨단 객체 감지 모델입니다. Transformer 아키텍처를 활용하여 특히 복잡한 장면에서 뛰어난 정확도를 제공합니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- Organization: Baidu
- 날짜: 2023-04-17 (Original RT-DETR), 2024-07-24 (RTDETRv2 논문)
- Arxiv: https://arxiv.org/abs/2304.08069 (Original), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://docs.ultralytics.com/models/rtdetr/
아키텍처 및 주요 기능
RTDETRv2는 기존의 CNN(Convolutional Neural Networks)과는 상당히 다른 Vision Transformer (ViT) 아키텍처를 기반으로 구축되었습니다. Self-Attention 메커니즘을 사용하여 이미지 내에서 전역 컨텍스트와 장거리 종속성을 캡처할 수 있습니다. 이를 통해 더욱 강력한 특징 추출이 가능하며, 특히 가려지거나 수많은 객체가 있는 시나리오에서 더 높은 정확도를 제공합니다. 또한 RTDETRv2는 앵커가 필요 없는 감지 메커니즘을 사용하여 감지 프로세스를 간소화합니다.
강점과 약점
강점:
- 높은 정확도: 트랜스포머 아키텍처는 복잡한 세부 사항과 관계를 캡처하는 데 탁월하여 높은 mAP 점수를 제공합니다.
- 전역 맥락 이해: 전체 이미지의 맥락을 파악하는 능력은 복잡한 환경에서 큰 장점입니다.
- 실시간 지원: TensorRT와 같은 충분한 하드웨어 가속을 통해 실시간 추론 속도를 달성할 수 있습니다.
약점:
- 높은 리소스 요구량: RTDETRv2 모델은 더 많은 수의 파라미터와 더 높은 FLOPs를 가지므로 상당한 계산 능력이 필요합니다.
- 높은 메모리 사용량: 트랜스포머 기반 모델은 특히 훈련 중에 메모리를 많이 사용하는 것으로 악명이 높으며, 높은 CUDA 메모리를 요구하므로 고급 GPU 없이는 훈련하기 어렵습니다.
- CPU에서 더 느린 추론 속도: 최적화된 CNN에 비해 CPU 또는 리소스가 제한된 장치에서 성능이 크게 저하됩니다.
- 복잡성: 아키텍처는 보다 간소화된 모델보다 이해하고 조정하고 배포하기가 더 복잡할 수 있습니다.
이상적인 사용 사례
RTDETRv2는 정밀도가 최우선 순위이고 컴퓨팅 리소스가 주요 제약 조건이 아닌 애플리케이션에 가장 적합합니다.
- 의료 영상 분석: 고해상도 의료 영상에서 미세한 이상 징후를 탐지합니다.
- 위성 이미지 분석: 큰 위성 이미지에서 작은 객체 또는 특징을 식별합니다.
- 고급 산업 검사: 정확성이 가장 중요한 세부 품질 관리를 수행합니다.
YOLOv9: 최첨단 효율성 및 성능
YOLOv9는 대만 Academia Sinica의 연구자들이 개발한 Ultralytics YOLO 제품군의 획기적인 모델입니다. 효율성을 향상시키고 심층 네트워크에서 정보 손실을 해결하는 새로운 기술을 도입했습니다.
- 저자: Chien-Yao Wang, Hong-Yuan Mark Liao
- 조직: Institute of Information Science, Academia Sinica, Taiwan
- 날짜: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- 문서: https://docs.ultralytics.com/models/yolov9/
아키텍처 및 주요 기능
YOLOv9은 두 가지 주요 혁신 기술인 PGI(Programmable Gradient Information)와 GELAN(Generalized Efficient Layer Aggregation Network)을 도입했습니다. PGI는 데이터가 심층 신경망을 통과할 때 정보 손실을 완화하여 모델이 효과적으로 학습하도록 돕습니다. GELAN은 파라미터 활용률과 계산 속도를 최적화하는 매우 효율적인 아키텍처입니다.
원래 연구는 훌륭하지만, YOLOv9이 Ultralytics 생태계에 통합되어 잠재력을 최대한 발휘합니다. 이는 사용자에게 다음을 제공합니다.
- 사용 편의성: 간소화되고 사용자 친화적인 Python API와 광범위한 문서를 통해 모델을 쉽게 학습, 검증 및 배포할 수 있습니다.
- 잘 관리되는 에코시스템: 사용자는 활발한 개발, 강력한 커뮤니티 지원, 그리고 노코드 학습 및 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합을 통해 이점을 얻습니다.
- 학습 효율성: Ultralytics는 즉시 사용 가능한 사전 학습된 가중치와 효율적인 학습 프로세스를 제공합니다. 중요한 것은 YOLOv9는 RTDETRv2와 같은 트랜스포머 모델에 비해 학습 중에 메모리 요구 사항이 훨씬 적어 성능이 낮은 하드웨어를 가진 사용자도 액세스할 수 있습니다.
- 다재다능함: 주로 감지용인 RTDETRv2와 달리 YOLOv9 아키텍처는 인스턴스 분할과 같은 작업을 지원하는 구현을 통해 더 다재다능하며 더 많은 잠재력을 보여줍니다.
강점과 약점
강점:
- 탁월한 효율성: 경쟁사보다 더 적은 파라미터와 더 낮은 계산 비용으로 최첨단 정확도를 제공합니다.
- 뛰어난 성능 균형: 속도와 정확도 간의 뛰어난 균형을 달성하여 광범위한 애플리케이션에 적합합니다.
- 정보 보존: PGI는 심층 네트워크에서 정보 손실 문제를 효과적으로 해결합니다.
- 확장성: 경량 YOLOv9t부터 고성능 YOLOv9e까지 다양한 모델 크기를 제공하여 여러 요구 사항을 충족합니다.
약점:
- 참신함: 더 새로운 모델로서 커뮤니티에서 제공하는 배포 예제의 수는 여전히 증가하고 있지만 Ultralytics 생태계 덕분에 도입이 빠르게 가속화되고 있습니다.
이상적인 사용 사례
YOLOv9은 높은 정확도와 실시간 성능을 모두 요구하는 애플리케이션에 탁월합니다.
- Edge Computing: 효율성 덕분에 NVIDIA Jetson과 같이 리소스가 제한된 장치에 배포하는 데 적합합니다.
- 실시간 감시: 보안 시스템을 위한 비디오 피드를 효율적으로 모니터링합니다.
- 로보틱스 및 드론: 자율 내비게이션을 위한 빠르고 정확한 인식 제공.
- 모바일 애플리케이션: 리소스를 소모하지 않고 강력한 객체 감지를 모바일 앱에 통합합니다.
정면 성능 비교: 정확도, 속도 및 효율성
성능 지표를 비교할 때 YOLOv9와 RTDETRv2 간의 절충점이 분명해집니다. YOLOv9는 일관되게 성능과 효율성 간의 더 나은 균형을 보여줍니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
표에서 볼 수 있듯이 가장 큰 YOLOv9 모델인 YOLOv9e는 RTDETRv2-x의 54.3%에 비해 더 높은 mAP인 55.6%를 달성하면서 FLOP 수가 훨씬 적습니다(189.0B 대 259B). 스펙트럼의 다른 쪽 끝에서 YOLOv9s와 같은 더 작은 모델은 RTDETRv2-s(46.8% 대 48.1%)와 비슷한 정확도를 제공하지만 파라미터와 FLOP 수가 훨씬 적어 훨씬 빠르고 edge AI 장치에 더 적합합니다.
결론: 어떤 모델이 적합할까요?
RTDETRv2는 트랜스포머 기반 아키텍처를 통해 높은 정확도를 제공하지만, 높은 계산 및 메모리 요구 사항이 필요하며, 이는 특수화된 고사양 애플리케이션을 위한 틈새 선택이 됩니다.
대다수의 개발자와 연구원에게 YOLOv9이 더 나은 선택입니다. 최첨단 정확도를 제공할 뿐만 아니라 놀라운 효율성까지 제공합니다. 낮은 리소스 요구량, 더 빠른 추론 속도 및 확장성 덕분에 실제 배포에 매우 실용적입니다. 가장 중요한 것은 강력한 Ultralytics 생태계가 사용하기 쉬운 도구, 포괄적인 지원 및 개념에서 생산까지 개발을 가속화하는 효율적인 워크플로를 통해 비교할 수 없는 사용자 경험을 제공한다는 것입니다.
다른 최첨단 모델 살펴보기
다른 옵션을 탐색하는 경우 Ultralytics 생태계 내의 다른 모델을 고려해 보십시오.
- Ultralytics YOLOv8: 감지, 분할, 포즈 추정 및 추적을 포함한 광범위한 비전 작업에서 뛰어난 성능으로 알려진 매우 인기 있고 다재다능한 모델입니다. YOLOv8 vs. RT-DETR 비교를 참조하십시오.
- Ultralytics YOLO11: Ultralytics의 최신 모델로, 속도와 효율성의 경계를 더욱 넓히고 있습니다. 실시간 애플리케이션에서 최첨단 성능을 위해 설계되었습니다. YOLO11 vs. YOLOv9 비교를 살펴보십시오.