YOLOv9 vs. RTDETRv2: 객체 감지를 위한 기술 비교
최적의 객체 감지 모델을 선택하는 것은 모든 컴퓨터 비전 프로젝트에서 매우 중요한 결정이며, 정확도, 추론 속도 및 계산 비용 간의 신중한 균형이 필요합니다. 이 페이지에서는 효율성과 정확도로 알려진 최첨단 모델인 YOLOv9와 높은 정밀도로 칭찬받는 트랜스포머 기반 모델인 RTDETRv2의 두 가지 강력한 모델 간의 자세한 기술적 비교를 제공합니다. 이 분석은 프로젝트의 특정 요구 사항에 가장 적합한 모델을 결정하는 데 도움이 될 것입니다.
YOLOv9: 효율성을 통한 실시간 감지 향상
YOLOv9는 YOLO 시리즈의 중요한 도약으로, 성능과 효율성을 향상시키는 획기적인 기술을 도입했습니다. 선도적인 연구자들이 개발했으며, 딥러닝의 주요 과제를 해결하여 뛰어난 결과를 제공합니다.
- 저자: Chien-Yao Wang, Hong-Yuan Mark Liao
- 조직: Institute of Information Science, Academia Sinica, Taiwan
- 날짜: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- 문서: https://docs.ultralytics.com/models/yolov9/
아키텍처 및 주요 기능
YOLOv9의 아키텍처는 두 가지 주요 혁신을 도입합니다. PGI(Programmable Gradient Information)와 GELAN(Generalized Efficient Layer Aggregation Network)입니다. PGI는 데이터가 심층 신경망을 통과할 때 정보 손실 문제를 해결하도록 설계되어 모델이 정확한 업데이트를 위해 신뢰할 수 있는 기울기 정보를 수신하도록 보장합니다. GELAN은 파라미터 활용률과 계산 효율성을 최적화하는 새로운 네트워크 아키텍처로, YOLOv9가 엄청난 수의 파라미터 없이도 높은 정확도를 달성할 수 있도록 합니다.
Ultralytics 생태계에 통합되면 YOLOv9의 성능이 증폭됩니다. 개발자는 간단한 Python API와 광범위한 문서를 통해 간소화된 사용자 경험을 누릴 수 있습니다. 이 생태계는 즉시 사용 가능한 사전 훈련된 가중치를 통해 효율적인 훈련을 보장하고 활발한 개발과 강력한 커뮤니티 지원의 이점을 제공합니다.
강점과 약점
강점:
- 최첨단 정확도: COCO와 같은 벤치마크에서 선도적인 mAP 점수를 달성하며, 종종 더 많은 파라미터를 가진 모델보다 성능이 뛰어납니다.
- 높은 효율성: GELAN 및 PGI는 더 적은 파라미터와 FLOPs로 뛰어난 성능을 제공하므로 엣지 AI 장치에 배포하는 데 이상적입니다.
- 정보 보존: PGI는 정보 손실을 효과적으로 완화하여 더욱 강력한 학습과 더 나은 특징 표현으로 이어집니다.
- 잘 관리되는 에코시스템: 활발한 개발, 포괄적인 리소스, MLOps를 위한 Ultralytics HUB 통합, 그리고 강력한 커뮤니티 지원을 통해 이점을 얻습니다.
- 더 낮은 메모리 요구 사항: 트랜스포머 기반 모델과 비교했을 때, YOLOv9는 일반적으로 훈련 및 추론 중에 훨씬 적은 메모리를 필요로 하므로 제한된 하드웨어를 가진 사용자가 더 쉽게 접근할 수 있습니다.
- 다양성: 원본 논문은 객체 탐지에 중점을 두지만, 아키텍처는 인스턴스 분할과 같은 여러 작업을 지원하며, 이는 YOLOv8과 같은 다른 Ultralytics 모델의 멀티태스킹 기능과 일치합니다.
약점:
- 참신성: 최신 모델이므로 커뮤니티 기반 배포 예제의 수는 오래된 모델보다 적을 수 있지만 Ultralytics 내 통합으로 인해 도입이 빠르게 가속화됩니다.
이상적인 사용 사례
YOLOv9은 높은 정확도와 실시간 효율성이 모두 중요한 애플리케이션에 가장 적합합니다.
- 자율 시스템: 빠르고 정확한 인지 기능이 필요한 자율 주행 차량 및 드론에 적합합니다.
- 고급 보안: 실시간 위협 감지를 통해 정교한 보안 시스템을 강화합니다.
- 산업 자동화: 제조업의 품질 관리 및 복잡한 로봇 작업에 탁월합니다.
- Edge Computing: 효율적인 설계로 인해 리소스가 제한된 환경에 배포하는 데 적합합니다.
RTDETRv2: 정확도 중심의 실시간 감지
RTDETRv2 (Real-Time Detection Transformer v2)는 transformer 아키텍처의 강력한 성능을 활용하여 실시간 객체 감지에서 높은 정확도를 요구하는 애플리케이션을 위해 설계된 모델입니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- Organization: Baidu
- 날짜: 2023-04-17 (Original RT-DETR), 2024-07-24 (RTDETRv2 논문)
- Arxiv: https://arxiv.org/abs/2304.08069 (Original), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 기능
RTDETRv2의 아키텍처는 Vision Transformers (ViT)를 기반으로 구축되어 self-attention 메커니즘을 통해 이미지 내에서 전역 컨텍스트를 캡처할 수 있습니다. 이러한 Transformer 기반 접근 방식은 기존의 Convolutional Neural Networks (CNNs)에 비해 뛰어난 특징 추출을 가능하게 하여, 특히 복잡한 객체 관계가 있는 복잡한 장면에서 더 높은 정확도를 제공합니다.
강점과 약점
강점:
- 높은 정확도: 트랜스포머 아키텍처는 뛰어난 객체 감지 정확도를 제공하므로 정밀도 중심 작업에 적합합니다.
- 강력한 특징 추출: 이미지에서 전역 컨텍스트와 장거리 의존성을 효과적으로 캡처합니다.
- 실시간 지원: 적절한 하드웨어가 제공되는 경우 실시간 애플리케이션에 적합한 경쟁력 있는 추론 속도를 달성합니다.
약점:
- 높은 리소스 요구량: RTDETRv2 모델은 파라미터 수와 FLOPs가 훨씬 더 높아 더 많은 계산 능력과 메모리가 필요합니다.
- 더 느린 추론 속도: 일반적으로 YOLOv9보다 느리며, 특히 GPU가 아닌 하드웨어 또는 덜 강력한 장치에서 그렇습니다.
- 높은 메모리 사용량: Transformer 아키텍처는 특히 훈련 중에 메모리 집약적인 것으로 알려져 있으며, 종종 높은 CUDA 메모리를 요구하며 많은 사용자에게 장벽이 될 수 있습니다.
- 낮은 활용성: 주로 객체 탐지에 중점을 두고 있으며, Ultralytics 생태계의 모델에서 제공하는 다중 작업 활용성이 기본적으로 내장되어 있지 않습니다.
- 복잡성: 간소화되고 사용자 친화적인 Ultralytics YOLO 모델에 비해 학습, 튜닝 및 배포가 더 복잡할 수 있습니다.
이상적인 사용 사례
RTDETRv2는 가능한 가장 높은 정확도를 달성하는 것이 주요 목표이고 컴퓨팅 리소스가 주요 제약 조건이 아닌 시나리오에 가장 적합합니다.
- 의료 영상: 진단을 위해 정밀성이 중요한 복잡한 의료 영상 분석.
- 위성 이미지: 고해상도 위성 이미지에서 작거나 가려진 객체를 감지합니다.
- 과학 연구: 모델 성능이 배포 효율성보다 우선시되는 연구 환경에서 사용됩니다.
성능 비교: YOLOv9 vs. RTDETRv2
다음 표는 COCO val 데이터 세트에서 YOLOv9와 RTDETRv2 모델의 다양한 크기 간의 자세한 성능 비교를 제공합니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
데이터에서 다음과 같은 몇 가지 주요 통찰력이 나타납니다.
- 최고 정확도: YOLOv9-E는 55.6%의 가장 높은 mAP를 달성하여 비교 대상의 다른 모든 모델을 능가합니다.
- 효율성: 유사한 정확도를 가진 모델을 비교할 때 YOLOv9는 일관되게 뛰어난 효율성을 보여줍니다. 예를 들어 YOLOv9-C(53.0 mAP)는 RTDETRv2-L(53.4 mAP)보다 빠르며 훨씬 적은 파라미터(25.3M vs. 42M)와 FLOP(102.1B vs. 136B)를 필요로 합니다.
- 속도: YOLOv9 모델은 일반적으로 TensorRT를 사용하여 GPU에서 더 빠른 추론 속도를 제공합니다. YOLOv9-C 모델은 유사한 RTDETRv2-L보다 눈에 띄게 빠릅니다.
결론: 어떤 모델을 선택해야 할까요?
대다수의 실제 애플리케이션에서 YOLOv9이 권장되는 선택입니다. 정확도, 속도 및 효율성의 뛰어난 조합을 제공합니다. 혁신적인 아키텍처는 계산 리소스를 고려하면서 최첨단 성능을 보장합니다. 특히 Ultralytics 프레임워크 내에서 YOLOv9을 선택하는 주요 이점은 사용 편의성, 낮은 메모리 요구 사항, 여러 작업에 걸친 다재다능성, 잘 관리되는 생태계의 강력한 지원입니다.
RTDETRv2는 정밀도가 최우선 순위이고 더 높은 계산 및 메모리 비용이 허용되는 틈새 애플리케이션을 위한 강력한 모델입니다. 그러나 복잡성과 리소스 집약적인 특성으로 인해 고도로 최적화되고 사용자 친화적인 YOLOv9에 비해 광범위한 배포에는 덜 실용적입니다.
고려할 다른 모델
다른 옵션을 탐색하는 경우 Ultralytics 생태계에서 사용 가능한 다른 최첨단 모델에도 관심이 있을 수 있습니다.
- Ultralytics YOLO11: Ultralytics의 최신 모델이자 가장 발전된 모델로, 속도와 정확성의 경계를 더욱 넓히고 있습니다.
- Ultralytics YOLOv8: 광범위한 비전 작업에서 뛰어난 성능과 다재다능함의 균형으로 잘 알려진 성숙하고 매우 인기 있는 모델입니다.
- YOLOv5: 특히 에지 장치에서 안정성, 속도 및 배포 용이성으로 유명한 업계 표준 모델입니다.