YOLOv5 vs RTDETRv2: 자세한 모델 비교
최적의 객체 감지 모델을 선택하는 것은 모든 컴퓨터 비전 프로젝트에서 매우 중요한 결정입니다. 이 페이지에서는 속도와 효율성의 균형으로 알려진 기존 업계 표준인 Ultralytics YOLOv5와 높은 정확도를 위해 설계된 트랜스포머 기반 모델인 RTDETRv2의 두 가지 강력한 모델 간의 자세한 기술적 비교를 제공합니다. 필요에 가장 적합한 모델을 선택하는 데 도움이 되도록 아키텍처 차이점, 성능 벤치마크 및 이상적인 사용 사례를 자세히 살펴보겠습니다.
Ultralytics YOLOv5: 확고한 산업 표준
작성자: Glenn Jocher
조직: Ultralytics
날짜: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Docs: https://docs.ultralytics.com/models/yolov5/
Ultralytics YOLOv5는 출시와 동시에 실시간 객체 감지에 대한 새로운 기준을 세웠으며, 빠른 속도, 정확성 및 사용자 친화적인 특성으로 인해 개발자와 연구원들 사이에서 빠르게 인기를 얻었습니다. PyTorch에서 완전히 구축되어 고도로 최적화되어 있으며 학습, 검증 및 배포가 용이합니다.
아키텍처
YOLOv5는 효율적이고 효과적인 기존 CNN 기반 아키텍처를 사용합니다.
- Backbone: 기울기 흐름을 개선하고 계산 비용을 줄이기 위해 CSP(Cross Stage Partial) 연결로 최적화된 Darknet의 변형인 CSPDarknet53 백본을 사용합니다.
- Neck: PANet(Path Aggregation Network)은 특징 통합에 사용되며, 다양한 스케일의 특징을 효과적으로 결합하여 다양한 크기의 객체 탐지 성능을 향상시킵니다.
- 헤드: 이 모델은 앵커 기반 감지 헤드를 사용하여 경계 상자, 클래스 확률 및 객체성 점수를 예측합니다.
강점
- 탁월한 속도 및 효율성: YOLOv5는 빠른 추론 속도에 매우 최적화되어 있어 CPU에서 에지 장치에 이르기까지 광범위한 하드웨어에서 실시간 애플리케이션을 위한 최고의 선택입니다.
- 사용 편의성: 간소화된 사용자 경험으로 유명한 YOLOv5는 광범위한 문서를 기반으로 간단한 Python API 및 CLI를 제공합니다.
- 잘 관리되는 에코시스템: Ultralytics 모델로서, 강력하고 활발하게 개발된 에코시스템의 이점을 누릴 수 있습니다. 여기에는 대규모 커뮤니티, 잦은 업데이트, 그리고 노코드 학습 및 배포를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합이 포함됩니다.
- 성능 균형: YOLOv5는 속도와 정확도 간의 뛰어난 균형을 달성하여 다양한 실제 시나리오에 매우 실용적입니다.
- 메모리 효율성: 트랜스포머 기반 모델과 비교할 때 YOLOv5 모델은 일반적으로 훈련 중에 필요한 CUDA 메모리가 훨씬 적고 추론 중에 메모리 효율성이 더 높습니다.
- 다재다능함: 통합 프레임워크 내에서 객체 감지, 인스턴스 분할 및 이미지 분류를 포함한 여러 작업을 지원합니다.
- 학습 효율성: 학습 과정이 빠르고 효율적이며, COCO와 같은 데이터 세트에서 사전 학습된 가중치를 즉시 사용하여 개발 속도를 높일 수 있습니다.
약점
- 복잡한 장면에서의 정확도: 매우 정확하지만 작거나 가려진 객체가 많은 데이터 세트에서 RTDETRv2와 같은 최신 아키텍처보다 성능이 떨어질 수 있습니다.
- Anchor-Based 디자인: 사전 정의된 앵커 박스에 대한 의존성으로 인해 최적의 성능을 얻기 위해 기존에 없던 객체 종횡비를 가진 데이터 세트에 대해 수동 튜닝이 필요한 경우가 있습니다.
이상적인 사용 사례
YOLOv5는 속도, 리소스 효율성 및 빠른 개발이 중요한 애플리케이션에서 뛰어납니다.
- 실시간 비디오 감시: 보안 경보 시스템 및 라이브 비디오 피드 모니터링에 이상적입니다.
- Edge Computing: 경량 모델은 Raspberry Pi 및 NVIDIA Jetson과 같이 리소스가 제한된 장치에 배포하는 데 적합합니다.
- 모바일 애플리케이션: 모바일 앱에서 장치 내 추론에 적합합니다.
- 산업 자동화: 품질 관리 및 교통 관리의 AI를 강화합니다.
RTDETRv2: 고정밀 실시간 감지 트랜스포머
작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
기관: Baidu
날짜: 2023-04-17 (Initial RT-DETR), 2024-07-24 (RT-DETRv2 개선)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
RTDETRv2(Real-Time Detection Transformer v2)는 Vision Transformers(ViT)의 강력한 기능을 활용하여 성능이 뛰어난 하드웨어에서 실시간 성능을 유지하면서 높은 정확도를 달성하는 최첨단 객체 감지기입니다.
아키텍처
RTDETRv2는 CNN과 Transformer의 강점을 결합한 하이브리드 방식을 활용합니다.
- Backbone: 일반적으로 효율적인 초기 특징 추출을 위해 CNN(ResNet 변형과 같은)을 사용합니다.
- 인코더-디코더: Transformer 기반 인코더-디코더 구조는 이미지 특징을 처리합니다. Self-attention 메커니즘을 사용하여 전역 컨텍스트를 캡처함으로써 모델이 멀리 떨어진 객체와 복잡한 장면 간의 관계를 더 잘 이해할 수 있도록 합니다.
강점
- 높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 뛰어난 mAP 점수를 달성하며, 특히 위성 이미지 분석에서와 같이 조밀하거나 작은 객체가 있는 복잡한 데이터 세트에서 뛰어난 성능을 보입니다.
- 실시간 성능: 특히 NVIDIA TensorRT와 같은 도구를 사용하여 강력한 GPU에서 가속화할 때 경쟁력 있는 추론 속도를 제공하도록 최적화되어 있습니다.
- 강력한 특징 추출: 전역 컨텍스트를 캡처하여 자율 주행과 같은 애플리케이션에 유용한 폐색과 같은 까다로운 시나리오에서 성능이 뛰어납니다.
약점
- 높은 계산 비용: RTDETRv2는 일반적으로 YOLOv5에 비해 더 높은 파라미터 수와 FLOP를 가지므로 GPU 메모리 및 처리 능력과 같은 더 중요한 계산 리소스가 필요합니다.
- 학습 복잡성: 트랜스포머 기반 모델 학습은 종종 CNN 학습보다 더 많은 리소스를 필요로 하고 더 느립니다. 일반적으로 훨씬 더 많은 CUDA 메모리가 필요하므로 하드웨어 제약이 있는 사용자가 접근하기 어렵습니다.
- CPU/Edge에서의 추론 속도: 강력한 GPU에서는 실시간으로 작동하지만, CPU 또는 성능이 낮은 에지 장치에서는 YOLOv5보다 성능이 훨씬 느릴 수 있습니다.
- 생태계 및 사용성: Ultralytics가 YOLO 모델에 제공하는 광범위하고 통합된 생태계, 툴링 및 광범위한 커뮤니티 지원이 부족합니다.
성능 분석: 속도 vs. 정확도
YOLOv5와 RTDETRv2의 주요 차이점은 설계 철학에 있습니다. YOLOv5는 광범위한 하드웨어에서 속도와 정확도의 최적 균형을 위해 설계되어 매우 다재다능합니다. 대조적으로 RTDETRv2는 고급 GPU에서 가장 잘 작동하는 더 많은 컴퓨팅 집약적인 트랜스포머 아키텍처를 활용하여 최대 정확도를 달성하는 데 우선순위를 둡니다.
아래 표는 이러한 차이점을 강조합니다. RTDETRv2 모델이 더 높은 mAP 점수를 달성하는 반면, YOLOv5 모델, 특히 더 작은 변형은 특히 CPU에서 훨씬 빠른 추론 시간을 제공합니다. 따라서 YOLOv5는 낮은 지연 시간과 다양한 하드웨어에서의 배포가 필수적인 애플리케이션에 더 실용적인 선택입니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
결론 및 권장 사항
YOLOv5와 RTDETRv2는 모두 강력한 객체 감지 모델이지만, 서로 다른 요구 사항을 충족합니다.
RTDETRv2는 가능한 가장 높은 정확도를 달성하는 것이 주요 목표이고 상당한 컴퓨팅 리소스(즉, 고급 GPU)를 훈련 및 배포 모두에 쉽게 사용할 수 있는 애플리케이션에 탁월한 선택입니다. Transformer 기반 아키텍처는 복잡한 장면에서 우위를 제공합니다.
하지만 대부분의 실제 애플리케이션에서는 Ultralytics YOLOv5가 더 매력적이고 실용적인 솔루션을 제시합니다. 뛰어난 속도와 정확도의 균형과 낮은 리소스 요구 사항 덕분에 더 광범위한 배포 시나리오에 적합합니다. 잘 관리되는 Ultralytics 생태계의 주요 장점( 사용 편의성, 포괄적인 문서, 활발한 커뮤니티 지원 및 Ultralytics HUB와 같은 도구 포함)은 진입 장벽을 크게 낮추고 개발 시간을 단축합니다.
최신식의 다재다능하고 매우 효율적인 프레임워크를 찾는 개발자에게 YOLOv8 및 YOLO11과 같은 최신 Ultralytics 모델은 YOLOv5의 강점을 기반으로 더욱 향상된 성능과 더 많은 기능을 제공합니다. 이러한 모델은 사용자 친화적인 고성능 컴퓨터 비전 분야의 최첨단을 나타냅니다.
기타 모델 비교
다른 모델을 살펴보고 싶다면 다음 비교 자료를 확인해 보세요.
- YOLOv5 vs YOLOv7
- YOLOv5 vs YOLOv8
- YOLOv5 vs YOLOv9
- RT-DETR vs YOLOv8
- RT-DETR vs YOLO11
- EfficientDet 대 YOLOv5