RTDETRv2 vs YOLOv5: 자세한 기술 비교
최적의 객체 감지 모델을 선택하는 것은 모든 컴퓨터 비전 프로젝트에서 매우 중요한 결정입니다. 정확도, 속도 및 계산 비용 간의 절충은 특정 애플리케이션에 대한 모델의 적합성을 정의합니다. 이 페이지에서는 높은 정확도의 트랜스포머 기반 모델인 RTDETRv2와 매우 효율적이고 널리 채택된 업계 표준인 Ultralytics YOLOv5 간의 자세한 기술적 비교를 제공합니다. 정보에 입각한 선택을 할 수 있도록 아키텍처 차이점, 성능 벤치마크 및 이상적인 사용 사례를 살펴보겠습니다.
RTDETRv2: 고정밀 실시간 감지 트랜스포머
RTDETRv2(Real-Time Detection Transformer v2)는 Baidu에서 개발한 최첨단 객체 감지기로, Vision Transformer의 강력한 기능을 활용하여 실시간 성능을 유지하면서 높은 정확도를 달성합니다. 이는 복잡한 트랜스포머 아키텍처를 실용적인 실시간 애플리케이션에 적용하는 데 중요한 진전을 나타냅니다.
작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
기관: Baidu
날짜: 2023-04-17 (Initial RT-DETR), 2024-07-24 (RT-DETRv2 개선)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처
RTDETRv2는 CNN(Convolutional Neural Networks)과 트랜스포머의 강점을 결합한 하이브리드 아키텍처를 사용합니다.
- Backbone: 초기 특징 추출을 위해 CNN(ResNet 또는 HGNetv2와 같은)이 사용되어 저수준 이미지 특징을 효율적으로 캡처합니다.
- 인코더-디코더: 모델의 핵심은 Transformer 기반 인코더-디코더입니다. Self-attention 메커니즘을 사용하여 백본에서 특징 맵을 처리함으로써 모델이 전역 컨텍스트와 장면 내 객체 간의 장거리 의존성을 캡처할 수 있습니다. 이는 복잡하거나 혼잡한 환경에서 객체를 감지하는 데 특히 효과적입니다.
강점
- 높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 뛰어난 mAP 점수를 달성하며, 종종 COCO와 같은 복잡한 데이터 세트에서 기존 CNN 기반 모델보다 뛰어난 성능을 보입니다.
- 강력한 특징 추출: 전체 이미지 컨텍스트를 고려하여 가려지거나 작은 객체가 있는 까다로운 시나리오에서도 뛰어난 성능을 발휘하므로 자율 주행과 같은 애플리케이션에 적합합니다.
- 실시간 성능: 이 모델은 특히 NVIDIA TensorRT와 같은 도구로 가속화할 때 경쟁력 있는 추론 속도를 제공하도록 최적화되어 있습니다.
약점
- 계산 비용: Transformer 기반 모델은 일반적으로 더 많은 파라미터 수와 FLOPs를 가지므로 GPU 메모리 및 처리 능력과 같은 더 많은 컴퓨팅 자원을 요구합니다.
- 학습 복잡성: RTDETRv2 학습은 리소스 집약적일 수 있으며 CNN 기반 모델 학습보다 느릴 수 있습니다. 종종 훨씬 더 많은 CUDA 메모리가 필요하며, 이는 하드웨어 제약이 있는 사용자에게 장벽이 될 수 있습니다.
- CPU에서의 추론 속도: 고급 GPU에서는 빠르지만 CPU 또는 성능이 낮은 에지 장치에서는 YOLOv5와 같이 최적화된 모델보다 성능이 훨씬 느릴 수 있습니다.
- Ecosystem: Ultralytics가 YOLO 모델에 제공하는 광범위하고 통합된 에코시스템, 도구 및 폭넓은 커뮤니티 지원이 부족합니다.
Ultralytics YOLOv5: 확고한 산업 표준
2020년에 처음 출시된 Ultralytics YOLOv5는 빠른 속도, 정확성 및 뛰어난 사용 편의성의 균형으로 인해 빠르게 업계 표준이 되었습니다. Glenn Jocher가 PyTorch에서 개발한 YOLOv5는 수많은 실제 애플리케이션에 배포된 성숙하고 안정적이며 고도로 최적화된 모델입니다.
작성자: Glenn Jocher
조직: Ultralytics
날짜: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentation: https://docs.ultralytics.com/models/yolov5/
아키텍처
YOLOv5는 고전적이면서도 매우 효율적인 CNN 아키텍처를 특징으로 합니다. 특징 추출을 위한 CSPDarknet53 백본, 다양한 스케일에 걸쳐 특징을 통합하는 PANet 넥, 그리고 앵커 기반 감지 헤드를 사용합니다. 이러한 설계는 실시간 객체 감지에 매우 효과적인 것으로 입증되었습니다.
강점
- 탁월한 속도 및 효율성: YOLOv5는 하이엔드 GPU에서 NVIDIA Jetson 및 Raspberry Pi와 같은 리소스가 제한된 에지 장치에 이르기까지 광범위한 하드웨어에서 빠른 추론에 매우 최적화되어 있습니다.
- 사용 편의성: Ultralytics YOLOv5는 간소화된 사용자 경험으로 유명합니다. 간단한 Python API와 광범위한 설명서를 통해 개발자는 최소한의 노력으로 모델을 학습, 검증 및 배포할 수 있습니다.
- 잘 관리되는 에코시스템: YOLOv5는 활발한 개발, 대규모 지원 커뮤니티, 잦은 업데이트, 그리고 노코드 학습 및 배포를 위한 Ultralytics HUB와 같은 통합 도구를 포함하는 강력한 Ultralytics 에코시스템에 의해 뒷받침됩니다.
- 성능 균형: 모델 제품군(n, s, m, l, x)은 속도와 정확성 간에 뛰어난 균형을 제공하므로 사용자는 특정 요구 사항에 맞는 완벽한 모델을 선택할 수 있습니다.
- 메모리 효율성: RTDETRv2와 같은 트랜스포머 기반 모델과 비교할 때 YOLOv5는 훈련에 필요한 CUDA 메모리가 훨씬 적어 더 넓은 범위의 개발자와 연구원이 접근할 수 있습니다.
- 다양성: YOLOv5는 통합 프레임워크 내에서 객체 탐지, 인스턴스 분할 및 이미지 분류를 포함한 여러 작업을 지원합니다.
- 학습 효율성: 학습 과정이 빠르고 효율적이며, 맞춤형 데이터 세트에서 빠른 수렴을 가능하게 하는 사전 학습된 가중치를 즉시 사용할 수 있습니다.
약점
- 복잡한 장면에서의 정확도: 매우 정확하지만 YOLOv5는 전역 컨텍스트가 중요한 매우 조밀하거나 작은 객체가 있는 데이터 세트에서 RTDETRv2보다 mAP가 약간 떨어질 수 있습니다.
- Anchor-Based: 사전 정의된 앵커 박스에 대한 의존성으로 인해 비정상적인 객체 종횡비를 가진 데이터 세트에 대해 추가 튜닝이 필요한 경우가 있으며, 이는 앵커 프리 검출기에서는 필요하지 않은 단계입니다.
이상적인 사용 사례
YOLOv5는 속도, 효율성 및 빠른 개발이 우선시되는 애플리케이션에서 뛰어납니다.
- 실시간 비디오 감시: 보안 경보 시스템을 강화하고 라이브 비디오 피드를 모니터링합니다.
- Edge Computing: 로보틱스 및 산업 자동화 분야의 애플리케이션을 위해 저전력 장치에 배포합니다.
- 모바일 애플리케이션: 가벼운 모델은 스마트폰에서 장치 내 추론을 수행하는 데 적합합니다.
- 신속한 프로토타이핑: 사용 편의성과 빠른 훈련 주기로 인해 새로운 아이디어를 신속하게 개발하고 테스트하는 데 이상적입니다.
성능 분석: 속도 vs. 정확도
RTDETRv2와 YOLOv5의 주요 차이점은 설계 철학에 있습니다. RTDETRv2는 계산 집약적인 트랜스포머 아키텍처를 활용하여 가능한 가장 높은 정확도를 달성하는 데 우선순위를 둡니다. 반면, YOLOv5는 속도와 정확도의 최적 균형을 위해 설계되었으므로 특히 GPU가 아닌 하드웨어에서 더 광범위한 배포 시나리오에 더 실용적인 선택입니다.
아래 표는 COCO val2017 데이터 세트에 대한 정량적 비교를 제공합니다. RTDETRv2 모델이 더 높은 mAP를 달성하는 반면, YOLOv5 모델, 특히 더 작은 변형은 CPU에서 훨씬 빠른 추론 속도를 제공합니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
결론 및 권장 사항
RTDETRv2와 YOLOv5는 모두 강력한 객체 감지 모델이지만, 서로 다른 요구 사항을 충족합니다.
RTDETRv2는 절대적으로 가장 높은 정확도를 달성하는 것이 최우선 순위이고 상당한 컴퓨팅 리소스(특히 고급 GPU)를 사용할 수 있는 애플리케이션에 탁월한 선택입니다. 전역 컨텍스트를 이해하는 능력 덕분에 복잡한 장면이 있는 학술 벤치마크 및 특수 산업 작업에 더 적합합니다.
하지만 대부분의 실제 애플리케이션에서는 Ultralytics YOLOv5가 여전히 더 실용적이고 다재다능한 선택입니다. 뛰어난 속도와 정확도의 균형과 낮은 리소스 요구 사항 덕분에 클라우드에서 에지에 이르기까지 모든 곳에 배포하는 데 적합합니다. YOLOv5의 주요 장점인 사용 편의성, 잘 관리되는 생태계, 훈련 효율성 및 다재다능성 덕분에 강력하고 고성능 솔루션을 빠르고 효율적으로 제공해야 하는 개발자와 연구원에게 적합한 모델입니다.
이 강력한 기반을 바탕으로 구축된 최신 기술 발전을 원하는 사용자는 YOLOv8 및 YOLO11과 같은 최신 Ultralytics 모델을 사용하는 것이 좋습니다. 이러한 모델은 동일한 사용자 친화적인 프레임워크 내에서 훨씬 더 나은 성능과 더 많은 기능을 제공합니다.
기타 모델 비교
이러한 모델이 다른 모델과 어떻게 비교되는지 궁금하다면 다음 비교 페이지를 확인해 보세요.
- YOLOv5 vs YOLOv8
- YOLOv5 vs YOLOv9
- RTDETR vs YOLOv8
- RTDETR vs YOLO11
- EfficientDet 대 YOLOv5
- YOLOX vs YOLOv5