콘텐츠로 건너뛰기

YOLOv5 vs RTDETRv2: 자세한 모델 비교

최적의 객체 감지 모델을 선택하는 것은 모든 컴퓨터 비전 프로젝트에서 매우 중요한 결정입니다. 이 페이지에서는 속도와 효율성의 균형으로 알려진 기존 업계 표준인 Ultralytics YOLOv5와 높은 정확도를 위해 설계된 트랜스포머 기반 모델인 RTDETRv2의 두 가지 강력한 모델 간의 자세한 기술적 비교를 제공합니다. 필요에 가장 적합한 모델을 선택하는 데 도움이 되도록 아키텍처 차이점, 성능 벤치마크 및 이상적인 사용 사례를 자세히 살펴보겠습니다.

Ultralytics YOLOv5: 확고한 산업 표준

작성자: Glenn Jocher
조직: Ultralytics
날짜: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Docs: https://docs.ultralytics.com/models/yolov5/

Ultralytics YOLOv5는 출시와 동시에 실시간 객체 감지에 대한 새로운 기준을 세웠으며, 빠른 속도, 정확성 및 사용자 친화적인 특성으로 인해 개발자와 연구원들 사이에서 빠르게 인기를 얻었습니다. PyTorch에서 완전히 구축되어 고도로 최적화되어 있으며 학습, 검증 및 배포가 용이합니다.

아키텍처

YOLOv5는 효율적이고 효과적인 기존 CNN 기반 아키텍처를 사용합니다.

  • Backbone: 기울기 흐름을 개선하고 계산 비용을 줄이기 위해 CSP(Cross Stage Partial) 연결로 최적화된 Darknet의 변형인 CSPDarknet53 백본을 사용합니다.
  • Neck: PANet(Path Aggregation Network)은 특징 통합에 사용되며, 다양한 스케일의 특징을 효과적으로 결합하여 다양한 크기의 객체 탐지 성능을 향상시킵니다.
  • 헤드: 이 모델은 앵커 기반 감지 헤드를 사용하여 경계 상자, 클래스 확률 및 객체성 점수를 예측합니다.

강점

  • 탁월한 속도 및 효율성: YOLOv5는 빠른 추론 속도에 매우 최적화되어 있어 CPU에서 에지 장치에 이르기까지 광범위한 하드웨어에서 실시간 애플리케이션을 위한 최고의 선택입니다.
  • 사용 편의성: 간소화된 사용자 경험으로 유명한 YOLOv5는 광범위한 문서를 기반으로 간단한 Python APICLI를 제공합니다.
  • 잘 관리되는 에코시스템: Ultralytics 모델로서, 강력하고 활발하게 개발된 에코시스템의 이점을 누릴 수 있습니다. 여기에는 대규모 커뮤니티, 잦은 업데이트, 그리고 노코드 학습 및 배포를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합이 포함됩니다.
  • 성능 균형: YOLOv5는 속도와 정확도 간의 뛰어난 균형을 달성하여 다양한 실제 시나리오에 매우 실용적입니다.
  • 메모리 효율성: 트랜스포머 기반 모델과 비교할 때 YOLOv5 모델은 일반적으로 훈련 중에 필요한 CUDA 메모리가 훨씬 적고 추론 중에 메모리 효율성이 더 높습니다.
  • 다재다능함: 통합 프레임워크 내에서 객체 감지, 인스턴스 분할이미지 분류를 포함한 여러 작업을 지원합니다.
  • 학습 효율성: 학습 과정이 빠르고 효율적이며, COCO와 같은 데이터 세트에서 사전 학습된 가중치를 즉시 사용하여 개발 속도를 높일 수 있습니다.

약점

  • 복잡한 장면에서의 정확도: 매우 정확하지만 작거나 가려진 객체가 많은 데이터 세트에서 RTDETRv2와 같은 최신 아키텍처보다 성능이 떨어질 수 있습니다.
  • Anchor-Based 디자인: 사전 정의된 앵커 박스에 대한 의존성으로 인해 최적의 성능을 얻기 위해 기존에 없던 객체 종횡비를 가진 데이터 세트에 대해 수동 튜닝이 필요한 경우가 있습니다.

이상적인 사용 사례

YOLOv5는 속도, 리소스 효율성 및 빠른 개발이 중요한 애플리케이션에서 뛰어납니다.

  • 실시간 비디오 감시: 보안 경보 시스템 및 라이브 비디오 피드 모니터링에 이상적입니다.
  • Edge Computing: 경량 모델은 Raspberry PiNVIDIA Jetson과 같이 리소스가 제한된 장치에 배포하는 데 적합합니다.
  • 모바일 애플리케이션: 모바일 앱에서 장치 내 추론에 적합합니다.
  • 산업 자동화: 품질 관리 및 교통 관리의 AI를 강화합니다.

YOLOv5에 대해 자세히 알아보세요

RTDETRv2: 고정밀 실시간 감지 트랜스포머

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
기관: Baidu
날짜: 2023-04-17 (Initial RT-DETR), 2024-07-24 (RT-DETRv2 개선)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

RTDETRv2(Real-Time Detection Transformer v2)는 Vision Transformers(ViT)의 강력한 기능을 활용하여 성능이 뛰어난 하드웨어에서 실시간 성능을 유지하면서 높은 정확도를 달성하는 최첨단 객체 감지기입니다.

아키텍처

RTDETRv2는 CNN과 Transformer의 강점을 결합한 하이브리드 방식을 활용합니다.

  • Backbone: 일반적으로 효율적인 초기 특징 추출을 위해 CNN(ResNet 변형과 같은)을 사용합니다.
  • 인코더-디코더: Transformer 기반 인코더-디코더 구조는 이미지 특징을 처리합니다. Self-attention 메커니즘을 사용하여 전역 컨텍스트를 캡처함으로써 모델이 멀리 떨어진 객체와 복잡한 장면 간의 관계를 더 잘 이해할 수 있도록 합니다.

강점

  • 높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 뛰어난 mAP 점수를 달성하며, 특히 위성 이미지 분석에서와 같이 조밀하거나 작은 객체가 있는 복잡한 데이터 세트에서 뛰어난 성능을 보입니다.
  • 실시간 성능: 특히 NVIDIA TensorRT와 같은 도구를 사용하여 강력한 GPU에서 가속화할 때 경쟁력 있는 추론 속도를 제공하도록 최적화되어 있습니다.
  • 강력한 특징 추출: 전역 컨텍스트를 캡처하여 자율 주행과 같은 애플리케이션에 유용한 폐색과 같은 까다로운 시나리오에서 성능이 뛰어납니다.

약점

  • 높은 계산 비용: RTDETRv2는 일반적으로 YOLOv5에 비해 더 높은 파라미터 수와 FLOP를 가지므로 GPU 메모리 및 처리 능력과 같은 더 중요한 계산 리소스가 필요합니다.
  • 학습 복잡성: 트랜스포머 기반 모델 학습은 종종 CNN 학습보다 더 많은 리소스를 필요로 하고 더 느립니다. 일반적으로 훨씬 더 많은 CUDA 메모리가 필요하므로 하드웨어 제약이 있는 사용자가 접근하기 어렵습니다.
  • CPU/Edge에서의 추론 속도: 강력한 GPU에서는 실시간으로 작동하지만, CPU 또는 성능이 낮은 에지 장치에서는 YOLOv5보다 성능이 훨씬 느릴 수 있습니다.
  • 생태계 및 사용성: Ultralytics가 YOLO 모델에 제공하는 광범위하고 통합된 생태계, 툴링 및 광범위한 커뮤니티 지원이 부족합니다.

RTDETRv2에 대해 자세히 알아보세요.

성능 분석: 속도 vs. 정확도

YOLOv5와 RTDETRv2의 주요 차이점은 설계 철학에 있습니다. YOLOv5는 광범위한 하드웨어에서 속도와 정확도의 최적 균형을 위해 설계되어 매우 다재다능합니다. 대조적으로 RTDETRv2는 고급 GPU에서 가장 잘 작동하는 더 많은 컴퓨팅 집약적인 트랜스포머 아키텍처를 활용하여 최대 정확도를 달성하는 데 우선순위를 둡니다.

아래 표는 이러한 차이점을 강조합니다. RTDETRv2 모델이 더 높은 mAP 점수를 달성하는 반면, YOLOv5 모델, 특히 더 작은 변형은 특히 CPU에서 훨씬 빠른 추론 시간을 제공합니다. 따라서 YOLOv5는 낮은 지연 시간과 다양한 하드웨어에서의 배포가 필수적인 애플리케이션에 더 실용적인 선택입니다.

모델 크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

결론 및 권장 사항

YOLOv5와 RTDETRv2는 모두 강력한 객체 감지 모델이지만, 서로 다른 요구 사항을 충족합니다.

RTDETRv2는 가능한 가장 높은 정확도를 달성하는 것이 주요 목표이고 상당한 컴퓨팅 리소스(즉, 고급 GPU)를 훈련 및 배포 모두에 쉽게 사용할 수 있는 애플리케이션에 탁월한 선택입니다. Transformer 기반 아키텍처는 복잡한 장면에서 우위를 제공합니다.

하지만 대부분의 실제 애플리케이션에서는 Ultralytics YOLOv5가 더 매력적이고 실용적인 솔루션을 제시합니다. 뛰어난 속도와 정확도의 균형과 낮은 리소스 요구 사항 덕분에 더 광범위한 배포 시나리오에 적합합니다. 잘 관리되는 Ultralytics 생태계의 주요 장점( 사용 편의성, 포괄적인 문서, 활발한 커뮤니티 지원 및 Ultralytics HUB와 같은 도구 포함)은 진입 장벽을 크게 낮추고 개발 시간을 단축합니다.

최신식의 다재다능하고 매우 효율적인 프레임워크를 찾는 개발자에게 YOLOv8YOLO11과 같은 최신 Ultralytics 모델은 YOLOv5의 강점을 기반으로 더욱 향상된 성능과 더 많은 기능을 제공합니다. 이러한 모델은 사용자 친화적인 고성능 컴퓨터 비전 분야의 최첨단을 나타냅니다.

기타 모델 비교

다른 모델을 살펴보고 싶다면 다음 비교 자료를 확인해 보세요.



📅 1년 전에 생성됨 ✏️ 1개월 전에 업데이트됨

댓글