YOLOv5 대 RTDETRv2: 실시간 속도와 트랜스포머 정확도의 균형 맞추기
빠르게 진화하는 컴퓨터 비전 환경에서 올바른 물체 감지 모델을 선택하는 것은 프로젝트 성공을 위해 매우 중요합니다. 이 포괄적인 기술 비교에서는 두 가지 접근 방식을 살펴봅니다: YOLOv5와 높은 정확도에 중점을 둔 최신 트랜스포머 기반 모델인 RTDETRv2의 두 가지 접근 방식을 비교합니다.
RTDETRv2는 비전 트랜스포머(ViT) 를 활용하여 글로벌 컨텍스트를 캡처합니다, Ultralytics YOLOv5 는 리소스 오버헤드가 적고 배포 준비가 완료된 강력한 솔루션을 필요로 하는 개발자에게 여전히 최고의 선택입니다.
모델 사양 및 기원
성능 메트릭에 대해 자세히 알아보기 전에 각 모델의 배경과 아키텍처 철학을 이해하는 것이 중요합니다.
| 기능 | Ultralytics YOLOv5 | RTDETRv2 |
|---|---|---|
| 아키텍처 | CNN 기반(앵커 기반) | 하이브리드(CNN 백본 + 트랜스포머) |
| 주요 초점 | 실시간 속도, 다용도성, 사용 편의성 | 높은 정확도, 글로벌 컨텍스트 |
| 작성자 | 글렌 조처 | 웬위 리우, 이안 자오, et al. |
| 조직 | Ultralytics | Baidu |
| 릴리스 날짜 | 2020-06-26 | 2023-04-17 |
| 태스크 | 감지, 세분화, 분류 | 객체 탐지 |
건축 및 디자인 철학
이러한 모델 간의 근본적인 차이점은 시각적 데이터를 처리하는 방식에 있습니다.
Ultralytics YOLOv5
YOLOv5 고도로 최적화된 컨볼루션 신경망(CNN) 아키텍처를 사용합니다. 수정된 CSPDarknet 백본과 경로 집계 네트워크(PANet) 넥을 사용하여 특징 맵을 추출합니다.
- 앵커 기반: 미리 정의된 앵커 박스를 사용하여 객체 위치를 예측하므로 일반적인 객체 모양에 대한 학습 프로세스가 간소화됩니다.
- 효율성: 추론 속도를 극대화하도록 설계되어 NVIDIA Jetson과 같은 엣지 장치부터 표준 CPU에 이르기까지 다양한 하드웨어에서 사용할 수 있습니다.
- 다목적성: 단일 통합 프레임워크 내에서 인스턴스 세분화 및 이미지 분류를 포함한 여러 작업을 지원합니다.
RTDETRv2
RTDETRv2(실시간 감지 트랜스포머 v2)는 트랜스포머 아키텍처로의 전환을 의미합니다.
- 하이브리드 설계: CNN 백본과 트랜스포머 인코더-디코더를 결합하여 자체 주의 메커니즘을 활용하여 객체 관계를 처리합니다.
- 글로벌 컨텍스트: 트랜스포머 컴포넌트를 사용하면 모델이 전체 이미지를 한 번에 '볼' 수 있으므로 오클루전이 있는 복잡한 장면에서 성능이 향상됩니다.
- 계산 비용: 이 정교한 아키텍처는 일반적으로 순수한 CNN 기반 솔루션에 비해 훨씬 더 많은 GPU 메모리와 연산 능력(FLOPs)을 요구합니다.
성능 분석
아래 표는 주요 성능 메트릭을 직접 비교한 것입니다. RTDETRv2는 COCO 데이터 세트에서 인상적인 정확도mAP를 보이는 반면, YOLOv5 특히 트랜스포머가 종종 어려움을 겪는 CPU 하드웨어에서 우수한 추론 속도를 보여줍니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
데이터 해석하기
RTDETRv2가 더 높은 mAP 수치를 달성하는 반면, 속도와 FLOPs 열을 주목하세요. YOLOv5n은 CPU 73.6ms로 실행되므로 가속되지 않은 하드웨어에서 실시간 애플리케이션을 구현할 수 있습니다. RTDETRv2 모델은 훨씬 무거워 실시간 프레임 속도를 유지하려면 강력한 GPU가 필요합니다.
교육 효율성 및 메모리 사용량
의 중요한 장점 YOLOv5 의 중요한 장점은 훈련 효율성입니다. RTDETRv2와 같은 트랜스포머 기반 모델은 높은 VRAM 소비와 느린 컨버전스 속도로 악명이 높습니다.
- 메모리 사용량 감소: YOLOv5 적당한 CUDA 메모리를 갖춘 일반 소비자용 GPU에서 학습할 수 있어 AI 개발에 대한 접근성을 대중화합니다.
- 더 빠른 컨버전스: 사용자는 종종 더 짧은 시간 내에 사용 가능한 결과를 얻을 수 있어 귀중한 시간과 클라우드 컴퓨팅 비용을 절약할 수 있습니다.
Ultralytics YOLOv5 주요 강점
대부분의 개발자와 상업용 애플리케이션을 위해 YOLOv5 보다 균형 잡히고 실용적인 이점을 제공합니다:
- 탁월한 사용 편의성: Ultralytics Python API는 단순성을 위한 업계 표준입니다. 몇 줄의 코드만으로 모델을 로드하고, 추론을 실행하고, 사용자 지정 데이터에 대한 학습을 수행할 수 있습니다.
- 풍부한 에코시스템: 대규모 오픈 소스 커뮤니티의 지원을 받는 YOLOv5 코드 없는 교육, 추적을 위한 MLOps 도구, 다음과 같은 다양한 내보내기 형식을 위해 Ultralytics HUB와 원활하게 통합됩니다. ONNX 및 TensorRT 같은 다양한 내보내기 형식을 지원합니다.
- 배포 유연성: iOS 및 Android 모바일 앱부터 라즈베리 파이와 클라우드 서버까지, YOLOv5 경량 아키텍처는 무거운 변압기 모델이 실행할 수 없는 곳에서도 실행할 수 있습니다.
- 작업의 다양성: 주로 물체 감지기인 RTDETRv2와 달리 YOLOv5 분류 및 세분화를 지원하므로 다양한 비전 작업을 위해 여러 코드베이스를 유지해야 할 필요성이 줄어듭니다.
업그레이드 경로
이러한 에코시스템의 이점을 유지하면서 YOLOv5 더 높은 정확도가 필요하다면, 새로운 YOLO11. 최신 아키텍처 개선 사항을 통합하여 트랜스포머 정확도에 필적하거나 능가하는 정확도와 YOLO 기대할 수 있는 효율성을 제공합니다.
코드 비교: 사용 편의성
다음 예는 Ultralytics 패키지와 함께 YOLOv5 사용하는 간단한 방법을 보여줍니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show() # show to screen
result.save(filename="result.jpg") # save to disk
이상적인 사용 사례
Ultralytics YOLOv5 선택해야 하는 경우
- 엣지 컴퓨팅: 배터리로 구동되거나 리소스가 제한적인 디바이스(드론, 휴대폰, IoT)에 배포합니다.
- 실시간 비디오 분석: 트래픽 관리 또는 보안을 위해 여러 비디오 스트림을 동시에 처리합니다.
- 신속한 프로토타이핑: 며칠이 아닌 몇 시간 안에 데이터 세트에서 배포된 모델로 전환해야 하는 경우.
- 멀티태스크 요구 사항: 물체 감지 및 이미지 분할이 모두 필요한 프로젝트.
RTDETRv2를 선택해야 하는 경우
- 학술 연구: 속도는 부차적인 문제인 정적 데이터 세트에 대해 절대적인 최신 기술을 비교 벤치마킹합니다.
- 하이엔드 GPU 가용성: 트레이닝과 추론 모두에 전용 서버급 GPU(예: NVIDIA A100)를 사용할 수 있는 환경.
- 복잡한 정적 장면: 셀프 어텐션 메커니즘이 정확도에서 중요한 우위를 제공하는 고밀도 오클루전이 있는 시나리오입니다.
결론
RTDETRv2는 인상적인 정확도 수치로 컴퓨터 비전에서 트랜스포머의 잠재력을 보여주지만, 하드웨어 리소스와 훈련 복잡성 측면에서 상당한 비용을 수반합니다. 대부분의 실제 애플리케이션에 적용됩니다, Ultralytics YOLOv5 가 여전히 최고의 선택입니다. 속도, 정확도, 낮은 메모리 사용량, 지원 에코시스템 및 광범위한 문서가완벽하게 결합된 이 솔루션은 개발자가 확장 가능하고 효율적이며 효과적인 AI 솔루션을 구축할 수 있도록 보장합니다.
Ultralytics 프레임워크의 유용성을 희생하지 않으면서도 최고의 최신 성능을 원하는 사용자에게는 다음과 같은 기능을 적극 권장합니다. YOLO11를 살펴보는 것이 좋습니다. 이 솔루션은 CNN 효율성과 트랜스포머 수준의 정확도 사이의 간극을 메워줍니다.