YOLOv5 RTDETRv2: 상세 모델 비교

컴퓨터 비전 프로젝트에서 올바른 물체 감지 모델을 선택하는 것은 매우 중요합니다. Ultralytics 매우 효율적인 다음을 포함하여 다양한 요구 사항에 맞는 모델 제품군을 제공합니다. Ultralytics YOLOv5 와 같은 다른 아키텍처와 비교합니다. 이 페이지에서는 아키텍처 차이점, 성능 메트릭, 트레이닝 방법론, 이상적인 애플리케이션을 강조하는 YOLOv5 RTDETRv2의 기술 비교를 제공합니다.

YOLOv5: 속도와 효율성

작성자: 저자: 글렌 조처
조직 Ultralytics
날짜: 2020-06-26
깃허브: https:yolov5
문서: https:yolov5

Ultralytics YOLOv5 뛰어난 추론 속도와 운영 효율성으로 널리 채택된 1단계 객체 감지기로 유명합니다. Ultralytics 개발한 이 제품은 실시간 객체 감지 작업의 벤치마크가 되었습니다.

아키텍처

YOLOv5 속도에 최적화된 CNN 기반 아키텍처를 사용합니다:

백본: 효율적인 특징 추출을 위한 CSPDarknet53.
Neck: 규모에 관계없이 효과적인 기능 융합을 위한 PANet.
헤드: 바운딩 박스 예측 및 분류를 위한 YOLOv5 감지 헤드입니다. 다양한 크기(n, s, m, l, x)로 제공되므로 사용자는 특정 요구 사항에 따라 속도와 정확도 사이에서 최적의 절충안을 선택할 수 있습니다.

강점

특히 실용적인 배포를 원하는 개발자에게는 YOLOv5 상당한 이점을 제공합니다:

사용 편의성: 간단한 API, 광범위한 문서, 수많은 튜토리얼을 통해 간소화된 사용자 환경을 제공합니다.
잘 관리된 에코시스템: 활발한 개발, GitHub 및 Discord를 통한 강력한 커뮤니티 지원, 빈번한 업데이트, 코드 없이 교육 및 배포할 수 있는 Ultralytics HUB와 같은 플랫폼 등 통합된 Ultralytics 에코시스템의 이점을 누릴 수 있습니다.
성능 균형: 추론 속도와 정확도 사이의 강력한 균형을 유지하여 다양한 실제 시나리오에 적합합니다.
메모리 요구 사항: 일반적으로 RTDETRv2와 같은 트랜스포머 기반 모델에 비해 더 적은 메모리(특히 훈련 중 CUDA 메모리)를 필요로 합니다.
훈련 효율성: 효율적인 학습 프로세스, 더 빠른 융합, COCO와 같은 데이터 세트에서 즉시 사용 가능한 사전 학습된 가중치를 제공합니다.
다목적성: 주로 탐지에 중점을 두지만, YOLOv5 리포지토리는 인스턴스 분할 및 이미지 분류 작업도 지원합니다.

약점

정확도: 정확도는 매우 높지만, RTDETRv2-x와 같이 더 크고 복잡한 모델은 속도와 리소스를 희생하더라도 까다로운 데이터 세트에서 약간 더 높은 맵을 얻을 수 있습니다.

이상적인 사용 사례

YOLOv5 탁월합니다:

실시간 물체 감지: 비디오 감시, 보안 경보 시스템, 교통 관리의 AI.
엣지 컴퓨팅: 라즈베리 파이 및 NVIDIA Jetson과 같은 리소스 제약이 있는 디바이스에 배포.
모바일 애플리케이션: 모바일 배포에 적합한 경량 모델.
신속한 프로토타이핑: 다양한 컴퓨터 비전 작업을 위한 빠른 설정 및 교육.

YOLOv5 대해 자세히 알아보기

RTDETRv2: 높은 정확도의 실시간 탐지

저자: 저자: 웬위 리우, 이안 자오, 친야오 창, 쿠이 황, 관중 왕, 이 리우
조직 Baidu
날짜: 2023-04-17 (초기 RT-DETR), 2024-07-24 (RT-DETRv2 개선)
아카이브: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
깃허브: https:RT-DETR
문서: https:RT-DETR

RTDETRv2(실시간 감지 트랜스포머 v2)는 비전 트랜스포머(ViT)의 성능을 활용하여 실시간 성능을 유지하면서 높은 정확도를 달성하는 최첨단 물체 감지기입니다.

아키텍처

RTDETRv2는 하이브리드 접근 방식을 활용합니다:

백본: 일반적으로 초기 특징 추출을 위한 CNN(예: ResNet 변형)입니다.
인코더-디코더: 트랜스포머 기반 인코더-디코더 구조로, 자체 주의 메커니즘을 사용하여 이미지 특징 내에서 글로벌 컨텍스트를 캡처합니다. 이를 통해 모델은 멀리 떨어진 물체와 복잡한 장면 사이의 관계를 더 잘 이해할 수 있습니다.

강점

높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 특히 밀도가 높거나 작은 개체가 있는 복잡한 데이터 세트에서 우수한 mAP 점수를 얻을 수 있습니다.
실시간 기능: 특히 다음과 같은 도구를 사용하여 가속화할 경우 경쟁력 있는 추론 속도를 제공하도록 최적화되었습니다. NVIDIA TensorRT.
강력한 특징 추출: 글로벌 컨텍스트를 효과적으로 캡처하여 오클루전과 같은 까다로운 시나리오에서 더 나은 성능을 제공합니다.

약점

계산 비용: 일반적으로 YOLOv5 비해 파라미터 수와 FLOPs가 더 많으므로 더 많은 연산 리소스GPU 메모리, 처리 능력)가 필요합니다.
훈련 복잡성: 트랜스포머 기반 모델 훈련은 YOLOv5 같은 CNN 기반 모델 훈련보다 리소스 집약적이며 잠재적으로 더 느릴 수 있습니다.
추론 속도: 강력한 하드웨어에서는 실시간이 가능하지만, 특히 CPU나 성능이 낮은 엣지 디바이스에서는 가장 빠른 YOLOv5 변형보다 느릴 수 있습니다.
에코시스템: YOLO 모델에 대해 Ultralytics 제공하는 광범위한 통합 에코시스템, 도구(예: Ultralytics HUB) 및 광범위한 커뮤니티 지원이 부족합니다.

이상적인 사용 사례

RTDETRv2는 정확성이 가장 중요 하고 충분한 계산 리소스를 사용할 수 있는 애플리케이션에 가장 적합합니다:

자율 주행: 자율 주행 차량의 AI를 위한 정밀한 인식.
의료 영상: 의료 분야 AI의 상세한 이상 징후 탐지.
고해상도 이미지 분석: 위성 이미지 또는 산업 검사 데이터 분석(컴퓨터 비전으로 제조 개선).
복잡한 장면 이해: 오클루전이 심하거나 작은 오브젝트가 많은 시나리오.

RTDETRv2에 대해 자세히 알아보기

성능 비교: YOLOv5 vs RTDETRv2

모델	크기 ^(픽셀)	mAPval^50-95	속도 ^{CPU ONNX (ms)}	속도 T4^{TensorRT10 (ms)}	매개변수 ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

이 표는 장단점을 강조합니다:

YOLOv5 모델(특히 n/s/m)은 훨씬 적은 매개변수 수와 FLOP으로 CPU GPU TensorRT 모두에서 훨씬 빠른 추론 속도를 제공하므로 리소스가 제한된 환경에 이상적입니다.
RTDETRv2 모델은 더 높은 최고 mAP 점수(특히 l/x 변형)를 달성하지만 지연 시간과 계산 요구 사항이 증가합니다. 특히, RTDETRv2-s/m은 잠재적으로 더 빠른 TensorRT 속도로 YOLOv5l/x와 경쟁할 수 있는 정확도를 제공하지만 CPU 성능이 부족합니다.

교육 및 에코시스템

Ultralytics YOLOv5 는 손쉬운 교육과 포괄적인 에코시스템이 돋보입니다. 광범위한 문서와 튜토리얼로 뒷받침되는 제공된 CLI 또는 Python API를 사용하여 간단하게 교육할 수 있습니다. Ultralytics 에코시스템은 간소화된 교육 및 배포, 활발한 커뮤니티 지원, 다음과 같은 도구와의 원활한 통합을 위한 Ultralytics HUB와 같은 도구를 제공합니다. Weights & Biases 및 ClearML. 또한, YOLOv5 CNN 아키텍처는 일반적으로 트랜스포머 모델보다 더 적은 GPU 메모리를 필요로 하고 더 빠르게 훈련합니다.

RTDETRv2는 강력하지만 더 복잡한 트랜스포머 아키텍처를 훈련해야 합니다. 따라서 일반적으로 더 많은 연산 리소스(특히 높은 GPU 메모리)와 잠재적으로 더 긴 훈련 시간이 필요합니다. GitHub 리포지토리에서 트레이닝 스크립트를 제공하지만, 주변 에코시스템과 지원 구조는 Ultralytics 제공하는 것보다 덜 광범위합니다.

결론

YOLOv5 RTDETRv2는 모두 객체 감지 기능을 갖춘 모델이지만 우선 순위가 다릅니다.

Ultralytics YOLOv5 는 빠른 속도, 효율성, 사용 편의성, 배포의 다양성이 요구되는 애플리케이션, 특히 엣지 디바이스나 컴퓨팅 리소스가 제한되어 있는 경우에 권장되는 솔루션입니다. 강력한 에코시스템과 낮은 교육 요구 사항으로 개발자와 연구원의 접근성이 높습니다.
최대 정확도가 절대적인 우선순위이고 충분한 계산 리소스(학습 및 추론을 위한 강력한 GPU 포함)를 사용할 수 있는 경우 RTDETRv2가 적합합니다.

대부분의 실용적인 애플리케이션에서 YOLOv5 성능, 속도, 사용성에서 탁월한 균형을 제공하며, Ultralytics 에코시스템의 강력한 지원과 툴링으로 뒷받침됩니다.

다른 모델 살펴보기

대안을 모색하고 있다면, Ultralytics 에코시스템 내의 다른 모델을 고려해 보세요:

YOLOv8: YOLOv5 후속 버전으로 감지, 세분화, 포즈, 추적 등 다양한 작업에서 향상된 정확도와 속도를 제공합니다.
YOLOv10: NMS 없는 교육과 같은 혁신적인 기능을 통해 효율성을 더욱 높일 수 있습니다.
YOLO11: 성능과 효율성의 한계를 뛰어넘는 Ultralytics 최신 버전입니다.

YOLOv8 RTDETRv2 또는 YOLOv10과 RTDETRv2와 같은 모델을 비교하면 프로젝트에 가장 적합한 모델에 대한 추가 인사이트를 얻을 수 있습니다.

📅1 년 전 생성됨 ✏️ 1개월 전 업데이트됨

YOLOv5 RTDETRv2: 상세 모델 비교

YOLOv5: 속도와 효율성

아키텍처

강점

약점

이상적인 사용 사례

RTDETRv2: 높은 정확도의 실시간 탐지

아키텍처

강점

약점

이상적인 사용 사례

성능 비교: YOLOv5 vs RTDETRv2

교육 및 에코시스템

결론

다른 모델 살펴보기

댓글