RTDETRv2와 YOLOv5: 기술 비교

빠르게 진화하는 객체 감지 환경에서 올바른 모델을 선택하려면 아키텍처 복잡성, 추론 속도, 실제 사용성 사이에서 절충점을 찾아야 하는 경우가 많습니다. 이 가이드에서는 Baidu의 트랜스포머 기반 실시간 검출기인 RTDETRv2와 다음을 포괄적인 기술 비교를 제공합니다. YOLOv5와 다재다능하고 널리 채택된 것으로 유명한 Ultralytics 전설적인 CNN 기반 모델입니다.

성능 분석: 속도 vs. 정확도

이 두 모델의 근본적인 차이점은 아키텍처 철학에 있습니다. RTDETRv2는 비전 트랜스포머(ViT) 접근 방식을 사용하여 글로벌 컨텍스트를 캡처하고 벤치마크에서 최대한의 정확도를 목표로 합니다. 반면, YOLOv5 고도로 최적화된 컨볼루션 신경망(CNN) 설계를 활용하여 다양한 하드웨어에 걸쳐 속도, 효율성, 배포 용이성 간의 균형을 우선시합니다.

아래 표는 이러한 차이를 보여줍니다. RTDETRv2는 COCO 데이터 세트에서 높은 mAP 점수를 달성하지만, 훨씬 더 많은 계산 리소스를 필요로 합니다. YOLOv5 특히 더 작은 버전(Nano 및 Small)의 경우 CPU에서 훨씬 빠른 추론 속도와 훨씬 적은 메모리 공간을 제공하므로 실제 애플리케이션에서 실용적인 선택이 될 수 있습니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

메모리 효율성

YOLOv5 RTDETRv2와 같은 트랜스포머 기반 모델에 비해 트레이닝에 훨씬 적은 CUDA 메모리를 필요로 합니다. 이렇게 진입 장벽이 낮기 때문에 개발자는 표준 소비자용 GPU 또는 Google Colab과 같은 클라우드 기반 환경에서도 메모리 부족(OOM) 오류 없이 맞춤형 모델을 훈련할 수 있습니다.

RTDETRv2: 트랜스포머 챌린저

RTDETRv2(실시간 감지 트랜스포머 v2)는 트랜스포머의 정확도 이점을 실시간 시나리오에 적용하기 위한 노력의 결과물입니다. 하이브리드 아키텍처를 사용하여 일반적으로 비전 트랜스포머와 관련된 높은 컴퓨팅 비용을 완화하려고 시도합니다.

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organization: Baidu
날짜: 2023-04-17
Arxiv:2304.08069
GitHub:RT-DETR 리포지토리
Docs:RTDETRv2 문서

아키텍처 및 강점

RTDETRv2는 효율적인 특징 추출을 위한 CNN 백본과 트랜스포머 인코더-디코더를 결합합니다. 이러한 설계를 통해 모델은 자체 주의 메커니즘을 활용하여 객체 간의 글로벌 관계를 이해할 수 있으며, 이는 오클루전이나 혼잡이 있는 복잡한 장면에서 유용하게 사용될 수 있습니다. 이 모델의 주요 강점은 학술 벤치마크에서 높은 정확도로, 순수 mAP 메트릭에서 비슷한 규모의 CNN 기반 모델을 능가하는 경우가 많다는 점입니다.

약점

정확성에도 불구하고 RTDETRv2는 다목적성과 사용 편의성 측면에서 어려움을 겪고 있습니다. 트랜스포머 아키텍처는 본질적으로 무겁기 때문에 훈련 시간이 느려지고 메모리 소비가 증가합니다. 또한 이 아키텍처의 생태계는 주로 연구 중심이며, 보다 성숙한 프레임워크에서 볼 수 있는 광범위한 툴링, 배포 지원, 커뮤니티 리소스가 부족합니다. 또한 최신 프로젝트에서는 동일한 파이프라인 내에서 세분화 또는 분류가 필요한 경우가 많은 반면, 주로 객체 감지에만 제한되어 있습니다.

RTDETRv2에 대해 자세히 알아보세요.

Ultralytics YOLOv5: 다용도 표준

YOLOv5 가장 실용적이고 사용자 친화적인 컴퓨터 비전 모델 중 하나로 널리 알려져 있습니다. Ultralytics 구축한 이 모델은 간소화된 '훈련, 배포, 완료' 경험을 우선시하여 애호가부터 엔터프라이즈 엔지니어까지 누구나 고급 AI에 액세스할 수 있도록 합니다.

작성자: Glenn Jocher
조직:Ultralytics
날짜: 2020-06-26
GitHub:YOLOv5 리포지토리
Docs:YOLOv5 문서

YOLOv5 돋보이는 이유

YOLOv5 머신 러닝 작업(MLOps)에 대한 총체적인 접근 방식이 뛰어납니다. 단순한 모델 아키텍처가 아니라 완전한 에코시스템입니다.

사용의 용이성: 간단한 Python API와 명령줄 인터페이스를 통해 사용자는 몇 분 안에 사용자 지정 데이터에 대한 교육을 시작할 수 있습니다.
성능 균형: 모델 제품군(나노부터 X-라지까지)은 속도와 정확도의 완벽한 그라데이션을 제공하므로 사용자는 NVIDIA Jetson 또는 Raspberry Pi와 같은 특정 하드웨어에 맞게 선택할 수 있습니다.
다용도성: RTDETRv2와 달리 YOLOv5 기본적으로 이미지 분류 및 인스턴스 분할을 포함한 여러 작업을 지원하므로 다양한 비전 작업에 대해 별도의 코드베이스를 유지 관리할 필요가 줄어듭니다.
내보내기 기능: Ultralytics 내보내기를 위한 기본 지원을 제공합니다. ONNX, TensorRT, CoreML 및 TFLite 내보내기를 기본적으로 지원하므로 모바일 앱에서 클라우드 서버에 이르기까지 어디에서나 모델을 배포할 수 있습니다.

YOLOv5에 대해 자세히 알아보세요

사용 예시

YOLOv5 단순성을 위해 설계되었습니다. 아래는 사전 학습된 모델을 로드하고 PyTorch Hub를 사용하여 추론을 실행하는 방법의 예시로, Ultralytics 유명한 직관적인 API를 보여줍니다.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Define an image URL
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

교육 및 에코시스템 비교

개발자 경험은 종종 원시 모델 성능만큼이나 중요합니다. 여기서는 그 차이가 극명하게 드러납니다.

교육 효율성

YOLOv5 계산 효율이 높은 앵커 기반 탐지기를 사용해 훈련합니다. Ultralytics 프레임워크에는 모자이크 증강 및 자동 앵커 진화 같은 '공짜 백'이 포함되어 있어 모델이 더 빠르게 수렴하고 더 적은 데이터로 더 잘 일반화할 수 있도록 도와줍니다. 반대로 RTDETRv2 훈련은 트랜스포머의 주의 계층이 4차원적으로 복잡하기 때문에 리소스 집약적이며, 상당한 VRAM을 갖춘 하이엔드 GPU가 필요한 경우가 많습니다.

에코시스템 지원

Ultralytics 에코시스템은 뚜렷한 이점을 제공합니다. 사용자는 다음과 같은 혜택을 누릴 수 있습니다:

활발한 개발: 잦은 업데이트를 통해 최신 버전의 PyTorch 및 CUDA 호환성을 보장합니다.
커뮤니티 지원: GitHub와 Discord의 대규모 커뮤니티를 통해 문제를 신속하게 해결할 수 있습니다.
통합 도구: Ultralytics HUB와 같은 도구와 원활하게 통합되어 코드 없이 모델 학습, 데이터 세트 관리, 원클릭 배포가 가능합니다.

RTDETRv2는 기술적으로는 인상적이지만 이러한 수준의 주변 인프라가 부족하기 때문에 프로덕션 파이프라인에 통합하기가 더 어렵습니다.

이상적인 사용 사례

올바른 모델을 선택하는 것은 특정 제약 조건과 목표에 따라 다릅니다.

RTDETRv2를 선택해야 하는 경우

학술 연구: COCO 같은 데이터 세트에 최첨단 mAP 숫자를 푸시하는 것이 목표이고 플래그십 GPU(예: A100)에 액세스할 수 있는 경우.
복잡한 컨텍스트: 멀리 떨어져 있는 객체 간의 관계를 이해하는 것이 추론 속도나 하드웨어 비용보다 더 중요한 시나리오입니다.

YOLOv5 선택해야 하는 경우

엣지 배포: 모바일 디바이스, 드론 또는 임베디드 시스템에서 CPU 속도와 전력 효율성이 가장 중요한 애플리케이션에 적합합니다.
실시간 프로덕션: 짧은 지연 시간이 중요한 보안 경보 시스템 또는 트래픽 모니터링에 전력을 공급합니다.
신속한 개발: 데이터 수집부터 배포된 모델까지 빠르게 반복해야 하는 스타트업과 엔터프라이즈 팀은 YOLOv5 워크플로우가 훨씬 더 빠르다는 것을 알게 될 것입니다.
멀티태스크 요구 사항: 탐지 및 세분화가 모두 필요한 프로젝트는 단일 프레임워크를 사용하여 기술 스택을 간소화할 수 있습니다.

최신 기술을 찾고 계신가요?

YOLOv5 여전히 강력한 도구이지만, 최신 성능과 아키텍처를 원하는 개발자는 다음을 확인해야 합니다. YOLO11. YOLO11 YOLOv5 레거시를 기반으로 구축되어 훨씬 더 높은 정확도와 빠른 속도, 포즈 추정 및 OBB(방향성 객체 감지)와 같은 확장된 기능을 제공합니다.

결론

RTDETRv2와 YOLOv5 모두 컴퓨터 비전 엔지니어의 무기고에 있는 강력한 툴입니다. RTDETRv2는 높은 정확도의 검출을 위한 트랜스포머의 잠재력을 보여주며, 충분한 컴퓨팅 리소스가 필요한 연구 중심 애플리케이션에 강력한 경쟁자가 될 것입니다.

그러나 실제 배포의 대부분은 실제 환경에서 이루어집니다, Ultralytics YOLOv5 가 여전히 탁월한 선택입니다. 탁월한 사용 편의성, 에코시스템 성숙도, 다용도성 덕분에 신뢰할 수 있는 고속 결과가 필요한 개발자에게 가장 적합한 솔루션입니다. 클라우드에 배포하든 에지에 배포하든, Ultralytics 제공하는 효율성과 지원은 개념에서 프로덕션까지 보다 원활한 경로를 보장합니다.

다른 모델 비교 살펴보기

가장 현명한 결정을 내릴 수 있도록 이러한 모델이 해당 분야의 다른 아키텍처와 어떻게 비교되는지 살펴보세요: