YOLOv8 RTDETRv2: 종합적인 기술 비교

빠르게 진화하는 컴퓨터 비전 환경에서 올바른 객체 감지 모델을 선택하는 것은 프로젝트 성공을 위해 매우 중요합니다. 이 비교에서는 다음과 같은 기술적 차이점을 자세히 살펴봅니다. YOLOv8의 다용도 CNN 기반 모델과 Baidu의 정교한 트랜스포머 기반 모델인 RTDETRv2의 기술적 차이점을 살펴봅니다. 아키텍처, 성능 메트릭, 리소스 요구 사항을 분석하여 개발자와 연구자가 특정 요구 사항에 맞는 최적의 솔루션을 찾을 수 있도록 안내합니다.

성능 차이 시각화

아래 차트는 다양한 모델 크기에 따른 속도와 정확도 간의 절충점을 보여 주며, YOLOv8 전반적으로 우수한 효율성을 유지하는 방법을 강조합니다.

성능 분석: 속도 vs. 정확도

다음 표는 주요 메트릭을 직접 비교한 것입니다. RTDETRv2는 가장 큰 모델에서 높은 정확도를 달성하는 반면, YOLOv8 추론 속도와 매개변수 효율성에서 상당한 이점을 보여주며, 특히 트랜스포머 모델이 지연 시간 병목현상에 자주 직면하는 CPU 하드웨어에서 더욱 그러합니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Ultralytics YOLOv8: 다용도성 및 속도의 표준

2023년 초 출시, YOLOv8 은 여러 컴퓨터 비전 작업을 위한 통합 프레임워크를 도입하여 YOLO 제품군에서 중요한 도약을 이룰 것입니다. 속도와 정확성 사이에서 최상의 균형을 제공하도록 설계되어 산업 자동화에서 스마트 시티 인프라에 이르는 다양한 실시간 애플리케이션에 매우 적합합니다.

작성자: Glenn Jocher, Ayush Chaurasia, Jing Qiu
조직:Ultralytics
날짜: 2023-01-10
GitHub:ultralyticsultralytics
Docs:YOLOv8 문서

주요 아키텍처 기능

YOLOv8 앵커가 없는 감지 헤드를 사용해 훈련 과정을 간소화하고 다양한 물체 형태에 대한 일반화를 개선합니다. 이 아키텍처는 효율적인 특징 추출을 위한 교차 단계 부분(CSP) 다크넷 백본과 강력한 멀티스케일 융합을 위한 경로 집계 네트워크(PAN)-FPN 넥을 특징으로 합니다. 다른 경쟁사와 달리 YOLOv8 사용자 친화적인 단일 API 내에서 이미지 분류, 인스턴스 분할, 포즈 추정, 방향성 객체 감지(OBB) 를 기본적으로 지원합니다.

강점

탁월한 효율성: 메모리 사용량과 컴퓨팅 부하를 최적화하여 NVIDIA Jetson 및 Raspberry Pi와 같은 엣지 디바이스에 배포할 수 있습니다.
트레이닝 속도: 트랜스포머 기반 아키텍처에 비해 트레이닝에 필요한 CUDA 메모리와 시간이 훨씬 적습니다.
풍부한 에코시스템: 포괄적인 문서, 활발한 커뮤니티 지원, 다음과 같은 도구와의 원활한 통합이 뒷받침됩니다. TensorRT 및 OpenVINO.
사용 편의성: 개발자는 'pip 설치 ultralytics' 환경을 통해 몇 분 만에 학습 및 예측을 시작할 수 있습니다.

YOLOv8에 대해 자세히 알아보세요

RTDETRv2: 변압기 정확도 향상

RTDETRv2는 실시간 감지 트랜스포머RT-DETR의 진화 버전으로, 비전 트랜스포머(ViT)의 글로벌 컨텍스트 기능을 활용하면서 고유한 지연 시간 문제를 완화하기 위해 개발되었습니다. 이 솔루션은 자체 주의 메커니즘을 활용하여 정확도 벤치마크에서 YOLO 모델을 능가하는 것을 목표로 합니다.

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
조직조직: Baidu
날짜: 2024-07-24(v2 릴리스)
Arxiv:RT-DETRv2 논문
GitHub:RT-DETR

아키텍처 개요

RTDETRv2는 CNN 백본(일반적으로 ResNet)을 사용하여 특징을 추출한 다음 트랜스포머 인코더-디코더로 처리하는 하이브리드 접근 방식을 사용합니다. 자체 주의 메커니즘을 통해 모델은 이미지의 멀리 떨어진 부분 간의 관계를 이해할 수 있으므로 오클루전이 있는 복잡한 장면에서 유용합니다. 버전 2는 이산 샘플링 연산자를 도입하고 동적 훈련 안정성을 개선했습니다.

강점과 약점

강점:
- 글로벌 컨텍스트: 트랜스포머의 특성상 복잡한 오브젝트 관계와 오클루전을 처리하는 데 탁월합니다.
- 높은 정확도: 가장 큰 모델은 YOLOv8x 비해 COCO 데이터 세트에서 약간 더 높은 mAP 점수를 얻습니다.
- Anchor-Free: YOLOv8과(와) 마찬가지로 수동 앵커 박스 튜닝의 필요성을 없앱니다.
약점:
- 리소스 집약적: 높은 FLOP과 매개변수 수로 인해 CPU 속도가 느려지고 트레이닝을 위해 고가의 GPU가 필요합니다.
- 제한된 작업 지원: 주로 객체 감지에 중점을 두며, Ultralytics 프레임워크의 기본 멀티태스크 기능(세분화, 포즈 등)이 부족합니다.
- 복잡한 배포: 트랜스포머 아키텍처는 순수 CNN에 비해 모바일 및 임베디드 타겟에 최적화하기가 더 어려울 수 있습니다.

RTDETRv2에 대해 자세히 알아보세요.

상세 비교: 아키텍처 및 사용성

교육 효율성 및 메모리

가장 뚜렷한 차이점 중 하나는 학습 과정에 있습니다. RTDETRv2와 같은 트랜스포머 기반 모델은 데이터 사용량이 많고 메모리 집약적인 것으로 악명이 높습니다. YOLOv8 같은 CNN에 비해 훨씬 더 많은 CUDA 메모리와 더 긴 훈련 에포크가 필요합니다. GPU 리소스가 제한된 연구자나 스타트업에 적합합니다, Ultralytics YOLOv8 은 훨씬 더 쉽게 접근할 수 있는 진입 장벽을 제공하여 소비자급 하드웨어에서 효율적인 맞춤형 학습이 가능합니다.

다목적성 및 에코시스템

RTDETRv2는 순수 탐지 작업에서는 강력한 학술적 경쟁자이지만, Ultralytics 모델을 둘러싼 전체적인 에코시스템이 부족합니다. YOLOv8 단순한 모델이 아니라 이를 지원하는 플랫폼의 일부입니다:

데이터 관리: 다음과 같은 데이터 세트의 손쉬운 처리 COCO 및 Objects365와 같은 데이터의 손쉬운 처리.
MLOps: 다음과의 통합 Weights & Biases, Comet및 Ultralytics 허브.
배포: 원클릭으로 다음과 같은 형식으로 내보내기 ONNX, CoreML, TFLite 같은 포맷으로 클릭 한 번으로 내보내기하여 다양한 하드웨어를 지원합니다.

하드웨어 고려 사항

배포 대상에 CPU 추론이 필요한 경우(예: 표준 서버, 노트북) 또는 저전력 에지 디바이스, YOLOv8 이 최적화된 CNN 아키텍처로 인해 압도적으로 더 나은 선택입니다. RTDETRv2는 전용 하이엔드 GPU 가속을 사용하는 시나리오에 가장 적합합니다.

이상적인 사용 사례

YOLOv8 선택해야 할 때

YOLOv8 대부분의 실제 배포에 선호되는 선택입니다. 속도, 정확성, 사용 편의성이 균형을 이루고 있기 때문입니다:

실시간 분석: 트래픽 모니터링, 리테일 분석, 스포츠 분석 등 높은 FPS가 중요한 분야에 적합합니다.
엣지 컴퓨팅: 전력과 컴퓨팅 성능이 제한적인 드론, 로봇 또는 모바일 앱에서 AI를 실행합니다.
멀티태스크 애플리케이션: 동시 객체 추적, 세분화, 분류가 필요한 프로젝트.

RTDETRv2를 선택해야 하는 경우

RTDETRv2는 계산 비용이 한계 정확도 향상에 비해 부차적인 문제인 특정 틈새 시장에서 빛을 발합니다:

학술 연구: Vision Transformer의 속성을 연구하는 데 적합합니다.
클라우드 기반 처리: 지연 시간이 어렵고 가려진 물체를 감지하는 것보다 덜 중요한 강력한 서버 팜에서 이미지를 일괄 처리합니다.

코드 예시: YOLOv8 시작하기

Ultralytics API는 단순성을 위해 설계되었습니다. 사전 학습된 모델을 로드하고, 예측을 실행하거나, Python 코드 몇 줄만으로 학습을 시작할 수 있습니다.

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

결론

RTDETRv2는 높은 정확도를 달성하는 데 있어 트랜스포머 아키텍처의 잠재력을 보여줍니다, Ultralytics YOLOv8 은 여전히 실용적인 프로덕션급 컴퓨터 비전을 위한 탁월한 선택입니다. YOLOv8 아키텍처 효율성은 더 빠른 추론, 더 낮은 교육 비용, 더 광범위한 하드웨어 호환성을 제공합니다. 또한, 강력한 Ultralytics 에코시스템은 개발자가 AI 솔루션을 효율적으로 구현하는 데 필요한 도구, 문서, 커뮤니티 지원을 제공합니다.

최고의 성능과 효율성을 원하는 분들을 위해 다음과 같은 제품도 살펴볼 것을 권장합니다. YOLO11는 정확도와 속도 간의 균형을 더욱 개선하여 기존의 YOLO 더욱 개선한 버전입니다.

다른 모델 살펴보기

Ultralytics 에코시스템 내에서 더 많은 옵션을 탐색하거나 다른 SOTA 모델을 비교하는 데 관심이 있다면 다음 리소스를 확인하세요:

YOLO11: 최첨단 YOLO 모델입니다.
YOLOv10: 실시간 엔드 투 엔드 객체 detector입니다.
RT-DETR: 오리지널 Real-Time Detection Transformer입니다.
YOLOv9: 프로그래밍 가능한 그라데이션 정보에 중점을 둡니다.