RTDETRv2와 YOLOv8: 기술 비교
빠르게 진화하는 컴퓨터 비전 환경에서 올바른 물체 감지 모델을 선택하는 것은 프로젝트 성공을 위해 매우 중요합니다. 현재 이 분야를 지배하고 있는 두 가지 아키텍처 철학은 RTDETRv2로 대표되는 트랜스포머 기반 접근 방식과 다음과 같이 고도로 최적화된 컨볼루션 신경망(CNN) 디자인으로 대표되는 두 가지 아키텍처 철학입니다. Ultralytics YOLOv8.
RTDETRv2는 비전 트랜스포머를 사용하여 정확도의 한계를 뛰어넘는 반면, YOLOv8 속도, 정밀도, 배포 용이성 간의 균형을 개선합니다. 이 비교에서는 기술 사양, 아키텍처 차이점, 실제 성능 메트릭을 살펴보고 개발자와 연구자가 애플리케이션에 맞는 최적의 솔루션을 선택하는 데 도움을 줍니다.
성능 지표: 속도, 정확성 및 효율성
성능 환경에는 뚜렷한 절충점이 있습니다. RTDETRv2는 복잡한 주의 메커니즘을 통해 평균 평균 정밀도mAP를 극대화하는 데 중점을 두는 반면, YOLOv8 엣지 및 클라우드 배포에 적합한 실시간 추론 속도와 높은 정확도 간의 다목적 균형을 우선시합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
결과 분석
이 데이터를 통해 배포 전략에 대한 몇 가지 중요한 인사이트를 확인할 수 있습니다:
- 계산 효율성: YOLOv8 뛰어난 효율성을 보여줍니다. 예를 들어 YOLOv8l 은 GPU 더 빠른 추론 속도로 작동하면서 정확도(52. mAP)에서 RTDETRv2-l(53. mAP)과 거의 동등한 수준(52. mAP)을 달성합니다.
- CPU 성능: YOLOv8 CPU 하드웨어에서 문서화되고 강력한 성능을 제공하므로 전용 가속기가 없는 엣지 AI 디바이스에 실용적인 선택이 될 수 있습니다. CPU 대한 RTDETRv2 벤치마크는 트랜스포머 레이어의 계산 비용이 많이 들기 때문에 사용할 수 없는 경우가 많습니다.
- 파라미터 효율성: YOLOv8 모델은 경쟁력 있는 결과를 얻기 위해 지속적으로 더 적은 수의 파라미터와 부동 소수점 연산(FLOPs)을 필요로 하므로 메모리 소비와 훈련 시간이 단축됩니다.
하드웨어 고려 사항
배포 대상에 표준 CPU(예: Intel 프로세서) 또는 임베디드 디바이스(예: 라즈베리 파이)가 포함된 경우, YOLOv8 CNN 기반 아키텍처는 변압기가 많은 RTDETRv2의 작업보다 지연 시간에서 상당한 이점을 제공합니다.
RTDETRv2: 트랜스포머를 이용한 실시간 감지
RTDETRv2(실시간 감지 트랜스포머 v2)는 물체 감지에 비전 트랜스포머(ViT)를 적용하는 지속적인 진화를 나타냅니다. 바이두의 연구원들이 개발한 이 제품은 글로벌 컨텍스트를 이해하는 능력을 유지하면서 기존 DETR 기반 모델과 관련된 지연 문제를 해결하는 것을 목표로 합니다.
저자 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, andi Liu
조직:Baidu
날짜: 2024-07-24(v2 릴리스)
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
아키텍처
RTDETRv2는 효율적인 트랜스포머 인코더-디코더와 백본 (일반적으로 ResNet과 같은 CNN)을 결합한 하이브리드 아키텍처를 활용합니다. 핵심 기능은 스케일 내 상호 작용과 스케일 간 융합을 분리하여 모델이 이미지 전체에서 장거리 종속성을 캡처하는 데 도움이 되는 것입니다. 이를 통해 모델이 장면의 여러 부분을 동시에 '인식'할 수 있으므로 복잡한 환경에서 잠재적으로 성능을 향상시킬 수 있습니다.
강점과 약점
RTDETRv2의 주요 강점은 글로벌 컨텍스트가 중요한 복잡한 데이터 세트에 대한 높은 정확도에 있습니다. 개체 쿼리를 위해 앵커 박스를 사용하지 않음으로써 비최대 억제NMS의 필요성을 제거하여 후처리 파이프라인을 간소화합니다.
하지만 이러한 혜택에는 대가가 따릅니다:
- 리소스 집약도: 이 모델은 CNN에 비해 훈련에 훨씬 더 많은 GPU 메모리를 필요로 합니다.
- 느린 컨버전스: 트랜스포머 기반 모델은 일반적으로 컨버전스까지 훈련하는 데 시간이 더 오래 걸립니다.
- 제한된 활용성: 주로 바운딩 박스 감지용으로 설계되어 세분화나 포즈 추정에 대한 기본 지원이 부족합니다.
Ultralytics YOLOv8: 속도, 다양성 및 에코시스템
Ultralytics YOLOv8 은 업계에서 다용도성과 사용 편의성의 표준을 제시하는 앵커가 필요 없는 최첨단 물체 감지 모델입니다. 이 제품은 YOLO 제품군의 유산을 기반으로 구축되었으며, YOLO 유명하게 만든 실시간 속도를 유지하면서 성능을 향상시키는 아키텍처 개선 사항을 도입했습니다.
저자 저자: 글렌 조처, 아유시 차우라시아, 징 치우
조직:Ultralytics
날짜: 2023-01-10
GitHubultralytics
Docsyolov8
아키텍처
YOLOv8 분리된 탐지 헤드로 정점을 이루는 CSP(크로스 스테이지 부분) 다크넷 백본과 PANet(경로 집계 네트워크) 넥을 특징으로 합니다. 이 아키텍처는 앵커가 없어 객체 중심을 직접 예측하므로 설계가 간소화되고 일반화가 향상됩니다. 이 모델은 tensor 처리 장치와 GPU에 고도로 최적화되어 최대 처리량을 보장합니다.
개발자를 위한 주요 이점
- 사용 편의성: Python API와 강력한 CLI 통해 사용자는 단 몇 줄의 코드만으로 모델을 훈련하고 배포할 수 있습니다. 포괄적인 설명서를 통해 초보자와 전문가 모두 진입 장벽을 낮출 수 있습니다.
- 잘 관리된 에코시스템: Ultralytics 지원을 받는 YOLOv8 빈번한 업데이트, 커뮤니티 지원, TensorBoard 및 MLFlow와 같은 도구와의 원활한 통합의 이점을 누리고 있습니다.
- 다목적성: RTDETRv2와 달리 YOLOv8 인스턴스 분할, 포즈 추정, 분류, 방향성 물체 감지(OBB) 등 다양한 작업을 기본적으로 지원합니다.
- 훈련 효율성: 이 모델은 더 낮은 CUDA 메모리 요구 사항으로 빠르게 훈련하도록 설계되어 하드웨어 예산이 제한된 연구자들도 사용할 수 있습니다.
심층 분석: 아키텍처 및 사용 사례
이 두 모델 중 선택은 애플리케이션 환경의 특정 요구 사항에 따라 달라지는 경우가 많습니다.
건축 철학
YOLOv8 지역적 특징과 공간 계층 구조를 효율적으로 처리하는 데 탁월한 합성곱 신경망(CNN)을 사용합니다. 따라서 본질적으로 더 빠르고 메모리를 덜 소모합니다. RTDETRv2는 트랜스포머에 의존하기 때문에 글로벌 관계를 효과적으로 모델링할 수 있지만 이미지 크기에 따라 이차적 복잡성이 발생하여 특히 고해상도에서 지연 시간과 메모리 사용량이 증가합니다.
이상적인 사용 사례
언제 YOLOv8 선택하세요:
- 실시간 성능은 매우 중요합니다: 자율 주행, 비디오 분석, 제조 품질 관리와 같은 애플리케이션에는 짧은 지연 시간이 필요합니다.
- 하드웨어의 제약이 있습니다: YOLOv8 사용하면 NVIDIA Jetson, Raspberry Pi 또는 모바일 장치에 원활하게 배포할 수 있습니다.
- 멀티태스킹이 필요한 경우: 프로젝트에서 오브젝트를 세분화하거나 키포인트를 추적하는 동시에 감지해야 하는 경우, YOLOv8 통합 프레임워크를 제공합니다.
- 빠른 개발 주기: Ultralytics 에코시스템은 데이터 라벨링, 교육 및 배포를 가속화합니다.
언제 RTDETRv2를 선택합니다:
- 최대 정확도가 유일한 지표입니다: 학술적 벤치마크 또는 무한한 컴퓨팅을 사용할 수 있고 mAP 모든 부분이 중요한 시나리오의 경우.
- 복잡한 오클루전: 멀리 떨어진 픽셀 간의 관계를 이해하는 것이 중요한 매우 복잡한 장면에서는 글로벌 어텐션 메커니즘이 약간의 우위를 점할 수 있습니다.
비교 요약
RTDETRv2는 변압기를 탐지에 적용하는 데 있어 흥미로운 학문적 발전을 보여줍니다, YOLOv8 은 여전히 대부분의 실용적인 애플리케이션에 가장 적합한 선택입니다. 속도, 정확성, 효율성의 균형은 타의 추종을 불허합니다. 또한 사용자 친화적인 단일 라이브러리 내에서 여러 컴퓨터 비전 작업을 수행할 수 있어 최신 AI 개발을 위한 다용도 툴로 활용할 수 있습니다.
최신 성능과 기능 세트를 원하는 개발자의 경우 다음과 같은 최신 반복 작업을 찾고 있습니다. YOLO11 와 같은 최신 반복을 사용하면 YOLOv8 및 RTDETRv2보다 훨씬 더 높은 효율성과 정확도를 얻을 수 있습니다.
코드 예시: YOLOv8 시작하기
YOLOv8 워크플로에 통합하는 방법은 간단합니다. 다음은 사전 학습된 모델을 로드하고, 추론을 실행하고, 배포를 위해 내보내는 방법을 보여주는 Python 예제입니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")
# Export the model to ONNX format for deployment
success = model.export(format="onnx")
다른 모델 살펴보기
객체 감지 아키텍처에 대한 더 넓은 관점을 얻으려면 다음과 같은 관련 비교를 살펴보세요: