RTDETRv2 vs YOLOv8: 기술 비교
정확도, 속도 및 계산 비용 간의 균형을 맞추는 올바른 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 이 페이지에서는 Baidu의 트랜스포머 기반 모델인 RTDETRv2와 최첨단 컨볼루션 신경망(CNN) 모델인 Ultralytics YOLOv8라는 두 가지 강력한 아키텍처 간의 자세한 기술 비교를 제공합니다. 프로젝트에 가장 적합한 모델을 선택하는 데 도움이 되도록 아키텍처 차이점, 성능 지표 및 이상적인 사용 사례를 자세히 살펴보겠습니다.
RTDETRv2: 실시간 감지 Transformer v2
RTDETRv2(Real-Time Detection Transformer v2)는 Vision Transformer의 강력한 기능을 활용하여 실시간 성능을 유지하면서 높은 정확도를 달성하는 최첨단 객체 감지기입니다. 이는 속도에 최적화된 기존 DETR(DEtection TRansformer) 아키텍처의 진화를 나타냅니다.
작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
기관: Baidu
날짜: 2023-04-17 (Initial RT-DETR), 2024-07-24 (RT-DETRv2 개선)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처
RTDETRv2는 기존 CNN 백본과 Transformer 기반 인코더-디코더를 결합한 하이브리드 아키텍처를 사용합니다. CNN 백본은 초기 특징 맵을 추출한 다음 트랜스포머에 공급됩니다. 트랜스포머의 self-attention 메커니즘을 통해 모델은 이미지의 여러 부분 간의 전역 관계를 캡처할 수 있습니다. 이러한 전역 컨텍스트 이해는 순수 CNN 기반 모델과의 주요 차별점이며 RTDETRv2가 복잡하고 혼잡한 장면에서 객체를 감지하는 데 탁월한 성능을 발휘할 수 있도록 합니다.
강점
- 높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 특히 글로벌 컨텍스트가 유리한 조밀하거나 작은 객체가 있는 데이터 세트에서 뛰어난 mAP 점수를 달성할 수 있습니다.
- 강력한 특징 추출: 전체 이미지 컨텍스트를 한 번에 처리하여 가려짐 및 복잡한 객체 관계를 더 효과적으로 처리할 수 있습니다.
- GPU에서 실시간: NVIDIA TensorRT와 같은 도구로 가속화하면 RTDETRv2는 고급 GPU에서 실시간 추론 속도를 달성할 수 있습니다.
약점
- 높은 연산 비용: Transformer 기반 모델은 리소스 집약적인 것으로 악명이 높습니다. RTDETRv2는 YOLOv8에 비해 파라미터 수와 FLOPs가 더 높아 더 강력한 하드웨어를 필요로 합니다.
- 느린 학습 속도 및 높은 메모리 사용량: Transformer 학습은 계산 비용이 많이 들고 느립니다. YOLOv8과 같은 CNN 기반 모델보다 훨씬 더 많은 CUDA 메모리가 필요한 경우가 많으므로 하드웨어 리소스가 제한된 사용자는 액세스할 수 없습니다.
- CPU 추론 속도 저하: GPU에서는 빠르지만 CPU에서의 성능은 YOLOv8과 같이 고도로 최적화된 CNN보다 훨씬 낮습니다.
- 제한적인 에코시스템: RTDETRv2는 Ultralytics에서 제공하는 광범위하고 통합된 에코시스템이 부족합니다. 여기에는 더 적은 통합, 덜 포괄적인 문서 및 지원을 위한 더 작은 커뮤니티가 포함됩니다.
Ultralytics YOLOv8: 속도, 다재다능성 및 사용 편의성
Ultralytics YOLOv8은(는) 매우 성공적인 YOLO (You Only Look Once) 제품군의 최신 버전입니다. Ultralytics에서 개발했으며 속도, 정확성 및 사용 편의성에 대한 새로운 표준을 제시하여 광범위한 컴퓨터 비전 작업에 가장 적합한 선택입니다.
작성자: Glenn Jocher, Ayush Chaurasia, Jing Qiu
소속: Ultralytics
날짜: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
문서: https://docs.ultralytics.com/models/yolov8/
아키텍처
YOLOv8은 최첨단 앵커 프리 단일 단계 아키텍처를 특징으로 합니다. 개선된 정확도를 위해 분류 및 회귀 작업을 분리하는 새로운 CSP(Cross Stage Partial) 백본과 분리된 헤드를 활용합니다. 전체 아키텍처는 성능과 효율성 간의 탁월한 균형을 위해 고도로 최적화되어 강력한 클라우드 GPU에서 리소스가 제한된 엣지 장치에 이르기까지 광범위한 하드웨어에서 실행할 수 있습니다.
강점
- 성능 균형: YOLOv8은 속도와 정확도 간의 뛰어난 균형을 제공하여 두 가지 메트릭 모두 중요한 다양한 실제 애플리케이션에 적합합니다.
- 다재다능함: 주로 객체 감지기인 RTDETRv2와 달리 YOLOv8은 객체 감지, 인스턴스 분할, 이미지 분류, 자세 추정 및 방향이 지정된 객체 감지(OBB)를 기본적으로 지원하는 다중 작업 프레임워크입니다.
- 사용 편의성: YOLOv8은 간단한 Python API와 강력한 CLI를 통해 간소화된 사용자 경험을 위해 설계되었습니다. 광범위한 설명서와 활발한 커뮤니티를 통해 개발자가 쉽게 시작할 수 있습니다.
- 학습 효율성 및 낮은 메모리: YOLOv8은 RTDETRv2보다 훨씬 빠르게 학습하고 훨씬 적은 CUDA 메모리를 필요로 합니다. 따라서 사용자 정의 학습에 더 쉽게 접근하고 비용 효율적입니다.
- 잘 관리되는 에코시스템: Ultralytics는 잦은 업데이트, 수많은 통합, 원활한 데이터 세트 관리 및 학습을 위한 Ultralytics HUB와 같은 도구를 갖춘 강력한 에코시스템을 제공합니다.
약점
- 전역 맥락: CNN 기반 아키텍처는 매우 효과적이지만, 극도로 복잡한 객체 관계를 가진 특정 틈새 시나리오에서는 Transformer만큼 전역 맥락을 포괄적으로 파악하지 못할 수 있습니다. 그러나 대부분의 애플리케이션에서 성능은 충분히 뛰어납니다.
정면 성능 비교: RTDETRv2 vs. YOLOv8
성능 비교는 두 모델의 서로 다른 설계 철학을 강조합니다. RTDETRv2는 최대 정확도를 추구하는 반면, YOLOv8은 다양한 하드웨어에서 속도, 정확성 및 효율성의 우수한 균형을 위해 설계되었습니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
표에서 다음과 같은 몇 가지 결론을 내릴 수 있습니다.
- 정확도: 가장 큰 RTDETRv2-x 모델은 mAP에서 YOLOv8x를 약간 앞섭니다. 그러나 전반적으로 YOLOv8 모델은 크기에 비해 매우 경쟁력 있는 정확도를 제공합니다. 예를 들어 YOLOv8l은 더 적은 FLOP으로 RTDETRv2-l에 거의 근접하는 정확도를 보입니다.
- GPU 속도: YOLOv8은 특히 더 작은 변형에서 훨씬 빠릅니다. YOLOv8n은 가장 작은 RTDETRv2 모델보다 3배 이상 빠르므로 높은 프레임 속도 애플리케이션에 이상적입니다. 가장 큰 YOLOv8x 모델조차도 RTDETRv2-x 대응 모델보다 빠릅니다.
- CPU 속도: YOLOv8은 전용 GPU가 없는 많은 에지 장치 및 표준 서버에 배포하는 데 중요한 요소인 CPU 추론에서 엄청난 이점을 보여줍니다.
- 효율성: YOLOv8 모델은 파라미터 및 FLOP 측면에서 훨씬 효율적입니다. YOLOv8x는 더 적은 파라미터와 FLOP으로 RTDETRv2-x와 거의 동일한 정확도를 달성하여 뛰어난 아키텍처 효율성을 보여줍니다.
학습 및 배포
훈련에 있어서는 차이가 뚜렷합니다. RTDETRv2 훈련은 많은 양의 VRAM을 갖춘 고급 GPU를 요구하고 상당한 시간이 걸릴 수 있는 리소스 집약적인 프로세스입니다.
반면, Ultralytics YOLOv8 프레임워크는 학습 효율성을 위해 구축되었습니다. 낮은 메모리 요구 사항으로 빠른 맞춤형 학습이 가능하여 더 광범위한 개발자가 접근할 수 있습니다. 데이터 준비부터 모델 학습 및 검증에 이르기까지 간소화된 워크플로는 중요한 이점입니다.
배포 시 YOLOv8의 다재다능함이 돋보입니다. ONNX, TensorRT, CoreML 및 OpenVINO와 같은 다양한 형식으로 쉽게 내보낼 수 있어 클라우드 서버에서 휴대폰, Raspberry Pi와 같은 임베디드 시스템에 이르기까지 거의 모든 플랫폼에서 최적화된 성능을 보장합니다.
결론: 어떤 모델을 선택해야 할까요?
RTDETRv2는 자율 주행 또는 위성 이미지 분석과 같이 복잡한 객체 감지 작업에서 정확도의 마지막 부분을 짜내야 하는 상당한 계산 리소스를 가진 연구원 및 팀을 위한 강력한 모델입니다.
하지만 대다수의 개발자, 연구원 및 기업에게는 Ultralytics YOLOv8이(가) 명확한 승자입니다. 속도와 정확도의 뛰어난 균형을 제공함으로써 훨씬 더 실용적이고 효과적인 솔루션을 제공합니다. 주요 장점인 다양한 작업에 대한 다재다능성, 사용 편의성, 뛰어난 훈련 효율성, 낮은 리소스 요구 사항, 포괄적이고 잘 지원되는 생태계 덕분에 강력한 실제 컴퓨터 비전 애플리케이션을 빠르고 효율적으로 구축하는 데 이상적인 선택입니다. 고급 서버에 배포하든 저전력 에지 장치에 배포하든 YOLOv8은 확장 가능하고 고성능이며 사용자 친화적인 솔루션을 제공합니다.
다른 모델 살펴보기
다른 모델을 탐색하는 데 관심이 있다면 모델 비교 시리즈에서 추가 비교를 확인해 보세요.
- RT-DETR vs. YOLOv9
- YOLOv8 vs. YOLOv9
- YOLOv8 vs. YOLOv5
- EfficientDet 대 YOLOv8
- YOLOv8 vs. YOLOv7
- YOLOv10 및 YOLO11과 같은 최신 모델을 살펴보세요.