YOLOv8 vs RTDETRv2: 기술 비교
적합한 객체 감지 모델을 선택하려면 정확도, 속도 및 계산 비용 간의 균형을 고려해야 합니다. 이 페이지에서는 두 가지 강력한 모델인 YOLO 제품군의 최첨단 모델인 Ultralytics YOLOv8과 Baidu의 실시간 감지 트랜스포머인 RTDETRv2 간의 자세한 기술 비교를 제공합니다. 두 모델 모두 뛰어난 성능을 제공하지만 근본적으로 다른 아키텍처 원칙을 기반으로 구축되어 서로 다른 애플리케이션에 적합합니다.
Ultralytics YOLOv8: 다재다능하고 효율적인 표준
Ultralytics YOLOv8은(는) 매우 성공적인 YOLO 시리즈의 최신 장기 지원(LTS) 모델입니다. 이전 모델의 혁신을 기반으로 사용 편의성, 속도 및 다재다능성을 우선시하면서 뛰어난 성능을 제공합니다.
기술 세부 사항:
- 작성자: Glenn Jocher, Ayush Chaurasia, Jing Qiu
- 조직: Ultralytics
- 날짜: 2023-01-10
- GitHub: https://github.com/ultralytics/ultralytics
- 문서: https://docs.ultralytics.com/models/yolov8/
아키텍처 및 주요 기능
YOLOv8은 고도로 최적화된 앵커 프리 단일 단계 아키텍처를 특징으로 합니다. 효율적인 특징 추출을 위해 CSPDarknet53에서 영감을 얻은 백본을 사용하고 특징 융합을 향상시키기 위해 넥(neck) 부분에 C2f(2개의 컨볼루션이 있는 Cross Stage Partial Bottlebeck) 모듈을 사용합니다. 이 설계는 빠르고 정확할 뿐만 아니라 계산 효율적인 모델을 만듭니다.
YOLOv8의 주요 장점은 포괄적인 Ultralytics 생태계에 통합되었다는 점입니다. 이를 통해 간단한 Python API 및 CLI, 광범위한 문서 및 활발한 커뮤니티 지원을 통해 간소화된 사용자 경험을 제공합니다.
강점
- 성능 균형: YOLOv8은 속도와 정확도 간의 뛰어난 균형을 달성하여 고성능 클라우드 서버에서 리소스가 제한된 엣지 장치에 이르기까지 광범위한 실제 배포 시나리오에 적합합니다.
- 사용 편의성: 이 모델은 매우 사용자 친화적이며, 학습, 검증 및 배포를 위한 간단한 워크플로우를 제공합니다. 잘 관리된 에코시스템에는 노코드 학습 및 MLOps 관리를 위한 Ultralytics HUB와 같은 도구가 포함되어 있습니다.
- 다재다능함: 주로 객체 감지기인 RTDETRv2와 달리 YOLOv8은 단일 통합 프레임워크 내에서 객체 감지, 인스턴스 분할, 이미지 분류, 자세 추정 및 방향이 지정된 객체 감지(OBB)를 지원하는 다중 작업 모델입니다.
- 학습 및 메모리 효율성: YOLOv8은 즉시 사용 가능한 사전 학습된 가중치를 통해 효율적인 학습 프로세스를 위해 설계되었습니다. RTDETRv2와 같은 트랜스포머 기반 모델과 비교했을 때, YOLOv8은 일반적으로 훨씬 적은 CUDA 메모리를 필요로 하고 더 빠르게 수렴하므로, 계산 비용과 개발 시간을 줄여줍니다.
약점
- 매우 정확하지만, 가장 큰 트랜스포머 기반 모델은 객체가 밀집된 특정 복잡한 데이터 세트에서 약간 더 높은 mAP를 달성할 수 있지만, 이는 종종 훨씬 더 높은 지연 시간과 리소스 요구 사항을 필요로 합니다.
이상적인 사용 사례
YOLOv8은 속도, 정확성 및 다재다능함의 균형을 이루어 다음과 같은 용도에 이상적입니다.
- 실시간 애플리케이션: 비디오 감시, 보안 시스템 및 교통 관리.
- Edge Computing: 컴퓨팅 리소스가 제한된 Raspberry Pi 및 NVIDIA Jetson과 같은 장치에 배포합니다.
- 산업 자동화: 품질 관리 및 재고 관리와 같은 작업에 사용됩니다.
- 다중 작업 솔루션: 피트니스 애플리케이션을 위해 감지와 자세 추정을 결합하는 것과 같이 객체 감지 이상의 기능이 필요한 프로젝트입니다.
RTDETRv2: 트랜스포머를 이용한 실시간 감지
RTDETRv2(Real-Time Detection Transformer v2)는 Baidu에서 개발한 최첨단 객체 감지기로, Vision Transformer의 강력한 기능을 활용하여 강력한 하드웨어에서 실시간 성능을 유지하면서 높은 정확도를 달성합니다.
기술 세부 사항:
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- Organization: Baidu
- 날짜: 2023-04-17 (최초 RT-DETR), 2024-07-24 (RT-DETRv2 개선)
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 기능
RTDETRv2는 초기 특징 추출을 위한 CNN 백본(예: ResNet)과 Transformer 기반 인코더-디코더를 결합한 하이브리드 아키텍처를 사용합니다. 트랜스포머의 self-attention 메커니즘을 통해 모델은 이미지에서 전역 컨텍스트와 객체 간의 장거리 종속성을 캡처할 수 있으며, 이는 복잡하거나 혼잡한 장면에서 객체를 감지하는 데 유용할 수 있습니다.
강점
- 높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 특히 작거나 가려진 객체가 많은 복잡한 데이터 세트에서 뛰어난 mAP 점수를 달성합니다.
- 강력한 특징 추출: 전역 이미지 컨텍스트를 처리하는 능력은 까다로운 감지 시나리오에서 강력한 성능을 제공합니다.
- GPU에서 실시간: 이 모델은 NVIDIA TensorRT와 같은 도구를 사용하여 고급 GPU에서 가속화할 때 경쟁력 있는 추론 속도를 제공하도록 최적화되었습니다.
약점
- 계산 비용: RTDETRv2는 일반적으로 유사한 YOLOv8 모델보다 더 많은 파라미터 수와 FLOPs를 가지므로 더 많은 컴퓨팅 자원, 특히 GPU 메모리를 요구합니다.
- 학습 복잡성: 트랜스포머 기반 모델 학습은 악명 높을 정도로 리소스 집약적이며 YOLOv8과 같은 CNN 기반 모델 학습보다 훨씬 느리고 더 많은 메모리가 필요할 수 있습니다.
- 추론 속도: 강력한 GPU에서는 빠르지만, CPU 또는 덜 강력한 에지 장치에서는 성능이 크게 저하되어 광범위한 하드웨어에 적합하지 않습니다.
- 제한적인 활용성: RTDETRv2는 주로 객체 탐지를 위해 설계되었으며 YOLOv8에서 제공하는 세분화, 분류, 포즈 추정에 대한 기본 멀티태스킹 지원이 부족합니다.
- Ecosystem: Ultralytics와 같이 통합되고 사용자 친화적인 에코시스템의 이점을 누릴 수 없어 개발자가 훈련, 배포 및 유지 관리를 더 복잡하게 수행해야 할 수 있습니다.
이상적인 사용 사례
RTDETRv2는 다음에 가장 적합합니다.
- 높은 정확도 시나리오: 복잡한 데이터 세트에서 가능한 가장 높은 mAP를 달성하는 것이 주요 목표이고 충분한 GPU 리소스를 사용할 수 있는 애플리케이션입니다.
- 학술 연구: 객체 감지를 위한 Transformer 기반 아키텍처의 기능을 탐색합니다.
- 클라우드 기반 배포: 전용 GPU 가속을 통해 강력한 클라우드 서버에서 추론이 수행되는 시스템에 적합합니다.
성능 분석: 속도, 정확도 및 효율성
YOLOv8과 RTDETRv2를 비교할 때 각 모델이 고유한 강점을 가지고 있다는 것이 분명합니다. 아래 표는 가장 큰 RTDETRv2 모델이 mAP에서 YOLOv8x를 약간 앞지르는 반면 YOLOv8 모델은 일관되게 속도, 정확도 및 효율성의 더 나은 균형을 제공함을 보여줍니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv8은 특히 CPU에서 모든 모델 크기에 걸쳐 뛰어난 속도를 보여주며, RTDETRv2에 대한 공식 벤치마크는 제공되지 않습니다. 예를 들어 YOLOv8l은 T4 GPU에서 단 9.06ms의 대기 시간으로 52.9 mAP를 달성하는 반면, 약간 더 정확한 RTDETRv2-l(53.4 mAP)은 9.76ms로 더 느립니다. 이러한 효율성 덕분에 YOLOv8은 실시간 추론이 필요한 애플리케이션에 더욱 실용적인 선택입니다.
결론: 어떤 모델을 선택해야 할까요?
RTDETRv2는 트랜스포머의 높은 정확도 객체 감지 가능성을 보여주는 인상적인 모델로, 풍부한 계산 리소스를 갖춘 연구 및 특수 애플리케이션에 강력한 선택입니다.
그러나 대다수의 개발자, 연구원 및 기업에게 Ultralytics YOLOv8이 최고의 선택입니다. 속도와 정확도의 뛰어난 균형을 제공하고 계산 효율성이 훨씬 높으며 사용하기가 훨씬 쉽습니다. 여러 컴퓨터 비전 작업에서 다재다능함과 강력하고 잘 관리되는 생태계가 결합되어 실제 AI 시스템을 구축하고 배포하기 위한 더욱 실용적이고 비용 효율적이며 강력한 솔루션입니다. 최신 발전을 원하는 사람들을 위해 YOLO11과 같은 최신 모델은 이러한 장점을 더욱 강화합니다.
다른 모델 살펴보기
더 자세한 내용을 알아보려면 YOLOv8, RTDETRv2 및 기타 관련 모델과 관련된 다음 비교를 살펴보십시오.
- RT-DETR vs YOLOv7
- YOLOv8 vs YOLOv7
- YOLOv8 vs YOLOv9
- EfficientDet 대 YOLOv8
- YOLOv10 및 YOLO11과 같은 최신 모델을 살펴보세요.