YOLOv10 vs. RT-DETRv2: 객체 감지를 위한 기술 비교
정확도, 속도 및 계산 비용의 균형을 맞추는 올바른 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 이 페이지에서는 매우 효율적인 YOLO 제품군의 최신 진화 모델인 YOLOv10과 높은 정확도에 중점을 둔 변환기 기반 모델인 RT-DETRv2라는 두 가지 최첨단 모델 간의 자세한 기술 비교를 제공합니다. 프로젝트에 가장 적합한 모델을 선택하는 데 도움이 되도록 아키텍처, 성능 지표 및 이상적인 사용 사례를 분석하고, YOLOv10이 대부분의 실제 애플리케이션에 적합한 탁월한 선택인 이유를 강조합니다.
YOLOv10: 매우 효율적인 실시간 감지기
YOLOv10(You Only Look Once v10)은 칭화대학교의 연구원들이 개발한 YOLO 제품군의 최신 진화입니다. 뛰어난 속도와 객체 감지 효율성으로 유명하여 실시간 애플리케이션을 위한 최고의 선택입니다.
- 저자: Ao Wang, Hui Chen, Lihao Liu 외
- 조직: 칭화대학교
- 날짜: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- 문서: https://docs.ultralytics.com/models/yolov10/
아키텍처 및 주요 기능
YOLOv10은 YOLOv8과 같은 이전 Ultralytics YOLO 모델의 유산을 기반으로 엔드 투 엔드 효율성을 위한 중요한 아키텍처 혁신을 도입했습니다. 눈에 띄는 기능은 NMS-free 학습으로, 일관된 이중 할당을 사용하여 Non-Maximum Suppression (NMS) 후처리 필요성을 제거합니다. 이 혁신은 추론 지연 시간을 줄이고 배포 파이프라인을 간소화합니다.
이 모델은 또한 경량 분류 헤드 및 공간-채널 분리 다운샘플링과 같은 구성 요소를 최적화하여 전체적인 효율성-정확도 중심 설계를 특징으로 합니다. 이는 계산 중복성을 줄이고 모델 기능을 향상시키면서 개선된 일반화를 위해 앵커 프리 설계를 유지합니다.
결정적으로, YOLOv10은 Ultralytics 생태계에 완벽하게 통합되어 있습니다. 이는 개발자에게 간소화된 사용자 경험, 간단한 Python API, 광범위한 설명서 및 강력한 커뮤니티를 제공합니다. 이 생태계는 학습에서 배포에 이르기까지 모든 것을 단순화합니다.
성능 분석
YOLOv10은 속도와 정확도 간의 균형에 대한 새로운 기준을 제시합니다. 성능 표에서 볼 수 있듯이 YOLOv10 모델은 훨씬 적은 파라미터와 FLOPs로 유사하거나 더 우수한 정확도를 제공하면서도 RT-DETRv2보다 일관되게 더 나은 속도를 제공합니다. 예를 들어 YOLOv10-S는 7.2M 파라미터와 매우 빠른 2.66ms 지연 시간으로 46.7% mAP를 달성하여 더 큰 RT-DETRv2-S보다 훨씬 효율적입니다. 가장 큰 모델인 YOLOv10-X조차도 RT-DETRv2-X보다 빠르고 가벼우면서도 54.4%의 가장 높은 mAP를 달성합니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
강점과 약점
강점:
- 탁월한 속도 및 효율성: 빠른 추론과 낮은 계산 비용에 최적화되어 실시간 시스템 및 에지 AI에 매우 중요합니다.
- 뛰어난 성능 균형: 확장 가능한 모델 크기(n, s, m, b, l, x) 전반에 걸쳐 속도와 정확성 사이에서 뛰어난 균형을 달성합니다.
- 더 낮은 메모리 요구 사항: RT-DETRv2와 같은 트랜스포머 기반 모델에 비해 훈련 및 추론 중에 훨씬 적은 CUDA 메모리가 필요하므로 접근성이 더 좋습니다.
- 사용 편의성: 간단한 API, 광범위한 문서, 즉시 사용 가능한 사전 학습된 가중치, 효율적인 학습 프로세스를 포함하는 잘 관리된 Ultralytics 생태계의 이점을 활용합니다.
- NMS-Free 설계: 진정한 엔드 투 엔드 배포를 가능하게 하고 추론 지연 시간을 줄입니다.
약점:
- 정확도 절충(소형 모델): 가장 작은 YOLOv10 변형은 속도를 우선시하며 가장 큰 RT-DETRv2 모델보다 정확도가 낮을 수 있지만 크기에 비해 경쟁력이 매우 높습니다.
이상적인 사용 사례
YOLOv10의 속도와 효율성은 광범위한 애플리케이션에 탁월한 선택입니다.
- 실시간 감시: 도난 방지와 같이 보안 시스템에서 빠른 객체 탐지를 위해 사용됩니다.
- Edge AI: NVIDIA Jetson과 같은 모바일, 임베디드 및 IoT 장치에 배포하는 데 적합합니다.
- 소매 분석: 소매 환경에서 실시간 고객 및 재고 분석을 수행합니다.
- 교통 관리: 효율적인 차량 감지 및 교통 분석.
RT-DETRv2: 고정확도 트랜스포머 기반 감지
RT-DETRv2 (Real-Time Detection Transformer v2)는 Baidu의 고급 객체 감지 모델로, transformer 아키텍처를 활용하여 높은 정확도를 우선시합니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organization: Baidu
- 날짜: 2024-07-24 (v2 논문)
- Arxiv: https://arxiv.org/abs/2407.17140
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://docs.ultralytics.com/models/rtdetr/
아키텍처 및 주요 기능
RT-DETRv2는 자체 주의 메커니즘을 사용하여 이미지 내에서 전역 컨텍스트를 캡처하는 DETR (DEtection TRansformer) 프레임워크를 기반으로 합니다. 이를 통해 모델은 많은 겹치는 객체가 있는 복잡한 장면을 이해하는 데 탁월하여 높은 정확도에 기여합니다. 아키텍처의 핵심은 이미지를 패치 시퀀스로 처리하여 장거리 종속성을 효과적으로 모델링할 수 있는 Vision Transformer (ViT) 백본입니다.
성능 분석
RT-DETRv2는 인상적인 최고 mAP 점수를 달성하지만, 상당한 비용이 듭니다. 성능 표에 따르면 모든 유사한 크기에서 RT-DETRv2 모델은 YOLOv10 모델보다 느리고 계산 비용이 더 많이 듭니다. 예를 들어 RT-DETRv2-x의 지연 시간은 15.03ms로, YOLOv10-x의 12.2ms보다 약간 낮은 mAP에도 불구하고 더 느립니다. 또한 트랜스포머 기반 모델은 훈련에 훨씬 더 많은 CUDA 메모리가 필요한 것으로 알려져 있어 하드웨어 리소스가 제한된 사용자가 접근하기 어렵습니다.
강점과 약점
강점:
- 높은 최고 정확도: 트랜스포머 아키텍처를 통해 매우 높은 mAP 점수를 달성할 수 있으므로 정밀도가 최우선인 작업에 적합합니다.
- 강력한 컨텍스트 이해: 전역 이미지 정보를 처리하는 능력으로 인해 복잡하고 복잡한 장면에서 객체 감지에 탁월합니다.
약점:
- 높은 지연 시간: YOLOv10에 비해 추론 속도가 느려 실시간 애플리케이션에는 적합하지 않습니다.
- 높은 계산 비용: 더 많은 파라미터와 FLOP가 필요하므로 더 높은 하드웨어 요구 사항이 필요합니다.
- 큰 메모리 공간: 트랜스포머 모델을 훈련하려면 메모리 집약적이며, 종종 고급 GPU가 필요합니다.
- 복잡한 아키텍처: YOLO 모델의 간단한 설계에 비해 이해, 수정 및 최적화하기가 더 어려울 수 있습니다.
이상적인 사용 사례
RT-DETRv2는 정확성이 가장 중요하고 계산 리소스가 주요 제약 조건이 아닌 특수하고 실시간이 아닌 애플리케이션에 가장 적합합니다.
- 자율 주행: 자율 주행차의 AI에서 정확한 환경 인식을 위해 사용됩니다.
- 고급 로봇 공학: 복잡한 산업 환경에서 정확한 객체 상호 작용을 가능하게 하여 로봇 공학에서 AI의 역할의 기능을 향상시킵니다.
- 의료 영상: 헬스케어 AI에서 상세 분석 및 이상 징후 탐지.
- 고해상도 이미지: 컴퓨터 비전을 사용하여 위성 이미지 분석과 유사하게 위성 또는 항공 이미지 분석용입니다.
결론
YOLOv10과 RT-DETRv2는 모두 강력한 모델이지만, 서로 다른 우선순위를 충족합니다. RT-DETRv2는 충분한 컴퓨팅 리소스를 사용할 수 있는 경우 절대적으로 가장 높은 정확도를 요구하는 애플리케이션을 위한 선택입니다. 트랜스포머 아키텍처는 복잡한 장면 컨텍스트를 캡처하는 데 탁월하지만 더 높은 복잡성, 대기 시간 및 메모리 사용량이라는 비용이 듭니다.
반면, YOLOv10은 속도, 효율성 및 정확성 면에서 훨씬 뛰어난 균형을 제공하므로 대부분의 개발자와 연구원에게 권장되는 선택입니다. 실시간 성능이 뛰어나고, 더 적은 컴퓨팅 리소스가 필요하며, Ultralytics 생태계에서 제공하는 사용 편의성, 광범위한 지원 및 효율적인 워크플로의 이점을 누릴 수 있습니다. 특히 에지 배포와 관련되거나 낮은 지연 시간이 필요한 대부분의 실제 애플리케이션에서 YOLOv10은 경쟁력이 높고 실용적이며 개발자 친화적인 솔루션을 제공합니다.
다른 고성능 객체 감지 모델을 탐색하는 데 관심 있는 사용자는 최신 발전을 위해 Ultralytics YOLO11을 탐색하거나 널리 채택되고 다재다능한 옵션으로 YOLOv8을 고려할 수도 있습니다. 더 많은 비교 자료를 보려면 YOLOv10 vs. YOLOv8 및 RT-DETR vs. YOLO11에 대한 기사를 참조하세요.