RTDETRv2 vs. YOLO11: 기술 비교
올바른 객체 감지 모델을 선택하는 것은 모든 컴퓨터 비전 프로젝트의 성능, 효율성 및 확장성에 직접적인 영향을 미치는 중요한 결정입니다. 이 페이지에서는 Baidu의 트랜스포머 기반 모델인 RTDETRv2와 유명한 YOLO 시리즈의 최신 최첨단 모델인 Ultralytics YOLO11라는 두 가지 강력한 아키텍처 간의 자세한 기술 비교를 제공합니다. 어떤 모델이 귀하의 요구 사항에 가장 적합한지 결정하는 데 도움이 되도록 아키텍처 차이점, 성능 지표 및 이상적인 사용 사례를 자세히 살펴보겠습니다.
RTDETRv2: 실시간 감지 Transformer v2
RTDETRv2(Real-Time Detection Transformer v2)는 Baidu의 연구원들이 개발한 객체 감지기입니다. 특히 복잡한 장면에서 높은 정확도를 달성하기 위해 Vision Transformer(ViT) 아키텍처를 활용합니다. 이는 트랜스포머 기반 모델을 실시간 애플리케이션에 적용할 수 있도록 만드는 데 중요한 진전을 나타냅니다.
작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
기관: Baidu
날짜: 2023-04-17 (Initial RT-DETR), 2024-07-24 (RTDETRv2 개선)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 기능
RTDETRv2는 효율적인 특징 추출을 위한 기존 CNN 백본과 Transformer 기반 인코더-디코더를 결합한 하이브리드 설계를 사용합니다. 핵심 혁신은 self-attention 메커니즘의 사용에 있으며, 이를 통해 모델은 이미지의 여러 부분 간의 전역 관계를 캡처할 수 있습니다. 이러한 전역 컨텍스트 이해는 특히 가려지거나 빽빽하게 포장된 객체의 감지 정확도를 향상시키는 데 도움이 됩니다. anchor-free detector로서 사전 정의된 앵커 박스의 필요성을 없애 감지 파이프라인을 단순화합니다.
강점
- 높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 뛰어난 평균 정밀도(mAP) 점수를 달성하며, 특히 복잡한 학술 벤치마크에서 뛰어난 성능을 보입니다.
- Global Context Understanding: 전체 이미지 컨텍스트를 처리하는 능력을 통해 복잡한 객체 상호 작용이 있는 장면에서 강력한 성능을 제공합니다.
- GPU에서 실시간: NVIDIA TensorRT와 같은 도구로 최적화하면 RTDETRv2는 고급 GPU에서 실시간 속도를 달성할 수 있습니다.
약점
- 높은 계산 비용: 트랜스포머 모델은 악명 높을 정도로 리소스 집약적입니다. RTDETRv2는 높은 파라미터 수와 FLOP를 가지므로 훈련 및 추론 모두에 강력한 GPU가 필요합니다.
- 집중적인 메모리 사용량: RTDETRv2를 훈련하려면 YOLO11과 같은 CNN 기반 모델에 비해 훨씬 더 많은 CUDA 메모리가 필요하므로 하드웨어 사양이 낮은 사용자는 사용할 수 없습니다.
- 더 느린 학습 속도: Transformer 아키텍처의 복잡성으로 인해 학습 시간이 더 오래 걸립니다.
- 제한적인 에코시스템: 강력한 연구 기여이긴 하지만, Ultralytics에서 제공하는 포괄적이고 사용자 친화적인 에코시스템, 광범위한 문서 및 활발한 커뮤니티 지원이 부족합니다.
이상적인 사용 사례
RTDETRv2는 가능한 가장 높은 정확도를 달성하는 것이 주요 목표이고 컴퓨팅 리소스가 제약 조건이 아닌 애플리케이션에 가장 적합합니다.
- 자율 주행: 정밀도가 가장 중요한 자율 주행 자동차의 인식 시스템용입니다.
- 고급 로봇 공학: 로봇이 복잡하고 역동적인 환경을 탐색하고 상호 작용할 수 있도록 지원하며, 이는 로봇 공학에서 AI의 역할의 핵심 측면입니다.
- 위성 이미지 분석: 정확한 감지를 위해 전역 컨텍스트 이해가 중요한 고해상도 이미지를 분석합니다.
Ultralytics YOLO11: 최고의 속도와 다재다능함
Ultralytics YOLO11은 세계에서 가장 인기 있는 객체 감지 시리즈의 최신 진화입니다. Ultralytics의 Glenn Jocher와 Jing Qiu가 제작했으며 YOLOv8과 같은 이전 모델의 유산을 기반으로 속도, 정확성 및 사용 편의성의 탁월한 조합을 제공합니다.
작성자: Glenn Jocher, Jing Qiu
기관: Ultralytics
날짜: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
문서: https://docs.ultralytics.com/models/yolo11/
아키텍처 및 주요 기능
YOLO11은 고도로 최적화된 단일 단계 CNN 아키텍처를 특징으로 합니다. 이 설계는 효율성에 중점을 두고 간소화된 네트워크를 통해 정확도를 희생하지 않고 매개변수 수와 계산 부하를 줄입니다. 이를 통해 YOLO11은 매우 빠르며 리소스가 제한된 에지 장치에서 강력한 클라우드 서버에 이르기까지 광범위한 하드웨어에 적합합니다.
YOLO11의 진정한 힘은 다재다능함과 그것이 존재하는 강력한 생태계에 있습니다. 단일 통합 프레임워크 내에서 객체 감지, 인스턴스 분할, 이미지 분류, 포즈 추정 및 OBB(Oriented Bounding Box) 감지를 수행할 수 있는 다중 작업 모델입니다.
강점
- 탁월한 성능 균형: YOLO11은 속도와 정확도 간에 최첨단 균형을 제공하므로 실제 애플리케이션에 매우 실용적입니다.
- 사용 편의성: 간단한 Python API 및 CLI, 광범위한 설명서와 수많은 튜토리얼을 통해 YOLO11을 시작하는 것은 매우 간단합니다.
- 잘 관리되는 에코시스템: YOLO11은 Ultralytics의 활발한 개발, 강력한 커뮤니티 지원, 그리고 엔드 투 엔드 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합에 의해 뒷받침됩니다.
- 학습 및 메모리 효율성: YOLO11은 RTDETRv2와 같은 트랜스포머 기반 모델보다 훨씬 빠르게 학습하고 훨씬 적은 메모리가 필요하므로 더 광범위한 개발자 및 연구원에게 접근성이 뛰어납니다.
- 다재다능함: 하나의 모델에서 여러 비전 작업을 처리할 수 있는 기능은 감지에만 집중하는 RTDETRv2와 같은 경쟁업체가 따라올 수 없는 포괄적인 솔루션을 제공합니다.
- 배포 유연성: YOLO11은 ONNX 및 TensorRT와 같은 다양한 형식으로 내보내도록 최적화되어 CPU, GPU 및 에지 플랫폼에서 원활한 배포를 보장합니다.
약점
- 매우 정확하지만, 가장 큰 YOLO11 모델은 특정 학술 벤치마크에서 가장 큰 RTDETRv2 모델보다 mAP가 약간 낮을 수 있지만, 이는 종종 속도와 리소스 면에서 큰 비용이 듭니다.
이상적인 사용 사례
YOLO11은 빠르고 정확하며 안정적인 비전 모델이 필요한 거의 모든 애플리케이션에서 뛰어납니다.
- 산업 자동화: 생산 라인에서 품질 관리 및 결함 감지.
- 보안 및 감시: 실시간 보안 경보 시스템 및 모니터링 솔루션을 강화합니다.
- 소매 분석: 재고 관리를 개선하고 고객 행동을 분석합니다.
- 스마트 시티: 교통 관리 및 공공 안전 모니터링과 같은 애플리케이션을 지원합니다.
정면 성능 비교: 정확도 및 속도
성능을 비교할 때 두 모델 모두 매우 유능하지만 서로 다른 우선 순위를 제공합니다. RTDETRv2는 최대 정확도를 추구하지만 이는 더 높은 대기 시간과 리소스 요구 사항을 초래합니다. 대조적으로 Ultralytics YOLO11은 최적의 균형을 위해 설계되었습니다.
아래 표는 RTDETRv2-x가 경쟁력 있는 mAP를 달성하는 반면, YOLO11x 모델은 더 적은 파라미터와 FLOP으로 이를 능가한다는 것을 보여줍니다. 더 중요한 것은 YOLO11 모델이 특히 CPU에서 훨씬 우수한 추론 속도를 보여주고 모든 모델 크기에서 GPU에서 훨씬 빠르다는 것입니다. 예를 들어, YOLO11l은 RTDETRv2-l의 정확도와 일치하지만 T4 GPU에서 1.5배 이상 빠릅니다. 이러한 효율성 덕분에 YOLO11은 프로덕션 환경에서 훨씬 더 실용적인 선택이 됩니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
학습, 사용성 및 생태계
원시 성능 외에도 개발자 경험은 중요한 요소입니다. RTDETRv2와 같은 모델을 훈련하는 것은 복잡하고 리소스 집약적인 작업일 수 있으며 종종 깊은 전문 지식과 강력한 하드웨어가 필요합니다. 해당 생태계는 주로 GitHub 저장소를 중심으로 구축되어 있으며, 연구에는 유용하지만 완전한 기능을 갖춘 프레임워크의 포괄적인 지원은 부족합니다.
이와는 대조적으로 Ultralytics YOLO11은 매우 간소화되고 접근 가능한 경험을 제공합니다. 학습 과정은 효율적이고 문서화가 잘 되어 있으며 훨씬 적은 메모리가 필요하므로 더 적당한 하드웨어를 가진 사용자에게도 가능성을 열어줍니다. Ultralytics 생태계는 쉬운 설정 및 학습에서 검증, 배포 및 Ultralytics HUB를 사용한 MLOps 관리에 이르기까지 완벽한 솔루션을 제공합니다. 이 전체적인 접근 방식은 개발 주기를 가속화하고 강력한 AI 솔루션 생성을 위한 진입 장벽을 낮춥니다.
결론: 어떤 모델을 선택해야 할까요?
RTDETRv2는 트랜스포머의 높은 정확도 객체 감지 가능성을 보여주는 인상적인 학문적 성과입니다. 특정 복잡한 데이터 세트에서 가능한 가장 높은 mAP를 달성하는 데 계산 비용이 부차적인 연구 중심 프로젝트에 적합한 선택입니다.
하지만 대부분의 실제 애플리케이션에서는 Ultralytics YOLO11이(가) 명확한 승자입니다. 이 분야에서 타의 추종을 불허하는 속도, 정확성 및 효율성의 뛰어난 조합을 제공합니다. 사용하기 쉽고 잘 관리되는 생태계와 결합된 여러 작업에 대한 다재다능성은 개발자, 연구원 및 기업 모두에게 가장 실용적이고 생산적이며 강력한 선택입니다. 에지 또는 클라우드용 솔루션을 구축하든 YOLO11은 Transformer 기반 아키텍처의 오버헤드 및 복잡성 없이 최첨단 성능을 제공합니다.
다른 모델 비교 살펴보기
YOLO11 및 RTDETR이 다른 주요 모델과 어떻게 비교되는지 궁금하다면 다음 다른 비교를 확인해 보세요.
- YOLO11 vs. YOLOv10
- YOLO11 vs. YOLOv8
- RTDETR 대 YOLOv8
- YOLO11 vs. EfficientDet
- RTDETR 대 EfficientDet
- YOLO11 vs. YOLOv9