YOLO11 대 RTDETRv2: 기술 비교
적합한 객체 감지 모델을 선택하려면 정확도, 속도 및 사용 편의성 간의 균형을 고려해야 합니다. 이 페이지에서는 최첨단 실시간 감지기인 Ultralytics YOLO11과 Transformer 아키텍처를 기반으로 한 고정밀 모델인 RTDETRv2 간의 자세한 기술 비교를 제공합니다. 두 모델 모두 상당한 발전을 이루었지만 YOLO11은 성능, 다재다능성 및 개발자 경험의 뛰어난 균형을 제공하므로 연구에서 생산에 이르기까지 광범위한 애플리케이션에 이상적인 선택입니다.
Ultralytics YOLO11: 실시간 감지의 최첨단 기술
Ultralytics YOLO11은 실시간 객체 탐지 및 기타 컴퓨터 비전 작업의 경계를 넓히기 위해 Ultralytics에서 엔지니어링한 유명한 YOLO 시리즈의 최신 진화입니다. YOLOv8과 같은 이전 모델의 성공을 기반으로 정확도와 효율성을 모두 향상시키는 아키텍처 개선이 이루어졌습니다.
- 저자: Glenn Jocher, Jing Qiu
- 조직: Ultralytics
- 날짜: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- 문서: https://docs.ultralytics.com/models/yolo11/
아키텍처 및 주요 기능
YOLO11은 고도로 최적화된 단일 단계 앵커 프리(Anchor-Free) 아키텍처를 사용합니다. 이 설계는 계산 오버헤드를 최소화하면서 특징 추출 기능을 최대화하여 뛰어난 속도와 정확도를 제공합니다. YOLO11의 주요 장점은 포괄적인 Ultralytics 생태계에 통합되었다는 것입니다. 이를 통해 간단한 Python API 및 CLI, 광범위한 문서 및 활발한 커뮤니티 지원을 통해 간소화된 사용자 경험을 제공합니다.
또한 YOLO11은 매우 다재다능하여 객체 감지, 인스턴스 분할, 이미지 분류, 포즈 추정 및 OBB(Oriented Bounding Box)를 포함하여 단일 통합 프레임워크 내에서 여러 작업을 지원합니다. 이러한 다중 작업 기능은 보다 전문화된 모델에 비해 상당한 이점입니다.
강점
- 성능 균형: 속도와 정확성 사이에서 뛰어난 균형을 제공하므로 다양한 실제 시나리오에 적합합니다.
- 사용 편의성: 사용자 친화적인 API, 포괄적인 문서, 풍부한 튜토리얼을 제공하여 빠른 프로토타입 제작 및 배포를 가능하게 합니다.
- 잘 관리되는 에코시스템: 지속적인 개발, 잦은 업데이트, 그리고 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합을 통해 이점을 얻습니다.
- 학습 효율성: 사전 학습된 가중치를 즉시 사용할 수 있어 효율적이고 빠른 학습 프로세스를 제공합니다. 일반적으로 트랜스포머 기반 모델보다 CUDA 메모리를 적게 사용하고 더 빠르게 수렴합니다.
- Deployment Flexibility: NVIDIA Jetson과 같은 edge devices에서 강력한 클라우드 서버에 이르기까지 다양한 하드웨어에 최적화되어 있습니다.
약점
- 원-스테이지 검출기이므로 일부 특수 2단계 검출기에 비해 매우 조밀하거나 작은 객체 클러스터에 어려움을 겪을 수 있지만 대부분의 경우 여전히 매우 우수한 성능을 보입니다.
- YOLO11x와 같은 가장 큰 모델은 최대 정확도를 위해 상당한 컴퓨팅 리소스가 필요합니다.
이상적인 사용 사례
YOLO11은 속도, 정확성 및 다재다능성을 결합하여 다음과 같은 분야에 적합합니다.
- 산업 자동화: 생산 라인에서 품질 관리 및 결함 감지.
- 스마트 시티: 교통 관리 및 공공 안전 모니터링과 같은 애플리케이션을 강화합니다.
- 소매 분석: 재고 관리 및 고객 행동 분석을 지원합니다.
- 의료: 종양 감지와 같은 의료 영상 분석을 지원합니다.
RTDETRv2: 트랜스포머 기반 고정밀 감지
Baidu의 연구자들이 개발한 RTDETRv2는 Vision Transformer (ViT)를 활용하여 높은 정확도를 달성하는 실시간 객체 감지기입니다. 이는 CNN 기반 YOLO 제품군에 대한 대안적인 아키텍처 접근 방식을 나타냅니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- Organization: Baidu
- 날짜: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 기능
RTDETRv2는 특징 추출을 위한 CNN 백본과 transformer 기반 인코더-디코더를 결합한 하이브리드 아키텍처를 사용합니다. transformer의 self-attention 메커니즘을 통해 모델은 이미지 내의 객체 간의 전역 관계를 캡처할 수 있으며, 이는 폐색 또는 조밀한 객체가 있는 복잡한 장면에서 정확도를 향상시킬 수 있습니다.
강점
- 높은 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 특히 복잡한 학술 벤치마크에서 경쟁력 있는 mAP 점수를 달성합니다.
- Global Context Understanding: 이미지에서 멀리 떨어진 객체 간의 관계를 이해하는 데 탁월합니다.
약점
- 계산 비용: RTDETRv2와 같은 Transformer 기반 모델은 일반적으로 더 많은 파라미터 수와 FLOPs를 가지므로 YOLO11보다 더 많은 컴퓨팅 자원(GPU 메모리 및 처리 능력)을 요구합니다.
- 학습 복잡성: 학습은 종종 더 느리고 더 많은 리소스를 필요로 하며, YOLO11에 비해 훨씬 더 많은 CUDA 메모리와 더 긴 학습 시간이 필요합니다.
- 더 느린 추론 속도: 실시간에 최적화되어 있지만, 특히 CPU 및 리소스가 제한된 에지 장치에서 비교 가능한 YOLO11 모델보다 일반적으로 느립니다.
- 제한적인 에코시스템: Ultralytics에서 제공하는 광범위하고 통합된 사용자 친화적인 에코시스템이 부족합니다. 문서, 튜토리얼 및 커뮤니티 지원이 덜 포괄적입니다.
- 다재다능성 부족: 주로 객체 감지를 위해 설계되었으며, YOLO11을 보다 다재다능한 도구로 만드는 분할, 분류 및 포즈 추정에 대한 기본 제공 지원이 부족합니다.
이상적인 사용 사례
RTDETRv2는 다음에 적합합니다.
- 학술 연구: 특정 벤치마크에서 가능한 가장 높은 mAP를 달성하는 것이 주요 목표이고, 컴퓨팅 리소스가 주요 제약 조건이 아닌 경우에 적합합니다.
- 특수 애플리케이션: 강력하고 전용적인 하드웨어를 갖춘 시나리오에서 복잡한 객체 관계를 처리하는 모델의 능력이 중요합니다.
성능 분석: YOLO11 vs. RTDETRv2
성능을 비교할 때 Ultralytics YOLO11이 대부분의 실제 애플리케이션에 더욱 실용적이고 효율적인 솔루션을 제공한다는 것을 알 수 있습니다. 아래 표는 YOLO11 모델이 일관되게 속도와 정확도 간의 더 나은 균형을 달성한다는 것을 보여줍니다.
예를 들어 YOLO11m은 RTDETRv2-s(48.1)보다 높은 mAP(51.5)를 달성하면서 T4 GPU에서 더 빠릅니다(4.7ms 대 5.03ms). 더 높은 수준에서 YOLO11x는 정확도(54.7 대 54.3 mAP)에서 RTDETRv2-x를 능가할 뿐만 아니라 매개변수와 FLOP가 더 적어 훨씬 빠릅니다(11.3ms 대 15.03ms). 결정적으로 YOLO11 모델은 CPU 추론에 매우 최적화되어 있으며, 이는 Transformer 기반 모델이 종종 어려움을 겪는 영역입니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
결론: YOLO11이 선호되는 이유
RTDETRv2는 객체 감지를 위한 트랜스포머의 성능을 입증하는 강력한 학술 모델이지만, Ultralytics YOLO11은 실용적이고 고성능이며 다재다능한 솔루션을 찾는 개발자 및 연구원에게 더 나은 선택으로 두드러집니다.
YOLO11의 주요 장점은 속도와 정확성 간의 뛰어난 균형, CPU 및 GPU 하드웨어 모두에서 뛰어난 효율성, 그리고 멀티태스킹 기능입니다. 가장 중요한 점은, 학습 및 검증에서부터 배포 및 모니터링에 이르기까지 전체 MLOps 라이프사이클을 획기적으로 간소화하는 성숙하고 문서화가 잘 되어 있으며 사용자 친화적인 에코시스템에서 지원된다는 것입니다. 실시간 성능, 리소스 효율성 및 개발 용이성을 요구하는 프로젝트에 있어서 YOLO11은 명확한 승자입니다.
다른 모델 살펴보기
YOLO11 및 RTDETRv2가 다른 주요 모델과 어떻게 비교되는지 궁금하다면 다음 추가 비교를 확인해 보세요.