YOLOX vs RTDETRv2: 객체 탐지를 위한 기술 비교
정확도, 속도 및 계산 비용의 균형을 맞추는 올바른 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 이 비교에서는 속도와 효율성으로 알려진 고성능 CNN 기반 모델인 YOLOX와 정확도의 경계를 넓히는 변환기 기반 모델인 RTDETRv2라는 강력하면서도 뚜렷한 두 가지 아키텍처를 자세히 살펴봅니다. 아키텍처 차이점, 성능 지표 및 이상적인 사용 사례를 이해하면 특정 컴퓨터 비전 프로젝트에 가장 적합한 모델을 선택하는 데 도움이 됩니다.
YOLOX: 고성능 앵커 프리(Anchor-Free) 감지
YOLOX는 YOLO 시리즈에서 중요한 진화로 등장하여 감지 파이프라인을 간소화하고 성능을 향상시키기 위해 앵커 프리 설계를 도입했습니다. 경량에서 고성능에 이르기까지 확장 가능한 모델 제품군을 제공함으로써 학술 연구와 산업 응용 간의 격차를 해소하는 것을 목표로 합니다.
- 작성자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- Organization: Megvii
- 날짜: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- 문서: https://yolox.readthedocs.io/en/latest/
아키텍처 및 주요 기능
YOLOX의 핵심 혁신은 미리 정의된 앵커 박스의 필요성을 없애 설계 복잡성을 줄이는 앵커 프리(anchor-free) 설계에 있습니다. 주요 아키텍처 기능은 다음과 같습니다.
- Decoupled Head: 단일 헤드에서 분류 및 회귀를 수행하는 기존 YOLO 모델과 달리 YOLOX는 분리된 헤드를 사용합니다. 이러한 분리는 수렴 속도와 정확도를 향상시킵니다.
- SimOTA 레이블 할당: YOLOX는 SimOTA(Simplified Optimal Transport Assignment)라는 고급 레이블 할당 전략을 사용합니다. 레이블 할당을 최적의 전송 문제로 취급하여 특히 겹치는 객체의 경우 더 정확하고 강력한 할당을 제공합니다.
- 강력한 데이터 증강: 이 모델은 MixUp 및 Mosaic과 같은 강력한 데이터 증강 기술을 활용하여 일반화 기능을 향상시킵니다.
강점과 약점
강점:
- 뛰어난 속도-정확도 균형: YOLOX 모델, 특히 더 작은 변형은 뛰어난 추론 속도를 제공하므로 실시간 애플리케이션에 적합합니다.
- 확장성: 에지 장치를 위한 YOLOX-Nano부터 고정밀 작업을 위한 YOLOX-X까지 다양한 모델을 제공합니다.
- 단순화된 설계: 앵커 프리 방식은 튜닝해야 하는 하이퍼파라미터의 수를 줄입니다.
약점:
- 작업 특정성: YOLOX는 주로 객체 탐지를 위해 설계되었으며 최신 프레임워크에서 제공하는 분할 또는 포즈 추정과 같은 다른 작업에 대한 기본 다용도성이 부족합니다.
- 생태계 및 유지 관리: 오픈 소스이긴 하지만, Ultralytics 생태계와 동일한 수준의 지속적인 개발, 통합된 툴링(Ultralytics HUB 등) 또는 광범위한 커뮤니티 지원이 없습니다.
이상적인 사용 사례
YOLOX는 특히 제한된 컴퓨팅 성능을 가진 장치에서 실시간 성능 및 효율성이 중요한 시나리오에서 뛰어납니다.
- Edge AI: 경량 YOLOX-Nano 및 YOLOX-Tiny 모델은 Raspberry Pi 또는 NVIDIA Jetson과 같은 플랫폼에 배포하는 데 적합합니다.
- 로보틱스: 빠른 인식은 로봇 공학에서 내비게이션 및 객체 조작에 매우 중요합니다.
- 산업 검사: 빠르게 움직이는 생산 라인에서 자동화된 시각적 검사는 고속 감지를 통해 제조 개선에 도움이 됩니다.
RTDETRv2: 고정밀 실시간 감지 트랜스포머
RTDETRv2 (Real-Time Detection Transformer version 2)는 객체 감지를 위한 CNN 중심 설계에서 transformer 기반 아키텍처로의 전환을 나타냅니다. 실시간 속도를 유지하면서 Vision Transformers의 높은 정확도를 제공하는 것을 목표로 합니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- Organization: Baidu
- 날짜: 2023-04-17 (Original RT-DETR), 2024년 RTDETRv2 개선 사항 적용
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 기능
RTDETRv2는 효율적인 특징 추출을 위한 CNN 백본과 이미지 내의 전역 관계를 모델링하기 위한 transformer 인코더-디코더를 결합한 하이브리드 아키텍처를 사용합니다.
- Transformer 기반 디코더: RTDETRv2의 핵심은 Transformer 디코더이며, self-attention 메커니즘을 사용하여 이미지의 전역 컨텍스트를 이해하므로 복잡하고 혼잡한 장면에서 객체를 감지하는 데 탁월합니다.
- 쿼리 기반 탐지를 사용하는 Anchor-Free: 다른 DETR 모델과 마찬가지로 학습 가능한 객체 쿼리 집합을 사용하여 객체를 탐색하므로 일부 구성에서 앵커 박스 및 NMS(Non-Maximum Suppression)의 복잡성을 피할 수 있습니다.
강점과 약점
강점:
- 최첨단 정확도: 트랜스포머 아키텍처를 통해 RTDETRv2는 매우 높은 mAP 점수를 달성할 수 있으며, 종종 정확도 면에서 CNN 기반 모델보다 뛰어난 성능을 보입니다.
- 복잡한 장면에서의 견고성: 전역 컨텍스트를 캡처하는 능력은 겹치거나 작은 객체가 많은 이미지에 매우 효과적입니다.
약점:
- 높은 계산 비용: 트랜스포머 모델은 계산 집약적이므로 Ultralytics YOLOv8과 같은 효율적인 CNN에 비해 훈련에 더 많은 FLOP와 훨씬 더 많은 GPU 메모리가 필요합니다.
- CPU에서 더 느린 추론 속도: GPU 추론에 최적화되어 있지만, CPU 또는 리소스가 제한된 에지 장치에서는 YOLOX 또는 Ultralytics YOLO11과 같은 모델에 비해 속도가 병목 현상이 될 수 있습니다.
- 학습 복잡성: 트랜스포머 기반 모델 학습은 더 복잡하고 시간이 많이 소요될 수 있으며, 종종 더 긴 학습 일정과 더 많은 리소스가 필요합니다.
이상적인 사용 사례
RTDETRv2는 최대 정확도가 필수적이고 충분한 컴퓨팅 리소스를 사용할 수 있는 애플리케이션에 가장 적합한 선택입니다.
- 자율 주행 차량: 정확성이 안전과 직결될 수 있는 자율 주행 자동차에서 신뢰할 수 있는 인지 기능에 필수적입니다.
- 의료 영상: 의료 영상에서 이상 징후의 정밀한 탐지는 완벽한 응용 분야입니다.
- 위성 이미지 분석: 환경 모니터링 또는 도시 계획과 같은 애플리케이션을 위한 고해상도 위성 이미지의 상세 분석.
성능 대결: 속도 vs. 정확도
다음 표는 다양한 YOLOX 및 RTDETRv2 모델의 직접적인 비교를 제공하여 정확도(mAP), 속도 및 모델 크기 간의 절충점을 강조합니다. YOLOX 모델은 일반적으로 특히 TensorRT로 최적화된 경우 더 빠른 추론을 보여주는 반면, RTDETRv2 모델은 더 높은 mAP 점수를 달성합니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
결론: 어떤 모델을 선택해야 할까요?
YOLOX와 RTDETRv2는 모두 강력한 객체 탐지기이지만, 서로 다른 요구 사항을 충족합니다. YOLOX는 높은 속도와 효율성을 요구하는 애플리케이션에 적합한 선택이며, 실시간 시스템 및 엣지 배포에 이상적입니다. 대조적으로, RTDETRv2는 충분한 컴퓨팅 리소스를 사용할 수 있다는 전제 하에 가능한 가장 높은 정확도를 달성하는 것이 주요 목표인 경우에 더 나은 옵션입니다.
Ultralytics YOLO 모델을 선택해야 하는 이유
YOLOX와 RTDETRv2는 강력한 기능을 제공하지만, Ultralytics YOLO 모델 (예: YOLOv8 및 최신 YOLO11)은 개발자와 연구자에게 더욱 강력한 전체 패키지를 제공하는 경우가 많습니다.
- 사용 편의성: Ultralytics는 간소화된 Python API, 광범위한 documentation 및 전체 개발 라이프사이클을 간소화하는 다양한 guides를 제공합니다.
- 잘 관리되는 에코시스템: 활발한 개발, 강력한 커뮤니티, 잦은 업데이트, 엔드 투 엔드 MLOps를 위한 Ultralytics HUB와의 원활한 통합을 통해 이점을 얻으세요.
- 성능 균형: Ultralytics 모델은 속도와 정확성 사이에서 뛰어난 균형을 이루도록 설계되어 광범위한 실제 시나리오에 매우 적합합니다.
- 메모리 효율성: Ultralytics YOLO 모델은 학습 및 추론 중에 메모리 효율적으로 설계되었습니다. 일반적으로 리소스 요구 사항이 높은 것으로 알려진 RTDETRv2와 같은 트랜스포머 기반 모델보다 적은 CUDA 메모리가 필요합니다.
- 다재다능함: Ultralytics 모델은 단일 통합 프레임워크 내에서 분할, 자세 추정, 분류 및 추적을 포함하여 여러 작업을 즉시 지원합니다.
- 학습 효율성: COCO와 같은 데이터 세트에서 더 빠른 학습 시간과 효율적인 리소스 활용, 즉시 사용 가능한 사전 학습된 가중치를 활용하십시오.
다른 비교 살펴보기
결정을 내리는 데 도움이 되도록 다른 모델 비교를 살펴보십시오.