RTDETRv2와 EfficientDet: 종합적인 기술 비교
진화하는 컴퓨터 비전 환경에서 올바른 객체 감지 아키텍처를 선택하는 것은 프로젝트 성공의 핵심입니다. 이 비교에서는 실시간 성능을 위해 설계된 최첨단 트랜스포머 기반 모델인 RTDETRv2와 효율성을 위해 최적화된 확장 가능한 컨볼루션 신경망(CNN) 제품군인 EfficientDet에 대해 자세히 살펴봅니다. 이러한 아키텍처 혁신, 성능 메트릭, 이상적인 배포 시나리오를 분석하여 개발자가 정보에 입각한 결정을 내릴 수 있도록 지원합니다.
모델 개요
이 두 모델 간의 선택은 대상 하드웨어의 특정 제약 조건과 애플리케이션의 정확도 요구 사항에 따라 결정되는 경우가 많습니다.
RTDETRv2
실시간 물체 감지에 트랜스포머 아키텍처를 적용하는 데 있어 중요한 진전을 이룬 RTDETRv2 (실시간 감지 트랜스포머 v2)를 소개합니다. 바이두의 연구원들이 개발한 이 솔루션은 기존의 성공적인 RT-DETR의 성공을 기반으로 하이브리드 인코더와 쿼리 선택 메커니즘을 최적화하여 GPU 하드웨어에서 경쟁력 있는 추론 속도로 최첨단 정확도를 달성합니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜: 2023-04-17
- Arxiv:RT-DETR: 실시간 객체 감지에서 YOLO를 능가하는 DETR
- GitHub:RT-DETR 리포지토리
- 문서RT-DETRv2 문서
EfficientDet
Google Brain에서 개발한 EfficientDet은 모델 차원을 확장하는 체계적인 방법을 도입하여 출시와 동시에 이 분야에 혁명을 일으켰습니다. EfficientNet 백본과 가중치가 부여된 양방향 피처 피라미드 네트워크(BiFPN)를 결합하여 계산 비용과 정확도의 균형을 맞추는 다양한 모델(D0-D7)을 제공하므로 다양한 리소스 제약 조건에서 매우 유용하게 사용할 수 있습니다.
- 작성자: Mingxing Tan, Ruoming Pang, Quoc V. Le
- 조직:조직:Google 리서치
- 날짜: 2019-11-20
- Arxiv:EfficientDet: 확장 가능하고 효율적인 물체 감지
- GitHub:AutoML 리포지토리
- Docs:EfficientDet Readme
아키텍처 분석
하나는 트랜스포머의 글로벌 컨텍스트를 활용하고 다른 하나는 컨볼루션의 효율성을 개선한다는 점에서 근본적인 차이가 있습니다.
RTDETRv2: 트랜스포머 전력
RTDETRv2는 멀티스케일 특징을 효율적으로 처리하는 하이브리드 인코더를 사용합니다. 기존 CNN과 달리 IoU 쿼리 선택 메커니즘을 사용하여 이미지에서 가장 관련성이 높은 부분에 주의를 집중합니다. 이를 통해 모델은 오클루전 및 다양한 객체 스케일이 있는 복잡한 장면을 효과적으로 처리할 수 있습니다. 이 아키텍처는 스케일 내 상호 작용과 스케일 간 융합을 분리하여 일반적으로 비전 트랜스포머(ViT)와 관련된 계산 오버헤드를 줄입니다.
트랜스포머의 장점
RTDETRv2의 주의 메커니즘은 글로벌 수용 필드를 허용하여 모델이 일반적인 CNN보다 장면에서 멀리 떨어진 객체 간의 관계를 더 잘 이해할 수 있도록 합니다.
EfficientDet: 확장 가능한 효율성
EfficientDet은 EfficientNet 백본을 기반으로 구축되었으며 BiFPN을 도입했습니다. BiFPN은 다양한 입력 피처의 중요성을 학습하여 쉽고 빠르게 멀티스케일 피처를 융합할 수 있게 해줍니다. 또한 EfficientDet은 네트워크의 해상도, 깊이, 폭을 균일하게 확장하는 복합 스케일링 방법을 활용합니다. 따라서 모바일 애플리케이션을 위한 가벼운 D0부터 정확도가 높은 서버 작업을 위한 무거운 D7까지 모델을 맞춤화할 수 있습니다.
성능 비교
성능 벤치마크는 설계 철학의 명확한 차이를 강조합니다. RTDETRv2는 강력한 하드웨어에서 최고의 정확도를 목표로 하는 반면, EfficientDet은 세분화된 효율성의 그라데이션을 제공합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
표에서 볼 수 있듯이, RTDETRv2-x는 54.3의 우수한 mAP 달성하여 가장 큰 EfficientDet-d7(53.7 mAP)을 능가하는 동시에 TensorRT 훨씬 더 빠릅니다(15.03ms 대 128.07ms). 그러나 극도로 제한된 환경에서는 최소한의 매개변수(3.9M)와 FLOP으로 매우 가벼운 옵션인 EfficientDet-d0이 여전히 유용합니다.
강점과 약점
RTDETRv2의 강점:
- 높은 정확도: 특히 까다로운 COCO 데이터 세트에서 최고 수준의 탐지 성능을 제공합니다.
- GPU 최적화: 아키텍처는 고도로 병렬화 가능하므로 다음과 같은 경우에 이상적입니다. TensorRT 배포에 이상적입니다.
- 앵커 프리: 앵커 박스 튜닝이 필요 없으므로 교육 파이프라인이 간소화됩니다.
EfficientDet 강점:
- 확장성: D0-D7 제품군은 모델 크기와 하드웨어 기능을 정확하게 일치시킬 수 있습니다.
- 낮은 컴퓨팅: 더 작은 변형(D0-D2)은 CPU 추론 또는 모바일 엣지 디바이스에 적합합니다.
- 설립: 다양한 변환 도구를 광범위하게 지원하는 성숙한 아키텍처.
약점:
- RTDETRv2: 트레이닝을 위해 상당한 CUDA 메모리가 필요하며 일반적으로 트랜스포머 연산으로 인해 CPU 속도가 느려집니다.
- EfficientDet: 최신 탐지기에 비해 정확도가 높은 쪽(D7)에서 지연 시간이 더 길고, 훈련이 수렴하는 속도가 느릴 수 있습니다.
이상적인 사용 사례
올바른 모델을 선택하는 것은 특정 애플리케이션 환경에 따라 크게 달라집니다.
- 강력한 GPU 사용할 수 있는 하이엔드 감시, 자율 주행 또는 산업용 검사 시스템에는 RTDETRv2를 선택하세요. 미세한 디테일을 식별할 수 있어 의료 제조에서 알약을 감지하거나 복잡한 위성 이미지를 분석하는 등의 작업에 적합합니다.
- 배터리로 구동되는 IoT 디바이스, 모바일 앱 또는 다양한 하드웨어 수준에서 폭넓은 호환성이 필요한 시나리오에는 EfficientDet을 선택하세요. 비용과 전력 소비가 주요 관심사인 스마트 리테일 재고 스캐너나 기본 보안 경보 시스템에 적합합니다.
Ultralytics YOLO 이점
RTDETRv2와 EfficientDet 모두 각자의 장점이 있습니다, Ultralytics YOLO11 은 개발자 친화적인 에코시스템으로 포장된 두 가지 최고의 기능을 강력하게 종합한 솔루션입니다.
개발자가 Ultralytics 선호하는 이유
Ultralytics 애널리틱스 모델은 벤치마크뿐만 아니라 실제 사용성을 위해 설계되었습니다.
- 사용 편의성: Ultralytics Python API 및 CLI 는 교육 및 배포의 복잡성을 획기적으로 줄여줍니다. 사용자는 몇 분 만에 설치부터 사용자 지정 데이터 세트에 대한 교육까지 완료할 수 있습니다.
- 잘 관리된 에코시스템: 번성하는 커뮤니티와 빈번한 업데이트가 뒷받침하는 Ultralytics 프레임워크는 다음과 같은 MLOps 도구와 원활하게 통합됩니다. Weights & Biases, MLFlow 및 데이터 관리를 위한 Ultralytics HUB와 같은 MLOps 도구와 원활하게 통합됩니다.
- 성능 균형: YOLO11 최첨단 속도/정확도 트레이드오프를 달성합니다. CNN의 추론 속도 특성을 유지하면서 RTDETRv2와 같은 트랜스포머 모델의 정확도와 일치하거나 이를 뛰어넘는 경우가 많습니다.
- 메모리 효율성: 트랜스포머 기반 트레이닝의 무거운 메모리 요구 사항과 달리, YOLO 모델은 효율적인 GPU 활용에 최적화되어 있어 소비자급 하드웨어에서 더 큰 배치 크기를 사용할 수 있습니다.
- 다목적성: 단일 프레임워크가 객체 감지, 인스턴스 세분화, 포즈 추정, 분류 및 OBB(지향 객체 감지)를 지원합니다.
교육 효율성
Ultralytics 전이 학습을 용이하게 하는 사전 훈련된 가중치를 제공하여 훈련 시간을 크게 단축합니다. 다음은 YOLO11 모델 훈련을 시작하는 간단한 방법입니다:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
간소화된 배포
한 번의 명령으로 ONNX, TensorRT, CoreML, OpenVINO 같은 다양한 형식으로 Ultralytics 모델을 내보낼 수 있어 연구부터 생산에 이르는 과정을 간소화할 수 있습니다. 내보내기 모드에 대해 자세히 알아보세요.
결론
RTDETRv2와 EfficientDet의 비교에서 승자는 제약 조건에 따라 달라집니다. RTDETRv2는 높은 정확도의 GPU 환경에서 탁월한 성능을 발휘하여 변압기가 빠를 수 있음을 입증합니다. 제약이 많은 저전력 엣지 시나리오에서는 EfficientDet이 여전히 확실한 선택입니다.
그러나 대부분의 개발자는 다재다능하고 사용하기 쉬운 고성능 솔루션을 찾고 있습니다, Ultralytics YOLO11 가 눈에 띕니다. 단일의 응집력 있는 에코시스템 내에서 여러 비전 작업을 처리하는 능력과 뛰어난 메모리 효율성 및 트레이닝 속도가 결합되어 최신 컴퓨터 비전 애플리케이션을 위한 최적의 선택이 될 것입니다.
다른 비교 살펴보기
사용 가능한 객체 감지 모델에 대한 이해의 폭을 넓히려면 다음과 같은 관련 비교를 살펴보세요: