효율적 탐지(EfficientDet) 대 실시간 탐지(RTDETRv2): 현대적 객체 탐지를 위한 기술적 비교
객체 탐지를 위한 최적의 아키텍처를 선택하려면 아키텍처 복잡성, 추론 지연 시간, 탐지 정확도 간의 절충점을 찾아야 합니다. 본 기술 비교에서는 Google 복합 스케일링 CNN 아키텍처인 EfficientDet와 바이두의 실시간 트랜스포머 기반 모델인 RTDETRv2라는 두 가지 상이한 접근법을 분석합니다.
EfficientDet이 2019년 확장성 기준을 제시했다면, RTDETRv2는 비최대 억제(NMS)를 제거하는 트랜스포머 아키텍처로의 전환을 상징합니다. 2026년 최고의 성능을 추구하는 개발자들을 위해, Ultralytics 원생적인 엔드투엔드 설계로 이러한 기술들의 장점을 어떻게 통합하는지 살펴봅니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| 0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| 1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| 2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| 3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| 4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| 5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| 6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| 7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
효율적 탐지: 복합 확장성의 유산
2019년 말 출시된 EfficientDet는 컨볼루션 신경망(CNN)을 확장하는 체계적인 방법을 제시했습니다. 모바일 기기부터 데이터 센터에 이르기까지 광범위한 자원 제약 조건 전반에서 효율성을 최적화하도록 설계되었습니다.
- 작성자: Mingxing Tan, Ruoming Pang, Quoc V. Le
- 조직:Google
- 날짜:20
- Arxiv:EfficientDet: 확장 가능하고 효율적인 물체 감지
아키텍처 및 주요 기능
EfficientDet는 EfficientNet 백본과 가중치 부여된 양방향 피라미드 특징 네트워크(BiFPN) 를 결합하여 활용합니다. BiFPN은 쉽고 빠른 다중 스케일 특징 융합을 가능하게 하여 모델이 다양한 입력 특징의 중요성을 효과적으로 학습할 수 있도록 합니다. 핵심 혁신은 복합 스케일링( Compound Scaling)으로, 네트워크 백본, 특징 네트워크, 박스/클래스 예측 네트워크의 해상도, 깊이, 너비를 균일하게 확장합니다.
학술적 성과에도 불구하고 EfficientDet는 앵커 박스와 비최대 억제(NMS) 같은 복잡한 후처리 단계를 사용하는데, 이는 지연 시간 변동성을 유발하고 에지 하드웨어에서의 배포를 복잡하게 만들 수 있다.
RTDETRv2: 실시간 트랜스포머
RTDETRv2(실시간 탐지 트랜스포머 v2)는 RT-DETR 성공을 바탕으로, DETR 기반 모델의 우수한 정확도와 글로벌 컨텍스트 인식 능력을 유지하면서도 높은 계산 비용 문제를 해결하기 위해 개발되었습니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- 조직조직: Baidu
- 날짜: 2023-04-17 (원본), 2024년 업데이트됨
- Arxiv:RT-DETRv2: Bag-of-Freebies를 통한 개선된 베이스라인
아키텍처 및 주요 기능
RTDETRv2는 표준 비전 트랜스포머(ViT)보다 다중 스케일 특징을 더 효율적으로 처리하는 하이브리드 인코더를 사용합니다. 그 핵심 특징은 NMS(NMS)가 필요 없는 설계입니다. 객체를 직접 집합으로 예측함으로써 경험적 후처리 과정이 불필요해지며, 이론적으로 추론 속도를 안정화시킵니다.
그러나 트랜스포머 기반 모델은 메모리 소모가 매우 큰 것으로 악명 높습니다. RTDETRv2 훈련에는 일반적으로 상당한 GPU 필요하며, 효율적인 수렴을 위해 NVIDIA 같은 고성능 하드웨어가 필수적인 경우가 많습니다. 이는 소비자용 하드웨어에서도 비교적 용이하게 실행되는 CNN 기반 YOLO 대조적입니다.
Ultralytics의 강점: YOLO26의 등장
EfficientDet와 RTDETRv2가 중요한 이정표를 세웠지만, Ultralytics (2026년 1월 출시)은 두 아키텍처의 장점을 통합하여 통일된 고성능 프레임워크로 새로운 기준을 제시합니다.
YOLO26은 트랜스포머의 정확도와 경량 CNN의 속도를 모두 필요로 하는 개발자를 위해 설계되었습니다.
- 종단간 NMS 설계: RTDETRv2와 마찬가지로 YOLO26은 본질적으로 종단간(end-to-end)입니다. 이는 NMS 제거하여 자율주행차와 같은 안전이 중요한 애플리케이션에 필수적인 결정론적 지연 시간을 보장합니다.
- MuSGD 최적화기: Moonshot AI의 대규모 언어 모델(LLM) 훈련 혁신에서 영감을 받은 YOLO26은 MuSGD 최적화기를 활용합니다. SGD 뮤온의 하이브리드인 이 알고리즘은 안정적인 훈련 역학과 더 빠른 수렴을 보장하여, 트랜스포머의 하이퍼파라미터 튜닝 시 흔히 필요한 '시행착오'를 줄여줍니다.
- DFL 제거: 분산 초점 손실(Distribution Focal Loss)을 제거함으로써 YOLO26은 모델 그래프를 단순화합니다. 이 최적화는 ONNX CoreML 같은 형식으로 모델을 내보낼 때 매우 중요합니다. 복잡한 손실 계층은 에지 디바이스에서 호환성 문제를 일으킬 수 있기 때문입니다.
- 성능 균형: YOLO26은 이전 세대에 비해 최대 43% 빠른 CPU 제공하여, 연산 집약적인 EfficientDet-d7이나 VRAM을 많이 소모하는 RTDETRv2보다 에지 배포에 훨씬 더 적합합니다.
기술 심층 분석
교육 효율성 및 메모리
이러한 모델 간의 중요한 차별화 요소는 훈련 과정에서의 자원 소비량이다.
- 효율적인 탐지: 매개변수 효율성은 높지만, 복합 스케일링 방식은 훈련 속도가 느린 심층 신경망을 생성할 수 있습니다. 복잡한 BiFPN 연결은 메모리 접근 비용(MAC)을 증가시켜 처리량을 저하시킵니다.
- RTDETRv2: 트랜스포머는 시퀀스 길이에 따라 이차적으로 증가하는 주의도 맵 계산이 필요합니다. 이로 인해 VRAM 사용량이 높아져 표준 GPU(예: RTX 3060/4070)에서 큰 배치 크기로 훈련하기 어렵습니다.
- Ultralytics YOLO : YOLO11 와 YOLO26과 같은 모델은 메모리 효율성을 위해 최적화되었습니다. 이 모델들은 소비자용 하드웨어에서 더 큰 배치 크기를 허용하여 고성능 AI에 대한 접근성을 확대합니다. 또한 Ultralytics (구 HUB)은 인프라 복잡성을 자동으로 처리하는 관리형 클라우드 훈련을 제공함으로써 이 과정을 더욱 간소화합니다.
다목적성 및 에코시스템
EfficientDet는 기본적으로 탐지 전용 아키텍처입니다. 반면 Ultralytics 단일 코드베이스 내에서 다양한 작업을 지원합니다.
다중 작업 기능
Ultralytics 바운딩 박스에 국한되지 않습니다. 동일한 API를 통해 다음과 같은 모델을 훈련할 수 있습니다. 인스턴스 세그멘테이션, 자세 추정, 그리고 방향 객체 탐지(OBB)을 제공하여 다양한 컴퓨터 비전 과제에 대응할 수 있는 유연한 도구 모음을 제공합니다.
YOLO26은 특히 ProgLoss 및 STAL (Soft Target Assignment Loss)과 같은 작업 특화 개선 사항을 포함하며, 이는 기존 CNN 및 트랜스포머의 전통적인 약점이었던 소형 객체 인식에서 현저한 향상을 제공합니다.
실제 사용 사례
RTDETRv2 사용 시기
RTDETRv2는 하드웨어 자원이 풍부하고 글로벌 컨텍스트가 가장 중요한 환경에서 탁월한 성능을 발휘합니다.
- 복잡한 장면 이해: 높은 가림 현상이나 복잡한 장면에서 전역적 주의 메커니즘은 국소적 컨볼루션보다 먼 물체 간의 track 더 잘 track 수 있다.
- 고성능 GPU : 배포가 서버급 GPU(예: T4, A10)로만 이루어지는 경우, RTDETRv2는 경쟁력 있는 정확도를 제공합니다.
EfficientDet 사용 시기
효율적 탐지(EfficientDet)는 대체로 구식 아키텍처로 간주되지만 특정 틈새 시장에서는 여전히 관련성을 유지하고 있습니다.
- 레거시 Google : 기존 TensorFlow 파이프라인에 깊이 통합된 팀의 경우, EfficientDet 유지 관리가 프레임워크 마이그레이션보다 혼란을 덜 초래할 수 있습니다.
- 연구 기준선: 이는 여전히 특징 융합 네트워크의 효율성을 비교하기 위한 표준 기준선으로 남아 있다.
최상의 선택: YOLO26
현대 애플리케이션의 대다수에는 다용도성과 배포 용이성으로 인해 YOLO26이 권장 선택지입니다.
- 에지 컴퓨팅: DFL 제거 및 CPU 통해 YOLO26은 배터리 수명과 열 제약이 중요한 IoT 기기 및 모바일 애플리케이션에 이상적입니다.
- 로봇공학: NMS 설계는 로봇 제어 루프가 인지 데이터를 일정하고 예측 가능한 속도로 수신하도록 보장합니다.
- 항공 촬영 영상: ProgLoss 함수는 드론 영상에서 차량이나 가축과 같은 소형 물체의 탐지 성능을 향상시켜 표준 EfficientDet 기준선을 능가합니다.
결론
EfficientDet이 효율적인 확장성을 위한 길을 열었고 RTDETRv2가 실시간 트랜스포머의 힘을 입증했지만, 기술 환경은 진화했습니다. YOLO26은 차세대 컴퓨터 비전을 구현합니다: 본질적으로 엔드투엔드 방식이며, 다양한 하드웨어에 최적화되었고, 강력한 Ultralytics 지원을 받습니다.
머신러닝 파이프라인을 간소화하려는 개발자에게 Ultralytics 전환은 성능 향상뿐만 아니라 Ultralytics 주석 작업부터 에지 환경 배포까지 간소화된 워크플로를 제공합니다.
추가 자료
- 구현 세부 사항에 대해서는 Ultralytics 문서를 참조하십시오.
- mAP IoU 같은 성능 지표에 대해 읽어보세요.
- TensorRT OpenVINO 배포하려면 모델 내보내기 가이드를 참조하십시오.