Link to this sectionRTDETRv2 대 EfficientDet#
최적의 신경망 아키텍처를 선택하는 것은 모든 컴퓨터 비전 프로젝트에서 결정적인 선택입니다. 이 포괄적인 기술 비교에서는 두 가지 영향력 있는 객체 탐지 모델인 트랜스포머 기반의 최신 탐지기 RTDETRv2와 확장성이 뛰어난 합성곱 신경망인 EfficientDet을 분석합니다. 귀하의 AI 파이프라인을 위해 데이터 기반의 결정을 내릴 수 있도록 각 모델의 독특한 아키텍처, 성능 지표, 학습 방법론 및 이상적인 배포 시나리오를 평가하겠습니다.
Link to this sectionRTDETRv2: 실시간 탐지 트랜스포머#
기존 RT-DETR의 성공을 기반으로 하는 RTDETRv2는 트랜스포머 기반의 객체 탐지 패러다임을 개선했습니다. 인코더와 디코더 구조를 최적화하여 높은 정확도를 제공하면서도 실시간 추론 속도를 유지하며, 전통적인 CNN과 비전 트랜스포머 사이의 간극을 효과적으로 메웠습니다.
모델 상세 정보
저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 및 Yi Liu
조직: Baidu
날짜: 2024-07-24
링크: Arxiv, GitHub, 문서
Link to this section아키텍처 및 핵심 강점#
RTDETRv2는 강력한 CNN 백본(주로 ResNet 또는 HGNet)과 효율적인 Transformer 디코더를 결합한 하이브리드 아키텍처를 활용합니다. RTDETRv2의 가장 큰 특징은 NMS(non-maximum suppression) 과정을 생략할 수 있는 고유한 기능입니다. 기존 탐지기는 중복된 BBox를 필터링하기 위해 NMS가 필요하며, 이로 인해 후처리 과정에서 가변적인 inference latency가 추가됩니다. RTDETRv2는 탐지를 직접적인 집합 예측 문제로 공식화하고 이분 매칭을 활용하여 고유한 예측값을 출력합니다.
이 모델은 GPU 메모리가 충분한 서버 측 배포에서 탁월한 성능을 발휘합니다. 전역 어텐션 메커니즘은 뛰어난 상황 인식 능력을 제공하여 자동 보안 경보 시스템이나 밀집된 군중 모니터링과 같이 복잡하고 혼잡한 환경에서 겹쳐진 객체를 분리하는 데 매우 능숙합니다.
Link to this section한계점#
Transformer 아키텍처는 성능이 뛰어나지만, 일반적인 CNN과 비교하여 학습 시 본질적으로 더 많은 CUDA 메모리를 요구합니다. 또한 RTDETRv2의 파인 튜닝은 더 긴 training data 수렴 시간을 필요로 할 수 있어, 신속한 프로토타이핑 시 리소스 소모가 다소 클 수 있습니다.
Link to this sectionEfficientDet: 확장 가능하고 효율적인 CNN#
EfficientDet은 다양한 리소스 제약 조건 내에서 정확도와 효율성을 모두 최적화한 객체 탐지 모델 제품군을 도입했습니다. 이는 확장 가능한 machine vision 설계의 고전적인 예시로 남아 있습니다.
모델 상세 정보
저자: Mingxing Tan, Ruoming Pang 및 Quoc V. Le
조직: Google
날짜: 2019-11-20
링크: Arxiv, GitHub, 문서
Link to this section아키텍처 및 핵심 강점#
EfficientDet의 혁신은 BiFPN(Bi-directional Feature Pyramid Network)과 복합 스케일링 방법이라는 두 가지 핵심 영역에 있습니다. BiFPN은 입력 특징의 중요도를 학습하기 위한 학습 가능한 가중치를 도입하고, 하향식 및 상향식 다중 스케일 특징 융합을 반복적으로 적용함으로써 간단하고 빠른 feature extraction을 가능하게 합니다. 복합 스케일링 방법은 네트워크의 해상도, 깊이, 너비를 동시에 균일하게 조정합니다.
EfficientDet 모델은 초경량 D0 모델부터 대규모 D7 모델까지 다양합니다. 이 덕분에 개발자가 edge AI 배포 시 초기 모바일 증강 현실 애플리케이션과 같이 제한된 컴퓨팅 리소스와 정확도 요구 사항 사이에서 균형을 맞춰야 하는 경우 매우 유용하게 사용할 수 있습니다.
Link to this section한계점#
EfficientDet은 앵커 박스와 전통적인 NMS 후처리 파이프라인에 크게 의존하는 이전 아키텍처입니다. 앵커 생성 프로세스는 세심한 하이퍼파라미터 튜닝이 필요하며, NMS 단계는 Raspberry Pi와 같은 임베디드 하드웨어에서의 배포를 저해하는 병목 현상이 될 수 있습니다. 또한 포즈 추정이나 회전된 BBox (OBB)와 같은 현대적인 작업에 대한 기본 지원이 부족합니다.
Link to this section성능 및 지표 비교#
이 모델들 사이의 정확한 트레이드오프를 이해하려면 처리량과 파라미터 효율성을 분석해야 합니다. 아래 표는 최신 RTDETRv2 시리즈가 확장 가능한 EfficientDet 제품군과 어떻게 비교되는지 보여줍니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
위에서 볼 수 있듯이, RTDETRv2는 중급 EfficientDet 모델과 비슷한 파라미터 수에서 상당히 더 높은 mean Average Precision (mAP)을 달성하며, Transformer 아키텍처를 적극 활용하여 정확도를 크게 향상시킵니다.
Link to this section활용 사례 및 권장 사항#
RT-DETR과 EfficientDet 중 선택은 귀하의 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.
Link to this sectionRT-DETR을 선택해야 할 때#
RT-DETR은 다음 경우에 강력한 선택지입니다:
- Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
- 유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며, 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
- 대형 객체 탐지: Transformer의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는, 주로 중대형 객체가 있는 장면.
Link to this sectionEfficientDet을 선택해야 할 때#
EfficientDet은 다음 경우에 권장됩니다:
- Google Cloud 및 TPU 파이프라인: EfficientDet의 네이티브 최적화가 지원되는 Google Cloud Vision API 또는 TPU 인프라와 깊게 통합된 시스템.
- 컴파운드 스케일링 연구: 네트워크 깊이, 너비 및 해상도 스케일링의 균형 잡힌 효과를 연구하는 데 중점을 둔 학술적 벤치마킹.
- TFLite를 통한 모바일 배포: Android 또는 임베디드 Linux 장치를 위해 TensorFlow Lite 내보내기가 특별히 필요한 프로젝트.
Link to this sectionUltralytics (YOLO26)를 선택해야 할 때#
대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최상의 조합을 제공합니다:
- NMS 미사용 엣지 배포: 비최대 억제 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 가속이 없는 디바이스에서, 최대 43% 더 빠른 YOLO26의 CPU 추론 속도가 결정적인 이점을 제공합니다.
- 소형 객체 탐지: aerial drone imagery 또는 IoT 센서 분석과 같이 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 높여주는 어려운 시나리오.
Link to this sectionUltralytics 대안: 최첨단 기술의 발전#
RTDETRv2와 EfficientDet 모두 강력한 장점이 있지만, 현대의 AI 개발은 최첨단 성능과 함께 원활한 개발자 경험을 제공하는 프레임워크를 요구합니다. Ultralytics 생태계는 컴퓨터 비전 작업을 위한 훨씬 더 능률적인 접근 방식을 제공합니다.
최신 탐지 기술을 탐색 중이라면, 최근 출시된 Ultralytics YOLO26이 CNN과 트랜스포머의 장점을 모두 결합했습니다.
YOLO26은 End-to-End NMS-Free Design을 구현하여 RTDETRv2의 배포 간편성을 초효율적인 YOLO 아키텍처에 도입했습니다. 또한 LLM 학습 혁신에서 영감을 받은 MuSGD Optimizer를 도입하여 뛰어난 학습 안정성을 제공합니다. DFL Removal(간소화된 내보내기 및 향상된 edge/저전력 장치 호환성을 위해 Distribution Focal Loss 제거)을 통해 YOLO26은 이전 세대보다 CPU inference 속도가 최대 43% 더 빠르며, 더 무거운 모델보다 edge computing에 탁월한 선택지가 됩니다. 아울러 ProgLoss + STAL은 IoT, 로봇 공학 및 항공 이미지 분석에 필수적인 소형 객체 인식 성능을 크게 개선한 최적화된 손실 함수를 제공합니다.
Ultralytics Python 패키지가 제공하는 사용 편의성은 독보적입니다. 개발자는 연구용 저장소에서 일반적으로 요구되는 상용구(boilerplate) 코드를 추상화하는 직관적인 API를 사용하여 모델을 학습, 검증 및 내보내기할 수 있습니다.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")Ultralytics 모델은 인스턴스 분할 및 이미지 분류를 포함한 여러 작업을 기본적으로 지원하여 다양한 산업 요구 사항을 위한 다재다능한 툴킷을 제공합니다. 또한 최신 Ultralytics 모델에서 Distribution Focal Loss(DFL)를 제거함으로써 계산 그래프가 단순화되어 임베디드 NPU 및 TPU로의 더 원활한 내보내기가 보장됩니다.
원활한 데이터 주석 및 모델 관리를 위해 Ultralytics 플랫폼은 전체 머신 러닝 수명 주기를 감독할 수 있는 포괄적인 클라우드 환경을 제공하며, 이를 통해 프로덕션에서 강력한 컴퓨터 비전 솔루션을 배포하기 위한 최고의 선택으로 자리매김했습니다.