EfficientDet vs RTDETRv2: 객체 detect 아키텍처 심층 비교

컴퓨터 비전 프로젝트를 위한 최적의 아키텍처를 선택하려면 다양한 신경망 환경을 탐색해야 합니다. 이 가이드는 두 가지 접근 방식인 고도로 확장 가능한 Convolutional Neural Network(CNN) 계열인 EfficientDet과 최첨단 실시간 트랜스포머 모델인 RTDETRv2 간의 상세한 기술 비교를 다룹니다. 우리는 다양한 하드웨어 환경에서 이들의 구조적 차이점, 학습 방법론 및 배포 적합성을 평가합니다.

레거시 효율성과 현대 트랜스포머 기능 간의 절충점을 이해함으로써 개발자는 정보에 입각한 결정을 내릴 수 있습니다. 또한, 새로운 Ultralytics YOLO26과 같은 현대적인 대안이 어떻게 격차를 해소하고 비교할 수 없는 속도, 정확성 및 사용 편의성을 제공하는지 살펴보겠습니다.

효율적인 탐지 이해하기

EfficientDet은 모델 스케일링에 대한 원칙적인 접근 방식을 도입하여 객체 detect에 혁명을 일으켰습니다.

작성자: Mingxing Tan, Ruoming Pang, Quoc V. Le
조직:Google
날짜 날짜: 2019년 11월 20일
Arxiv:1911.09070
GitHub:Google 저장소
문서:EfficientDet 문서

아키텍처 및 핵심 개념

본질적으로 EfficientDet은 EfficientNet을 백본으로 활용하고 양방향 특징 피라미드 네트워크(BiFPN)를 도입합니다. BiFPN은 학습 가능한 가중치를 적용하여 다양한 입력 특징의 중요도를 학습함으로써 쉽고 빠른 다중 스케일 특징 융합을 가능하게 합니다. 이는 모든 백본, 특징 네트워크, 박스/클래스 예측 네트워크의 해상도, 깊이, 너비를 동시에 균일하게 스케일링하는 복합 스케일링 방법과 결합됩니다.

장점과 한계

EfficientDet의 주요 강점은 파라미터 효율성입니다. 출시 당시 EfficientDet-D0와 같은 모델은 이전 YOLO 버전에 비해 더 적은 파라미터와 FLOPs로 더 높은 정확도를 달성했습니다. 이는 엄격한 연산 제약이 있는 환경에서 매우 매력적이었습니다.

그러나 EfficientDet는 후처리 과정에서 중첩된 바운딩 박스를 필터링하기 위해 표준 비최대 억제(NMS)에 의존하는데, 이는 실시간 파이프라인에서 지연 병목 현상을 유발할 수 있습니다. 또한 훈련 과정은 잘 문서화되어 있지만, EfficientDet의 미세 조정은 현대적인 도구에서 볼 수 있는 고도로 최적화된 개발자 경험에 비해 번거로울 수 있습니다.

EfficientDet에 대해 자세히 알아보세요.

레거시 지원

EfficientDet가 확장 가능한 네트워크의 길을 열었지만, 현대식 NPU에 이러한 모델을 배포하려면 종종 광범위한 수동 최적화가 필요합니다. 간소화된 배포를 위해 최신 Ultralytics 원클릭 내보내기 기능을 제공합니다.

RTDETRv2 탐구하기

RTDETRv2는 트랜스포머 기반 아키텍처의 진화를 나타내며, 기존 앵커 기반 CNN에서 벗어나 새로운 패러다임을 제시합니다.

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
조직조직: Baidu
날짜:24
Arxiv:2407.17140
GitHub:RT-DETR 리포지토리
Docs:RTDETRv2 문서

트랜스포머의 발전

RTDETRv2는 실시간 detect 트랜스포머(RT-DETR) 기반을 토대로 구축되었습니다. 전역 어텐션 메커니즘을 활용하여, 모델이 표준 컨볼루션의 지역화된 제약 없이 복잡한 장면 컨텍스트를 이해할 수 있도록 합니다. 가장 중요한 아키텍처적 장점은 기본적으로 NMS-free 설계라는 점입니다. 입력 이미지에서 객체를 직접 예측함으로써 추론 파이프라인을 간소화하고, NMS 후처리에서 요구되는 휴리스틱 튜닝을 피할 수 있습니다.

강점과 약점

RTDETRv2는 중첩된 객체가 기존 CNN을 혼란스럽게 하는 고밀도 환경에서 탁월한 성능을 발휘합니다. COCO 같은 복잡한 벤치마크 데이터셋에서도 높은 정확도를 보입니다.

정확성에도 불구하고 트랜스포머 모델은 본질적으로 상당한 메모리를 요구합니다. 학습 효율성은 현저히 낮으며, CNN에 비해 수렴하는 데 훨씬 더 많은 에포크와 더 높은 CUDA 메모리 사용량을 필요로 합니다. 이로 인해 RTDETRv2는 제한된 클라우드 예산으로 작업하거나 빠른 프로토타이핑이 필요한 개발자에게는 덜 이상적입니다.

RTDETRv2에 대해 자세히 알아보세요.

변환기 메모리 제약 조건

RTDETRv2와 같은 트랜스포머 모델 훈련에는 일반적으로 고성능 GPU가 필요합니다. 메모리 부족(OOM) 오류가 발생할 경우, 훈련 중 메모리 요구량이 낮은 모델을 사용하는 것을 고려하십시오. 예를 들어 Ultralytics YOLO 시리즈와 같이 메모리 요구 사항이 낮은 모델을 사용하는 것을 고려하십시오.

성능 벤치마크 비교

모델 선택을 위해서는 원시 성능 지표를 이해하는 것이 매우 중요합니다. 다음 표는 다양한 크기에서 EfficientDet와 RTDETRv2의 비교를 보여줍니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
0	640	34.6	10.2	3.92	3.9	2.54
1	640	40.5	13.5	7.31	6.6	6.1
2	640	43.0	17.7	10.92	8.1	11.0
3	640	47.5	28.0	19.59	12.0	24.9
4	640	49.7	42.8	33.55	20.7	55.2
5	640	51.5	72.5	67.86	33.7	130.0
6	640	52.6	92.8	89.29	51.9	226.0
7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

사용 사례 및 권장 사항

EfficientDet와 RT-DETR 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

EfficientDet을 선택해야 하는 경우

EfficientDet은 다음 경우에 강력한 선택입니다:

Google Cloud 및 TPU 파이프라인: EfficientDet이 네이티브 최적화를 갖춘 Google Cloud Vision API 또는 TPU 인프라와 깊이 통합된 시스템.
복합 스케일링 연구: 균형 잡힌 네트워크 깊이, 너비 및 해상도 스케일링의 효과를 연구하는 데 중점을 둔 학술 벤치마킹.
TFLite를 통한 모바일 배포: Android 또는 임베디드 Linux 장치를 위해 TensorFlow Lite 내보내기가 특별히 필요한 프로젝트.

RT-DETR 선택해야 할 때

RT-DETR 다음에 권장RT-DETR :

트랜스포머 기반 detect 연구: NMS 없이 종단 간 객체 detect를 위한 어텐션 메커니즘 및 트랜스포머 아키텍처를 탐구하는 프로젝트.
유연한 지연 시간을 가진 고정확도 시나리오: 감지 정확도가 최우선 순위이며 약간 더 높은 추론 지연 시간이 허용되는 애플리케이션.
대형 객체 detect: 트랜스포머의 전역 어텐션 메커니즘이 자연스러운 이점을 제공하는 주로 중대형 객체가 있는 장면.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.

Ultralytics : YOLO26 소개

효율적인 탐지(EfficientDet)와 실시간 탐지(RTDETRv2)가 컴퓨터 비전 역사에 그 위치를 확고히 했음에도, 현대 생산 환경은 속도, 정확도, 그리고 탁월한 개발자 경험의 완벽한 균형을 요구합니다. 최근 출시된 Ultralytics 이러한 서로 다른 아키텍처들의 최상의 측면을 종합합니다.

YOLO26은 간소화된 생태계를 결합함으로써 두각을 나타냅니다 Ultralytics 의 간소화된 생태계와 혁신적인 내부 메커니즘을 결합한 점에서 두드러집니다.

경쟁사보다 YOLO26을 선택해야 하는 이유는 무엇인가요?

종단 간 NMS-Free 설계: RTDETRv2와 같은 트랜스포머에서 영감을 받아 YOLO26은 기본적으로 종단 간(end-to-end)입니다. NMS 후처리를 제거하여 순수 트랜스포머의 방대한 파라미터 증가 없이 더 빠르고 간단한 배포 파이프라인을 보장합니다.
MuSGD 옵티마이저: 대규모 언어 모델 훈련 혁신(Moonshot AI의 Kimi K2와 같은)에서 영감을 받아, YOLO26은 SGD와 Muon의 하이브리드 방식을 활용합니다. 이는 RTDETRv2에 필요한 장기적인 스케줄과 비교하여 전례 없는 훈련 안정성과 훨씬 더 빠른 수렴 속도를 제공합니다.
엣지에 최적화: 최대 43% 더 빠른 CPU 추론을 통해 YOLO26은 엣지 AI를 위해 구축되었습니다. 휴대폰 및 스마트 카메라와 같은 제한된 하드웨어에서 무거운 트랜스포머 모델을 쉽게 능가합니다.
DFL 제거: Distribution Focal Loss 제거로 모델 그래프가 간소화되어 TensorRT 및 ONNX 내보내기를 원활하게 합니다.
ProgLoss + STAL: 이러한 고급 손실 함수는 작은 객체 인식에서 주목할 만한 개선을 가져오며, 항공 이미지 및 로봇 공학의 일반적인 병목 현상을 해결합니다.
다용도성: 주로 detect에 중점을 둔 RTDETRv2와 달리, YOLO26은 자세 추정을 위한 RLE 및 OBB를 위한 특수 각도 손실과 같은 작업별 개선 사항을 통해 인스턴스 segment, 자세 추정, 이미지 분류 및 지향성 바운딩 박스 (OBB)를 기본적으로 지원합니다.

통합 에코시스템

Ultralytics 활용하면 데이터셋을 관리하고, YOLO26이나 YOLO11 과 같은 모델을 클라우드에서 훈련시키고, 유연한 API를 통해 원활하게 배포할 수 있습니다.

Ultralytics를 통한 코드 간결성

잘 관리된 Ultralytics Python 모델 훈련과 추론을 매우 쉽게 만들어 줍니다. 개발자는 최소한의 상용구 코드로 모델 벤치마킹을 수행하거나 훈련 스크립트를 실행할 수 있습니다.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

레거시 인프라를 관리하는 분들을 위해, 높은 평가를 받고 있는 Ultralytics YOLOv8 은 여전히 안정적이고 강력한 선택지로, Ultralytics 장기적인 신뢰성을 입증합니다. 복잡한 실시간 추적 알고리즘을 실행하든 간단한 결함 감지를 수행하든, YOLOv6로 업그레이드하면 시스템이 미래에도 대응 가능하며 높은 정확도와 메모리 효율성을 보장합니다.