Link to this sectionEfficientDet 대 RTDETRv2#

컴퓨터 비전 프로젝트에 최적의 아키텍처를 선택하려면 다양한 신경망 환경을 이해해야 합니다. 이 가이드에서는 매우 확장성이 뛰어난 합성곱 신경망(CNN) 제품군인 EfficientDet과 최첨단 실시간 Transformer 모델인 RTDETRv2라는 두 가지 독특한 접근 방식을 기술적으로 상세히 비교합니다. 구조적 차이, 학습 방법론, 그리고 다양한 하드웨어 환경에서의 배포 적합성을 평가합니다.

레거시 효율성과 현대적인 Transformer 기능 간의 트레이드오프를 이해함으로써 개발자는 정보에 입각한 의사결정을 내릴 수 있습니다. 또한, 새로운 Ultralytics YOLO26과 같은 현대적인 대안이 어떻게 격차를 해소하고 비교할 수 없는 속도, 정확성, 사용 편의성을 제공하는지 살펴봅니다.

Link to this sectionEfficientDet 이해하기#

EfficientDet은 모델 스케일링에 대한 원칙적인 접근 방식을 도입하여 객체 탐지 분야를 혁신했습니다.

저자: Mingxing Tan, Ruoming Pang, Quoc V. Le
조직: Google
날짜: 2019년 11월 20일
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: Google AutoML Repository
문서: EfficientDet Documentation

Link to this section아키텍처 및 핵심 개념#

EfficientDet은 핵심적으로 EfficientNet을 백본으로 활용하며 양방향 특징 피라미드 네트워크(BiFPN)를 도입합니다. BiFPN은 학습 가능한 가중치를 적용하여 서로 다른 입력 특징의 중요도를 학습함으로써 쉽고 빠른 다중 스케일 특징 융합을 가능하게 합니다. 이는 백본, 특징 네트워크, 박스/클래스 예측 네트워크의 해상도, 깊이, 너비를 동시에 균일하게 조정하는 복합 스케일링 방식과 결합됩니다.

Link to this section강점 및 한계#

EfficientDet의 가장 큰 강점은 파라미터 효율성에 있습니다. 출시 당시 EfficientDet-D0와 같은 모델은 이전 YOLO 버전과 비교하여 더 적은 파라미터와 FLOPs로 더 높은 정확도를 달성했습니다. 이로 인해 엄격한 컴퓨팅 제한이 있는 환경에서 매우 매력적인 모델이었습니다.

하지만 EfficientDet은 사후 처리 과정에서 중첩된 BBox를 필터링하기 위해 표준 NMS(Non-Maximum Suppression)에 의존하며, 이는 실시간 파이프라인에서 지연 시간 병목 현상을 유발할 수 있습니다. 또한 학습 과정은 잘 문서화되어 있지만, 최신 도구에서 발견되는 고도로 최적화된 개발자 경험과 비교할 때 EfficientDet의 미세 조정은 다소 번거로울 수 있습니다.

EfficientDet에 대해 자세히 알아보기

레거시 지원

EfficientDet이 확장 가능한 네트워크의 길을 열었지만, 현대적인 NPU에 이러한 모델을 배포하려면 종종 광범위한 수동 최적화가 필요합니다. 간소화된 배포를 위해 최신 Ultralytics 모델은 원클릭 내보내기 기능을 제공합니다.

Link to this sectionRTDETRv2 살펴보기#

RTDETRv2는 기존의 앵커 기반 CNN에서 벗어나 패러다임을 전환한 Transformer 기반 아키텍처의 진화를 나타냅니다.

저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 및 Yi Liu
조직: Baidu
날짜: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RT-DETR 리포지토리
문서: RTDETRv2 문서

Link to this sectionTransformer의 발전#

RTDETRv2는 Real-Time Detection Transformer(RT-DETR) 베이스라인을 기반으로 구축되었습니다. 전역 어텐션 메커니즘을 활용하여 표준 합성곱의 국소적 제약 없이 복잡한 장면 문맥을 이해할 수 있습니다. 가장 중요한 아키텍처상 이점은 기본적으로 NMS가 필요 없는 설계입니다. 입력 이미지에서 객체를 직접 예측함으로써 NMS 사후 처리에 필요한 휴리스틱 튜닝을 피하고 추론 파이프라인을 단순화합니다.

Link to this section강점 및 약점#

RTDETRv2는 중첩된 객체가 기존 CNN을 혼동하게 만드는 고밀도 환경에서 뛰어난 성능을 발휘합니다. COCO와 같은 복잡한 벤치마크 데이터셋에서 매우 정확합니다.

정확도에도 불구하고 Transformer 모델은 본질적으로 상당한 메모리를 요구합니다. 학습 효율성이 상대적으로 낮아 CNN과 비교했을 때 수렴하기 위해 훨씬 더 많은 에포크와 더 높은 CUDA 메모리 용량이 필요합니다. 이 때문에 RTDETRv2는 제한된 클라우드 예산으로 운영하거나 빠른 프로토타이핑이 필요한 개발자에게는 덜 적합합니다.

RTDETRv2에 대해 더 알아보기

Transformer 메모리 제약

RTDETRv2와 같은 Transformer 모델을 학습하려면 일반적으로 고성능 GPU가 필요합니다. 메모리 부족(OOM) 오류가 발생하면 Ultralytics YOLO 시리즈와 같이 학습 중 메모리 요구 사항이 낮은 모델을 사용하는 것을 고려하십시오.

Link to this section성능 벤치마크 비교#

모델 선택을 위해서는 원시 성능 지표를 이해하는 것이 필수적입니다. 다음 표는 다양한 크기에 걸친 EfficientDet과 RTDETRv2의 비교를 보여줍니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Link to this section활용 사례 및 권장 사항#

EfficientDet과 RT-DETR 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

Link to this sectionEfficientDet을 선택해야 할 때#

EfficientDet은 다음 상황에 적합한 강력한 선택지입니다:

Google Cloud 및 TPU 파이프라인: EfficientDet의 네이티브 최적화가 지원되는 Google Cloud Vision API 또는 TPU 인프라와 깊게 통합된 시스템.
컴파운드 스케일링 연구: 네트워크 깊이, 너비 및 해상도 스케일링의 균형 잡힌 효과를 연구하는 데 중점을 둔 학술적 벤치마킹.
TFLite를 통한 모바일 배포: Android 또는 임베디드 Linux 장치를 위해 TensorFlow Lite 내보내기가 특별히 필요한 프로젝트.

Link to this sectionRT-DETR을 선택해야 할 때#

RT-DETR 권장 대상:

Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며, 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
대형 객체 탐지: Transformer의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는, 주로 중대형 객체가 있는 장면.

Link to this sectionUltralytics (YOLO26)를 선택해야 할 때#

대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최상의 조합을 제공합니다:

NMS 미사용 엣지 배포: 비최대 억제 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
CPU 전용 환경: 전용 GPU 가속이 없는 디바이스에서, 최대 43% 더 빠른 YOLO26의 CPU 추론 속도가 결정적인 이점을 제공합니다.
소형 객체 탐지: aerial drone imagery 또는 IoT 센서 분석과 같이 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 높여주는 어려운 시나리오.

Link to this sectionUltralytics의 강점: YOLO26 소개#

EfficientDet과 RTDETRv2가 컴퓨터 비전 역사에 자리를 잡았지만, 현대의 프로덕션 환경은 속도, 정확성, 그리고 탁월한 개발자 경험의 완벽한 균형을 요구합니다. 최근 출시된 Ultralytics YOLO26은 이러한 서로 다른 아키텍처의 장점을 종합한 모델입니다.

YOLO26은 Ultralytics가 지닌 간소화된 생태계와 획기적인 내부 메커니즘을 결합하여 돋보입니다.

Link to this section왜 경쟁 모델 대신 YOLO26을 선택해야 할까요?#

종단간 NMS-free 설계: RTDETRv2와 같은 Transformer 모델에서 영감을 받은 YOLO26은 본질적으로 종단간(end-to-end) 모델입니다. NMS 사후 처리를 제거하여 순수 Transformer의 방대한 파라미터 비대화 없이 더 빠르고 단순한 배포 파이프라인을 보장합니다.
MuSGD 옵티마이저: (Moonshot AI의 Kimi K2와 같은) 거대 언어 모델 학습 혁신에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드를 활용합니다. 이는 RTDETRv2에 필요한 긴 학습 일정에 비해 전례 없는 학습 안정성과 훨씬 빠른 수렴 속도를 제공합니다.
에지 최적화: 최대 43% 더 빠른 CPU 추론 속도를 제공하는 YOLO26은 에지 AI를 위해 설계되었습니다. 휴대전화나 스마트 카메라와 같은 제한된 하드웨어에서 무거운 Transformer 모델보다 훨씬 뛰어난 성능을 발휘합니다.
DFL 제거: Distribution Focal Loss(DFL)를 제거하여 모델 그래프를 단순화했으며, 이를 통해 원활한 TensorRT 및 ONNX 내보내기가 가능합니다.
ProgLoss + STAL: 이러한 고급 손실 함수는 소형 객체 인식에서 현저한 개선을 가져오며, 항공 이미지 및 로봇 공학의 일반적인 병목 현상을 해결합니다.
범용성: 주로 탐지에 초점을 맞춘 RTDETRv2와 달리, YOLO26은 기본적으로 인스턴스 분할, 자세 추정, 이미지 분류, 그리고 RLE(자세용) 및 OBB 전용 각도 손실과 같은 작업별 개선 사항이 포함된 회전된 BBox(OBB)를 지원합니다.

통합 생태계

Ultralytics Platform을 활용하면 데이터셋을 관리하고, 클라우드에서 YOLO26이나 YOLO11과 같은 모델을 학습하며, 유연한 API를 통해 원활하게 배포할 수 있습니다.

Link to this sectionUltralytics를 통한 코드 단순성#

잘 관리된 Ultralytics Python API 덕분에 모델 학습과 추론이 매우 간단합니다. 개발자는 최소한의 상용구 코드만으로도 쉽게 모델을 벤치마킹하거나 학습 스크립트를 실행할 수 있습니다.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

레거시 인프라를 관리하는 사용자를 위해, 많은 호평을 받은 Ultralytics YOLOv8은 Ultralytics 생태계의 장기적인 신뢰성을 보여주며 안정적이고 강력한 선택지로 남아 있습니다. 복잡한 실시간 추적 알고리즘을 실행하든 간단한 결함 탐지를 하든, YOLO26으로 업그레이드하면 시스템이 미래에도 대비 가능하며 정확하고 메모리 효율적인 상태를 유지할 수 있습니다.

기여자

GLglenn-jocher¹⁷ PDpderrenger¹

생성됨 2025년 1월 27일업데이트됨 3주 전