효율적 탐지(EfficientDet) 대YOLO: 객체 탐지 진화의 심층 분석
컴퓨터 비전의 역동적인 세계에서 정확도와 지연 시간 간의 최적 균형을 추구하는 노력은 끊임없는 혁신을 이끌어 낸다. 각 시대를 정의한 두 가지 아키텍처는 Google EfficientDet와 알리바바의 YOLO. EfficientDet가 모델 확장에 대한 체계적인 접근법을 제시한 반면,YOLO 신경망 아키텍처 검색(NAS)을 활용해 실시간 성능의 한계를YOLO .
이 가이드는 두 모델의 아키텍처적 차별점, 성능 지표, 현대적 배포 적합성을 분석하여 포괄적인 기술적 비교를 제공합니다. 최첨단 솔루션을 찾는 개발자를 위해, Ultralytics 같은 최신 프레임워크가 이러한 기반 위에 구축되어 어떻게 우수한 사용 편의성과 성능을 제공하는지도 살펴봅니다.
EfficientDet 개요
2019년 말 출시된 EfficientDet는 객체 탐지 모델의 확장 방식에 패러다임 전환을 가져왔습니다. 출시 이전에는 확장이 종종 임의적으로 이루어졌습니다. Google 팀은 해상도, 깊이, 너비를 균일하게 확장하는 복합 확장 방식을 도입하여 다양한 자원 제약에 대응하는 모델 계열(D0-D7)을 탄생시켰습니다.
저자: Mingxing Tan, Ruoming Pang, Quoc V. Le
소속:Google
날짜: 2019년 11월 20일
Arxiv:EfficientDet 논문
GitHub:google
주요 아키텍처 기능
- BiFPN(가중 양방향 특징 피라미드 네트워크): 기존 FPN과 달리 BiFPN은 상향식 및 하향식 다중 스케일 특징 융합을 가능하게 합니다. 모든 특징이 출력에 동등하게 기여하지 않는다는 점을 인정하여, 서로 다른 입력 특징에 학습 가능한 가중치를 도입합니다.
- 복합 스케일링: 통합 계수 $\phi$가 네트워크의 너비, 깊이, 해상도를 제어하여 백본, 특징 네트워크, 예측 헤드가 조화롭게 확장되도록 보장합니다.
- EfficientNet 백본: EfficientNet을 백본으로 활용함으로써 모바일 역방향 병목 컨볼루션(MBConv) 레이어를 통해 높은 매개변수 효율성을 달성할 수 있습니다.
DAMO-YOLO 개요
알리바바 그룹이 2022년 개발한YOLO 지연 시간이 가장 중요한 산업용 애플리케이션에 엄격히 초점을 맞춰 설계되었습니다. 수동적인 아키텍처 설계에서 벗어나 NAS를 활용하여 고성능 추론을 위해 맞춤화된 효율적인 구조를 발견합니다.
저자: 쉬셴저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속:알리바바 그룹(Alibaba Group)
날짜: 2022년 11월 23일
Arxiv:YOLO
GitHub:YOLO
주요 아키텍처 혁신
- MAE-NAS 백본:YOLO '방법 인식 효율 신경망 구조 탐색(Method-Aware Efficiency Neural Architecture Search)'이라는 기법을 활용하여 추론 속도에 특화된 백본을YOLO . 이는 수동으로 설계된 CSPNet과 현저히 차별화됩니다. YOLOv5 이나 YOLOv8 사용된 수동 설계된 CSPNet과는 크게 다릅니다.
- RepGFPN: 재매개변수화(RepVGG 스타일)를 활용하여 특징을 병합함으로써 추론 시 지연 시간을 줄이면서도 훈련 중 높은 특징 표현력을 유지하는 효율적인 일반화된 FPN.
- ZeroHead: 기존 모델에서 발견된 분리형 헤드에 비해 계산 부담을 크게 줄여주는 경량 감지 헤드.
- AlignedOTA: 학습 중에 분류 및 회귀 작업 간의 불일치를 해결하는 개선된 레이블 할당 전략입니다.
성능 비교
다음 표는 다양한 모델YOLO EfficientDet와YOLO 성능을 비교합니다. EfficientDet는 광범위한 크기(고해상도 작업용 D7까지)를 제공하는 반면,YOLO 실시간 지연 시간의 최적점(T/S/M/L)에YOLO .
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| 0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| 1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| 2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| 3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| 4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| 5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| 6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| 7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
분석
- 지연 대 정확도: YOLO GPU 우수한 효율성을YOLO . 예를 들어,
DAMO-YOLOs달성하다 46.0 mAP 단순히 3.45 밀리초 T4 GPU에서의 지연 시간. 반면,EfficientDet-d3약간 더 높은 47.5 mAP 그러나 대가로 19.59 밀리초—거의 5.5배 더 느리다. - 아키텍처 노화: EfficientDet는 깊이 방향 분리 가능 컨볼루션에 크게 의존합니다. 매개변수 효율성은 높지만, 이러한 연산은 현대 GPU에서 메모리 제약이 발생하는 경우가 많아YOLO NAS 구조에서 최적화된 밀집 컨볼루션에 비해 활용도가 낮아집니다.
- 계산 요구 사항: EfficientDet-d7은 정확도(53.7 mAP)에서 미미한 이득을 얻기 위해 막대한 계산 자원(325 GFLOPs)을 필요로 하여, 에지 디바이스에 배포하기 어렵습니다.
학습 및 생태계
이 두 세대 모델 간의 사용자 경험은 극명하게 다릅니다.
효율적 생태계
EfficientDet는 Google 생태계와 TensorFlow 깊이 뿌리내리고 있습니다. 강력하지만 사용자들은 종종 다음과 같은 문제에 직면합니다:
- 의존성 복잡성: TensorFlow .x와 2.x 버전 간 전환은 어려울 수 있습니다.
- 정적 그래프의 한계: ONNX TensorRT 모델을 내보내려면 복잡한 변환 스크립트가 필요한 TensorRT , 이러한 스크립트는 모든 BiFPN 연산을 기본적으로 지원하지 않을 수 있습니다.
YOLO
YOLO 일반적으로 연구에 더 유연한 PyTorchYOLO . 그러나:
- 전문적 초점: 본질적으로 연구용 저장소입니다. 특정 탐지 작업에는 탁월하지만, 분할이나 자세 추정 같은 다른 작업에 대한 광범위한 '즉시 사용 가능한' 활용성은 부족합니다.
- 증류 의존성: 최상의 성능을 달성하기 위해YOLO 더 큰 모델로부터의 증류를 활용하여 훈련 파이프라인에 복잡성을 가중시킵니다.
생태계 문제
생산용 모델을 선택할 때는 mAP 사용자 정의 데이터에 대한 훈련 용이성도 고려해야 합니다. 통합에 몇 주가 소요되는 모델은 종종 한계 정확도 향상보다 엔지니어링 시간 측면에서 더 많은 비용이 발생합니다.
Ultralytics의 강점: YOLO26의 등장
효율적인 탐지(EfficientDet)와YOLO 컴퓨터 비전 분야의YOLO , 이 분야는 진화해 왔습니다. Ultralytics NAS 기반 모델의 구조적 효율성과 Ultralytics 사용 편의성을 결합한 차세대 비전 AI를 대표합니다.
왜 YOLO26으로 업그레이드해야 할까요?
YOLO26은 여러 획기적인 기능으로 기존 아키텍처의 문제점을 해결합니다:
- 엔드투엔드 NMS 설계: 비최대 억제(NMS) 후처리가 필요한 EfficientDet 및YOLO 달리, YOLO26은 본질적으로 엔드투엔드 방식입니다. 이는 배포 파이프라인의 주요 병목 현상을 제거하여 지연 시간 변동성을 줄이고 CoreML TensorRT 같은 형식으로의 내보내기를 단순화합니다.
- MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 안정성에서 영감을 받은 새로운 MuSGD 최적화기( SGD 뮤온의 하이브리드)는 소규모 데이터셋에서도 더 빠른 수렴과 안정적인 훈련 실행을 보장합니다.
- ProgLoss + STAL: 새로운 손실 함수(ProgLoss 및 Soft-Target Assignment Loss)는 앵커 프리 모델의 전통적인 약점인 소형 객체 탐지에서 상당한 개선을 제공합니다.
- CPU 에지 최적화: DFL(분포 초점 손실) 제거 및 아키텍처 최적화를 통해 YOLO26은 CPU 속도를 최대 43% 향상시켜 라즈베리 파이 및 모바일 배포에 최적의 선택입니다.
비교 요약
| 기능 | EfficientDet | DAMO-YOLO | Ultralytics YOLO26 |
|---|---|---|---|
| 아키텍처 | BiFPN + 복합 스케일링 | NAS + RepGFPN | 엔드투엔드 NMS |
| 후처리 | NMS | NMS | 없음 (종단 간) |
| 작업 지원 | 객체 탐지 | 객체 탐지 | detect, segment, Pose, obb, classify |
| 플랫폼 | TensorFlow | PyTorch | Ultralytics Platform |
| 배포 | 복합체 | 보통 | 원클릭 (10개 이상의 형식) |
사용 편의성과 교육
Ultralytics 특징 중 하나는 통합된 API입니다. 객체 탐지 모델, 방향성 경계 상자(OBB) 모델 또는 자세 추정 모델을 훈련하더라도 코드는 일관되고 간단하게 유지됩니다.
최신 YOLO26 모델을 사용자 지정 데이터로 얼마나 쉽게 훈련시킬 수 있는지 보여드리겠습니다:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")
실제 사용 사례
EfficientDet는 언제 사용하나요?
효율적 탐지(EfficientDet)는 다음과 같은 시나리오에서 여전히 관련성이 있습니다:
- 레거시 Google Pipelines: 구형 Google Vision API 또는 TPU 인프라와 깊이 통합된 시스템.
- 학술적 벤치마킹: 복합 스케일링 연구의 표준 기준선으로서.
YOLO 언제 사용하나요?
YOLO 다음 분야에서YOLO :
- 엄격한 GPU 제약: 밀리초 단위의 시간이 중요한 산업용 제조 라인에서 하드웨어가 NVIDIA 고정된 환경.
- 비디오 분석: 처리량(배치 크기 1)이 주요 지표인 고프레임률(FPS) 비디오 스트림 처리.
YOLO26은 언제 사용하나요?
YOLO26은 다음에 권장되는 솔루션입니다:
- 엣지 AI: 모바일폰, 드론 또는 IoT 기기에 배포되며, NMS 없는 추론으로 애플리케이션 로직을 단순화하고 CPU 중요한 환경에서 활용됩니다.
- 멀티태스크 애플리케이션: 단일 코드베이스 내에서 탐지와 함께 인스턴스 분할 또는 자세 추정이 필요한 프로젝트.
- 신속한 개발: Ultralytics 데이터 수집부터 배포까지 몇 주가 아닌 몇 시간 내에 진행해야 하는 팀을 위한 솔루션.
결론
EfficientDet이 스케일링의 중요성을 가르쳐 주었고,YOLO NAS의 힘을YOLO , Ultralytics 이러한 교훈들을 종합하여 즉시 생산 환경에 투입 가능한 강력한 모델로 탄생시켰습니다. NMS) NMS 설계, 다양한 작업에 걸친 다용도성, 그리고 잘 관리된 생태계를 바탕으로, YOLO26은 현대 개발자에게 컴퓨터 비전 분야에서 성공을 거둘 수 있는 가장 견고한 길을 제시합니다.
모델 아키텍처에 대한 추가적인 탐구를 위해 다음과의 비교 검토를 고려하십시오: YOLOv10 또는 RT-DETR과의 비교를 검토해 보시기 바랍니다. 이들 역시 트랜스포머 기반 혁신을 탐구합니다.