YOLOv9 EfficientDet: 아키텍처와 성능에 대한 기술적 비교
컴퓨터 비전 분야의 진화하는 환경에서, 올바른 객체 탐지 아키텍처를 선택하는 것은 시스템 지연 시간, 정확도 및 배포 복잡성에 영향을 미치는 중요한 결정입니다. 본 가이드는 YOLOv9(2024년 초에 소개된 최첨단 모델)과 효율적인 확장성으로 Google 영향력 있는 아키텍처인 EfficientDet 간의 상세한 기술적 비교를 제공합니다. 우리는 이들의 구조적 차이점, 성능 지표 및 실제 적용 분야에 대한 적합성을 분석합니다.
성능 지표 분석
다음 표는 다양한 모델 스케일의 성능을 비교합니다. YOLOv9 일반적으로 기존 EfficientDet 아키텍처에 비해 현대 하드웨어에서 우수한 정확도 대비 매개변수 비율과 더 빠른 추론 속도를 보여줍니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| 0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| 1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| 2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| 3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| 4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| 5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| 6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| 7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
모델 개요
9
저자: 왕젠야오(王建耀), 마크 리아오홍위안(廖宏源)
소속: 대만 중앙연구원 정보과학연구원
날짜: 2024-02-21
링크:Arxiv | GitHub | Docs
YOLOv9 딥 네트워크의 '정보 병목 현상' 문제를 해결하기 위해 중대한 아키텍처 혁신을 YOLOv9 . 핵심 기여는 보조 감독 분기를 통해 신뢰할 수 있는 기울기를 생성하여 심층 레이어가 중요한 특징 정보를 유지하도록 보장하는 프로그래머블 기울기 정보(PGI)입니다. 또한, 매개변수 효율성을 극대화하는 경량 아키텍처인 일반화된 효율적 레이어 집계 네트워크(GELAN)를 활용합니다.
EfficientDet
저자: Mingxing Tan, Ruoming Pang, Quoc V. Le
소속:Google
날짜: 2019-11-20
링크:Arxiv | GitHub
EfficientDet는 양방향 피처 피라미드 네트워크(BiFPN)를 도입한 AutoML 분야의 선구적인 연구입니다. 기존 FPN과 달리 BiFPN은 학습 가능한 가중치를 도입하여 다중 스케일 피처 융합을 용이하게 합니다. 또한 이 모델은 해상도, 깊이, 너비를 균일하게 조정하는 복합 스케일링 기법을 활용하여 D0부터 D7에 이르는 광범위한 자원 제약 조건에서도 우수한 성능을 달성합니다.
심층적인 아키텍처 분석
특징 융합: GELAN 대 BiFPN
이러한 모델들의 주요 차별점은 특징을 집계하는 방식에 있습니다. EfficientDet는 복잡한 BiFPN 구조에 의존하는데, 이는 이론적으로 FLOP 측면에서 효율적이지만 메모리 집약적일 수 있으며 특정 하드웨어 가속기(예: TensorRT과 같은 특정 하드웨어 가속기에 대한 최적화가 더 어려울 수 있습니다.
반면 YOLOv9 GELAN 아키텍처는 CSPNet과 ELAN의 장점을 결합합니다. 복잡한 융합 연결보다 기울기 경로 계획에 우선순위를 둡니다. 이로 인해 네트워크는 매개변수가 더 가벼울 뿐만 아니라 "하드웨어 친화적"이어서 훈련 및 추론 시 GPU 높아집니다.
경사 흐름과 정보 손실
EfficientDet는 매우 깊은 EfficientNet 백본을 통해 표준 역전파에 의존합니다. YOLOv9 심층 신경망이 입력 데이터 세부사항을 "잊어버리는" 문제를 YOLOv9 . PGI를 통해 YOLOv9 학습 과정을 안내하는 보조 가역 분기를 YOLOv9 , 추론 시 이러한 보조 분기를 유지하는 계산 비용 없이도 주 분기가 견고한 의미적 특징을 포착하도록 보장합니다.
경고: PGI 혜택
프로그래머블 그라디언트 정보(PGI)는 YOLOv9 적은 데이터로도 더 나은 수렴을 달성 YOLOv9 하여, 주석이 달린 예시가 부족한 맞춤형 데이터셋에서 특히 효과적입니다.
에코시스템 및 사용 편의성
개발자들에게 가장 큰 차이점 중 하나는 이러한 모델을 둘러싼 생태계입니다.
EfficientDet는 주로 TensorFlow 기반을 두고 있습니다. 강력하지만, 이를 활용하려면 복잡한 종속성 체인이나 자주 업데이트되지 않을 수 있는 오래된 저장소를 탐색해야 하는 경우가 많습니다.
YOLOv9Ultralytics 통합되어 간소화된 경험을 제공합니다. 개발자는 간단한 Python 통해 모델에 접근할 수 있어, 단 몇 분 만에 훈련, 검증 및 배포가 가능합니다. Ultralytics 데이터 증강, 로깅(예: MLflow 또는 Comet) 및 내보내기를 자동으로 처리합니다.
from ultralytics import YOLO
# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for deployment
model.export(format="onnx")
이 예시는 Ultralytics 사용 편의성을 보여줍니다. 해당 프레임워크는 자동 혼합 정밀도(AMP) 및 멀티GPU 기본적으로 지원하여 훈련 효율성을 보장합니다.
다용도성과 배치
작업 지원
EfficientDet은 근본적으로 객체 탐지를 위해 설계되었습니다. 분할이나 자세 추정 같은 작업에 적용하려면 상당한 아키텍처 수정과 맞춤형 코드가 필요합니다.
Ultralytics ( YOLOv9 그 후속 모델 포함)은 다음과 같은 기능을 기본적으로 지원하는 다목적 코드베이스를 기반으로 구축됩니다:
에지 호환성 및 메모리
EfficientDet-D0는 소규모이지만, D7으로 확장할 경우 해상도 확장(최대 1536x1536)으로 인해 막대한 메모리 비용이 발생합니다. YOLOv9 대부분의 벤치마크에서 표준 640x640 입력 YOLOv9 우수한 정확도를 달성합니다. 이 낮은 입력 해상도는 VRAM 메모리 요구량을 크게 줄여, 소비자용 GPU에서 더 큰 배치 크기와 더 빠른 실험을 가능하게 합니다.
또한 Ultralytics 다음과 같은 형식으로 원클릭 내보내기를 지원합니다. TFLite 모바일용, OpenVINO ( Intel ), CoreML 애플 CoreML ) 등의 형식으로 원클릭 내보내기를 지원하여 광범위한 에지 호환성을 보장합니다.
실제 사용 사례
모델 선택은 종종 특정 애플리케이션의 성공을 좌우합니다:
- 소매 분석: 진열대 상품 수량 계산을 위해, YOLOv9 은 PGI의 미세 세부 사항 유지 능력 덕분에 소형 물체에 대한 높은 정확도(mAP)로 인해 우수합니다.
- 자율 드론: 임베디드 하드웨어(예: Jetson Orin)에서 실시간 추론이 필요한 시나리오에서, YOLOv9 효율적인 GELAN 아키텍처는 EfficientDet의 복잡한 BiFPN 레이어가 종종 따라잡기 어려운 필수적인 FPS를 제공합니다.
- 레거시 시스템: 특정 모델 아키텍처가 하드웨어 파이프라인에 하드코딩된 연구 비교나 기존 Google TPU 환경에서는EfficientDet가 여전히 유효합니다.
미래: YOLO26
YOLOv9 탁월한 성능을 YOLOv9 , AI 분야는 빠르게 진화하고 있습니다. Ultralytics 새로운 프로젝트에 권장되는 선택지인 YOLO26으로 혁신을 Ultralytics .
YOLO26은 YOLO 장점을 계승하면서도, 비최대 억제(NMS) 후처리 과정의 지연 및 복잡성을 제거한 내장형 엔드투엔드 NMS 설계를 도입했습니다. SGD )의 하이브리드인 MuSGD 최적화기를적용하고, 더 간편한 내보내기를 위해 분포 초점 손실(DFL)을 제거했습니다. 이러한 변경으로 CPU 속도가 최대 43% 향상되고 훈련 안정성이 개선되었습니다.
또한 YOLO26은 ProgLoss + STAL (소프트 타겟 앵커 손실)을 통합하여 로봇 공학 및 항공 이미징에 중요한 소형 물체 인식 성능을 현저히 개선했습니다. 속도, 정확도, 배포 용이성의 궁극적인 균형을 추구하는 개발자에게 YOLO26은 새로운 표준을 제시합니다.
결론
두 아키텍처 모두 컴퓨터 비전 역사에서 그 위치를 인정받았습니다. EfficientDet는 복합 스케일링의 힘을 입증했으며, YOLOv9 는 프로그래머블 그라디언트가 심층 신경망에서 정보를 복원하는 방식을 보여주었습니다. 그러나 현대적인 생산 환경에서는 YOLOv9 최신 YOLO26을 모두 지원하는 Ultralytics 유지 관리성, 훈련 속도, 배포 유연성 측면에서 뚜렷한 이점을 제공합니다.
참고
- YOLOv10 EfficientDet: 최초의 NMS YOLO와의 비교
- YOLO26 vs YOLOv9: 최신 세대 업그레이드 심층 분석
- Ultralytics : 모델을 훈련하고 배포하는 가장 간단한 방법.