EfficientDet против DAMO-YOLO: техническое сравнение архитектур обнаружения объектов
При создании масштабируемых конвейеров computer vision выбор правильной архитектуры модели — это критически важное решение, которое влияет как на возможность развертывания, так и на точность обнаружения. Это руководство содержит подробное техническое сравнение двух известных архитектур в области визуального распознавания: EfficientDet и DAMO-YOLO.
Хотя обе модели привнесли значительные инновации в область object detection, стремительное развитие ИИ в компьютерном зрении проложило путь к более интегрированным экосистемам. В этом анализе мы рассмотрим ключевые механизмы этих устаревших сетей и покажем, почему современные решения, такие как Ultralytics Platform и Ultralytics YOLO26, стали отраслевым стандартом для производственных сред.
EfficientDet: масштабируемое и эффективное обнаружение объектов
Представленная исследователями Google, модель EfficientDet была разработана для систематического масштабирования архитектуры при сохранении высокой эффективности. Это было достигнуто за счет использования композитного масштабирования по глубине, ширине сети и разрешению входных данных.
Детали EfficientDet:
Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl
Архитектурные инновации
Основной вклад EfficientDet — это двунаправленная пирамидальная сеть признаков (BiFPN). В отличие от традиционных FPN, BiFPN обеспечивает легкое и быстрое слияние признаков разных масштабов за счет использования обучаемых весов для понимания значимости различных входных признаков. Это сочетается с backbone EfficientNet, что дает семейство моделей (от D0 до D7), масштабируемых предсказуемым образом.
Сильные и слабые стороны
Ключевое преимущество EfficientDet заключается в эффективности параметров. Для задач, где необходимо максимизировать mean Average Precision (mAP) в сильно ограниченных облачных средах, метод композитного масштабирования очень предсказуем. Однако EfficientDet, как известно, сложно обучать с нуля, и она часто требует значительной hyperparameter tuning. Кроме того, сильная зависимость от специфических операций TensorFlow делает переход к развертыванию на периферийных устройствах через ONNX или TensorRT более трудоемким по сравнению с оптимизированными export capabilities, доступными в современных моделях YOLO.
DAMO-YOLO: автоматизированный поиск архитектуры в действии
DAMO-YOLO представляет собой иной подход, использующий нейросетевой поиск архитектуры (NAS) для автоматического проектирования оптимальных структур сети для вывода в реальном времени.
Детали DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Архитектурные инновации
DAMO-YOLO внедряет ряд новых технологий. В ней используется сгенерированный с помощью NAS backbone под названием MAE-NAS, эффективная архитектура RepGFPN для шеи (neck) и дизайн ZeroHead, который существенно снижает вычислительные затраты на detection head. Кроме того, модель использует AlignedOTA для назначения меток и сильно полагается на улучшение за счет дистилляции знаний для повышения производительности своих меньших вариантов.
Сильные и слабые стороны
DAMO-YOLO выделяется скоростью вывода на GPU, специально спроектированной для развертывания на архитектурах NVIDIA с использованием TensorRT. Убрав тяжелые структуры головы (head), модель обеспечивает предсказания с низкой задержкой. С другой стороны, автоматизированный поиск архитектуры может сделать структуру модели непрозрачной и сложной для ручной отладки или тонкой настройки для специализированных периферийных устройств. В отличие от высокоуниверсальной Ultralytics YOLO11, DAMO-YOLO в основном сфокусирована на стандартном обнаружении ограничивающих рамок (bounding box) и не имеет встроенной поддержки таких продвинутых задач, как pose estimation или oriented bounding box (OBB), «из коробки».
Сравнение производительности
Понимание эмпирических компромиссов необходимо для выбора модели. В таблице ниже сравнивается семейство EfficientDet и серия DAMO-YOLO по ключевым performance metrics.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
EfficientDet-d7 достигает высочайшей теоретической точности, но требует огромных вычислительных мощностей, что делает её непригодной для edge AI. DAMO-YOLO предлагает исключительную скорость работы с TensorRT, хотя обычно требует больше параметров, чем младшие модели EfficientDet, для достижения сопоставимой точности.
Варианты использования и рекомендации
Выбор между EfficientDet и DAMO-YOLO зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать EfficientDet
EfficientDet — это хороший выбор для:
- Конвейеров Google Cloud и TPU: Систем, глубоко интегрированных с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследований в области составного масштабирования: Академических бенчмарков, сфокусированных на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
- Развертывания на мобильных устройствах через TFLite: Проектов, которые специально требуют экспорта в TensorFlow Lite для Android или встроенных Linux-устройств.
Когда выбирать DAMO-YOLO
DAMO-YOLO рекомендуется для:
- Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
- Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Преимущество Ultralytics: продвижение вперед за рамки устаревших моделей
Хотя EfficientDet и DAMO-YOLO предоставляют ценные академические знания, современным разработчикам требуются фреймворки, сочетающие передовую производительность с удобством для разработчика. Именно здесь экосистема Ultralytics ecosystem превосходит остальные.
Непревзойденная простота использования и экосистема
Развертывание моделей из отдельных, сильно кастомизированных исследовательских репозиториев часто приводит к кошмарам при интеграции. Ultralytics предоставляет унифицированную, глубоко well-maintained ecosystem с обширной документацией и Python-ориентированным API. Используешь ли ты Google Colab для обучения или экспортируешь модель в CoreML для мобильного вывода, конвейер требует всего несколько строк кода.
from ultralytics import YOLO
# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX for production
model.export(format="onnx")Революция YOLO26
Для разработчиков, оценивающих EfficientDet или DAMO-YOLO, Ultralytics YOLO26 представляет собой окончательный эволюционный шаг. Выпущенная в начале 2026 года, она привносит революционные возможности:
- Сквозной дизайн без NMS: впервые представленный YOLOv10, YOLO26 нативно устраняет необходимость в пост-обработке через подавление немаксимумов (NMS). Это означает значительно более простую архитектуру развертывания и стабильную задержку на различном оборудовании.
- До 43% более быстрый вывод на CPU: для периферийных развертываний без мощных GPU — сценариев, где DAMO-YOLO испытывает трудности — YOLO26 глубоко оптимизирована, обеспечивая колоссальное ускорение на стандартных CPU.
- Оптимизатор MuSGD: преодолевая разрыв между инновациями в LLM и компьютерным зрением, YOLO26 включает оптимизатор MuSGD (вдохновленный Moonshot AI), обеспечивающий невероятно стабильное обучение и быструю сходимость по сравнению с хрупкими циклами обучения EfficientDet.
- Удаление DFL: отказ от Distribution Focal Loss упрощает процесс экспорта, гарантируя превосходную совместимость с маломощными микроконтроллерами и устройствами Raspberry Pi.
- ProgLoss + STAL: эти передовые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, что является областью, где старые архитектуры традиционно проигрывают.
Эффективность памяти и универсальность задач
Unlike transformer models or heavily fused NAS networks, Ultralytics models are characterized by their stringent memory efficiency. They consume remarkably lower CUDA memory during training, enabling rapid iteration on consumer-grade hardware.
Более того, в то время как EfficientDet и DAMO-YOLO жестко ограничены ограничивающими рамками, Ultralytics нативно поддерживает instance segmentation и image classification в рамках того же интуитивно понятного фреймворка. Для пользователей, поддерживающих старые проекты, Ultralytics YOLOv8 остается надежной и широко используемой альтернативой, которую стоит рассмотреть.
Заключение
Выбор правильной архитектуры компьютерного зрения включает в себя взвешивание теоретической производительности и реальности развертывания. EfficientDet предлагает математически элегантный подход к масштабированию, а DAMO-YOLO обеспечивает впечатляющую скорость работы на GPU. Однако для команд, которые отдают приоритет быстрой разработке, надежному развертыванию и передовым функциям, Ultralytics models явно стоят впереди. Объединяя инновации, такие как вывод без NMS и оптимизация MuSGD, YOLO26 гарантирует, что твои проекты в области компьютерного зрения строятся на самой функциональной, поддерживаемой и эффективной базе из существующих сегодня.