EfficientDet против DAMO-YOLO: Техническое сравнение архитектур обнаружения объектов
При создании масштабируемых конвейеров компьютерного зрения выбор правильной архитектуры модели является критически важным решением, влияющим как на возможность развертывания, так и на точность обнаружения. Это руководство представляет углубленное техническое сравнение двух хорошо известных архитектур в области визуального распознавания: EfficientDet и DAMO-YOLO.
Хотя обе модели привнесли значительные инновации в область обнаружения объектов, быстрое развитие компьютерного зрения открыло путь для более интегрированных экосистем. В ходе этого анализа мы рассмотрим основные механизмы этих устаревших сетей, а также покажем, почему современные решения, такие как платформа Ultralytics и Ultralytics YOLO26, стали отраслевым стандартом для производственных сред.
EfficientDet: Масштабируемое и эффективное обнаружение объектов
Представленный исследователями Google, EfficientDet был разработан для систематического масштабирования архитектуры модели при сохранении высокой эффективности. Это было достигнуто за счет использования составного масштабирования по глубине, ширине сети и разрешению входных данных.
Подробности EfficientDet:
Авторы: Mingxing Tan, Ruoming Pang, and Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl
Архитектурные инновации
Основной вклад EfficientDet — это двунаправленная пирамидальная сеть признаков (BiFPN). В отличие от традиционных FPN, BiFPN обеспечивает легкое и быстрое слияние признаков разных масштабов за счет использования обучаемых весов для понимания важности различных входных признаков. Это сочетается с базовой сетью EfficientNet, что приводит к созданию семейства моделей (от D0 до D7), которые масштабируются предсказуемо.
Сильные и слабые стороны
Ключевая сила EfficientDet заключается в ее эффективности по параметрам. Для задач, где необходимо максимизировать среднюю точность (mAP) в сильно ограниченных облачных средах, ее метод составного масштабирования является весьма предсказуемым. Однако EfficientDet notoriously сложна для обучения с нуля и часто требует существенной настройки гиперпараметров. Кроме того, ее сильная зависимость от специфических операций TensorFlow делает переход к развертыванию на периферийных устройствах через ONNX или TensorRT более громоздким по сравнению с упрощенными возможностями экспорта, присущими современным моделям YOLO.
Узнайте больше об EfficientDet
DAMO-YOLO: Автоматизированный поиск архитектуры в действии
DAMO-YOLO представляет собой особый подход, использующий Neural Architecture Search (NAS) для автоматического проектирования оптимальных сетевых структур для инференса в реальном времени.
Подробности DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Архитектурные инновации
DAMO-YOLO представляет несколько новых технологий. Она использует магистральную сеть, сгенерированную NAS, под названием MAE-NAS, эффективную RepGFPN для своей промежуточной части и архитектуру ZeroHead, которая значительно снижает вычислительные затраты детекционной головы. Кроме того, она использует AlignedOTA для назначения меток и активно опирается на улучшение с помощью дистилляции знаний для повышения производительности своих меньших вариантов.
Сильные и слабые стороны
DAMO-YOLO выделяется своей скоростью инференса на GPU, специально разработанной для развертывания на архитектурах NVIDIA с использованием TensorRT. Отказавшись от тяжелых головных структур, модель обеспечивает предсказания с низкой задержкой. И наоборот, автоматизированный поиск архитектуры может сделать структуру модели непрозрачной и затруднить ручную отладку или тонкую настройку для пользовательских периферийных устройств. В отличие от высокоуниверсальной Ultralytics YOLO11, DAMO-YOLO в основном ориентирована на стандартное обнаружение ограничивающих рамок, не имея встроенной поддержки для таких продвинутых задач, как оценка позы или обнаружение ориентированных ограничивающих рамок (OBB).
Сравнение производительности
Понимание эмпирических компромиссов имеет решающее значение для выбора модели. В таблице ниже сравнивается семейство EfficientDet с серией DAMO-YOLO по ключевым метрикам производительности.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Анализ данных
EfficientDet-d7 достигает наивысшей теоретической точности, но требует огромной вычислительной мощности, что делает ее непригодной для периферийного ИИ. DAMO-YOLO предлагает исключительные скорости TensorRT, хотя обычно требует больше параметров, чем модели EfficientDet более низкого уровня, для достижения сопоставимой точности.
Сценарии использования и рекомендации
Выбор между EfficientDet и DAMO-YOLO зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать EfficientDet
EfficientDet является отличным выбором для:
- Конвейеры Google Cloud и TPU: Системы, глубоко интегрированные с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследование составного масштабирования: Академическое бенчмаркинг, сфокусированное на изучении влияния сбалансированного масштабирования глубины, ширины и разрешения сети.
- Мобильное развертывание через TFLite: Проекты, которые специально требуют экспорта TensorFlow Lite для Android или встраиваемых устройств на Linux.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO рекомендуется для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Преимущество Ultralytics: Прогресс за пределами устаревших моделей
Хотя EfficientDet и DAMO-YOLO предоставляют ценные академические сведения, современным разработчикам требуются фреймворки, которые сочетают передовую производительность с эргономикой разработки. Именно здесь преуспевает экосистема Ultralytics.
Непревзойденная простота использования и экосистема
Развертывание моделей из отдельных, сильно кастомизированных исследовательских репозиториев часто приводит к кошмарам интеграции. Ultralytics предоставляет унифицированную, глубоко поддерживаемую экосистему с обширной документацией и pythonic API. Независимо от того, используете ли вы Google Colab для обучения или экспортируете в CoreML для мобильного вывода, конвейер требует всего несколько строк кода.
from ultralytics import YOLO
# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX for production
model.export(format="onnx")
Революция YOLO26
Для разработчиков, оценивающих EfficientDet или DAMO-YOLO, Ultralytics YOLO26 представляет собой высший эволюционный шаг. Выпущенный в начале 2026 года, он предлагает возможности, меняющие парадигму:
- Сквозная архитектура без NMS: Впервые разработанная YOLOv10, YOLO26 изначально устраняет необходимость в постобработке подавления немаксимумов (NMS). Это приводит к значительному упрощению архитектур развертывания и стабильной задержке на различном оборудовании.
- До 43% более быстрая инференция на CPU: Для периферийных развертываний без мощных GPU — сценариев, где DAMO-YOLO испытывает трудности — YOLO26 значительно оптимизирован, обеспечивая значительное ускорение на стандартных CPU.
- Оптимизатор MuSGD: Сокращая разрыв между инновациями LLM и компьютерным зрением, YOLO26 включает оптимизатор MuSGD (вдохновленный Moonshot AI), обеспечивая невероятно стабильное обучение и быструю сходимость по сравнению с хрупкими циклами обучения EfficientDet.
- Удаление DFL: Удаление Distribution Focal Loss упрощает процесс экспорта, гарантируя превосходную совместимость с маломощными микроконтроллерами и устройствами Raspberry Pi.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают существенные улучшения в распознавании мелких объектов — области, где традиционно не справляются старые архитектуры.
Эффективность использования памяти и универсальность задач
В отличие от моделей трансформеров или сильно интегрированных NAS-сетей, модели Ultralytics характеризуются строгой эффективностью использования памяти. Они потребляют значительно меньше памяти CUDA во время обучения, что позволяет быстро проводить итерации на потребительском оборудовании.
Кроме того, в то время как EfficientDet и DAMO-YOLO строго ограничены ограничивающими рамками, Ultralytics нативно поддерживает сегментацию экземпляров и классификацию изображений в рамках той же интуитивно понятной платформы. Для пользователей, поддерживающих старые проекты, Ultralytics YOLOv8 остается надежной и широко используемой альтернативой, которую стоит рассмотреть.
Заключение
Выбор правильной архитектуры компьютерного зрения предполагает сопоставление чистой теоретической производительности с реальностью развертывания. EfficientDet предлагает математически элегантный подход к масштабированию, а DAMO-YOLO обеспечивает впечатляющую скорость на GPU. Однако для команд, которые отдают приоритет быстрой разработке, надежным развертываниям и передовым функциям, модели Ultralytics явно опережают конкурентов. Объединяя такие инновации, как вывод без NMS и оптимизация MuSGD, YOLO26 гарантирует, что ваши проекты компьютерного зрения будут построены на самой мощной, поддерживаемой и эффективной основе, доступной сегодня.