Перейти к содержанию

EfficientDet против DAMO-YOLO: Техническое сравнение архитектур обнаружения объектов

При создании масштабируемых конвейеров компьютерного зрения выбор правильной архитектуры модели является критически важным решением, влияющим как на возможность развертывания, так и на точность обнаружения. Это руководство представляет углубленное техническое сравнение двух хорошо известных архитектур в области визуального распознавания: EfficientDet и DAMO-YOLO.

Хотя обе модели привнесли значительные инновации в область обнаружения объектов, быстрое развитие компьютерного зрения открыло путь для более интегрированных экосистем. В ходе этого анализа мы рассмотрим основные механизмы этих устаревших сетей, а также покажем, почему современные решения, такие как платформа Ultralytics и Ultralytics YOLO26, стали отраслевым стандартом для производственных сред.

EfficientDet: Масштабируемое и эффективное обнаружение объектов

Представленный исследователями Google, EfficientDet был разработан для систематического масштабирования архитектуры модели при сохранении высокой эффективности. Это было достигнуто за счет использования составного масштабирования по глубине, ширине сети и разрешению входных данных.

Подробности EfficientDet: Авторы: Mingxing Tan, Ruoming Pang, and Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl

Архитектурные инновации

Основной вклад EfficientDet — это двунаправленная пирамидальная сеть признаков (BiFPN). В отличие от традиционных FPN, BiFPN обеспечивает легкое и быстрое слияние признаков разных масштабов за счет использования обучаемых весов для понимания важности различных входных признаков. Это сочетается с базовой сетью EfficientNet, что приводит к созданию семейства моделей (от D0 до D7), которые масштабируются предсказуемо.

Сильные и слабые стороны

Ключевая сила EfficientDet заключается в ее эффективности по параметрам. Для задач, где необходимо максимизировать среднюю точность (mAP) в сильно ограниченных облачных средах, ее метод составного масштабирования является весьма предсказуемым. Однако EfficientDet notoriously сложна для обучения с нуля и часто требует существенной настройки гиперпараметров. Кроме того, ее сильная зависимость от специфических операций TensorFlow делает переход к развертыванию на периферийных устройствах через ONNX или TensorRT более громоздким по сравнению с упрощенными возможностями экспорта, присущими современным моделям YOLO.

Узнайте больше об EfficientDet

DAMO-YOLO: Автоматизированный поиск архитектуры в действии

DAMO-YOLO представляет собой особый подход, использующий Neural Architecture Search (NAS) для автоматического проектирования оптимальных сетевых структур для инференса в реальном времени.

Подробности DAMO-YOLO: Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Архитектурные инновации

DAMO-YOLO представляет несколько новых технологий. Она использует магистральную сеть, сгенерированную NAS, под названием MAE-NAS, эффективную RepGFPN для своей промежуточной части и архитектуру ZeroHead, которая значительно снижает вычислительные затраты детекционной головы. Кроме того, она использует AlignedOTA для назначения меток и активно опирается на улучшение с помощью дистилляции знаний для повышения производительности своих меньших вариантов.

Сильные и слабые стороны

DAMO-YOLO выделяется своей скоростью инференса на GPU, специально разработанной для развертывания на архитектурах NVIDIA с использованием TensorRT. Отказавшись от тяжелых головных структур, модель обеспечивает предсказания с низкой задержкой. И наоборот, автоматизированный поиск архитектуры может сделать структуру модели непрозрачной и затруднить ручную отладку или тонкую настройку для пользовательских периферийных устройств. В отличие от высокоуниверсальной Ultralytics YOLO11, DAMO-YOLO в основном ориентирована на стандартное обнаружение ограничивающих рамок, не имея встроенной поддержки для таких продвинутых задач, как оценка позы или обнаружение ориентированных ограничивающих рамок (OBB).

Узнайте больше о DAMO-YOLO

Сравнение производительности

Понимание эмпирических компромиссов имеет решающее значение для выбора модели. В таблице ниже сравнивается семейство EfficientDet с серией DAMO-YOLO по ключевым метрикам производительности.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Анализ данных

EfficientDet-d7 достигает наивысшей теоретической точности, но требует огромной вычислительной мощности, что делает ее непригодной для периферийного ИИ. DAMO-YOLO предлагает исключительные скорости TensorRT, хотя обычно требует больше параметров, чем модели EfficientDet более низкого уровня, для достижения сопоставимой точности.

Сценарии использования и рекомендации

Выбор между EfficientDet и DAMO-YOLO зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.

Когда следует выбирать EfficientDet

EfficientDet является отличным выбором для:

  • Конвейеры Google Cloud и TPU: Системы, глубоко интегрированные с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
  • Исследование составного масштабирования: Академическое бенчмаркинг, сфокусированное на изучении влияния сбалансированного масштабирования глубины, ширины и разрешения сети.
  • Мобильное развертывание через TFLite: Проекты, которые специально требуют экспорта TensorFlow Lite для Android или встраиваемых устройств на Linux.

Когда следует выбирать DAMO-YOLO

DAMO-YOLO рекомендуется для:

  • Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
  • Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Преимущество Ultralytics: Прогресс за пределами устаревших моделей

Хотя EfficientDet и DAMO-YOLO предоставляют ценные академические сведения, современным разработчикам требуются фреймворки, которые сочетают передовую производительность с эргономикой разработки. Именно здесь преуспевает экосистема Ultralytics.

Непревзойденная простота использования и экосистема

Развертывание моделей из отдельных, сильно кастомизированных исследовательских репозиториев часто приводит к кошмарам интеграции. Ultralytics предоставляет унифицированную, глубоко поддерживаемую экосистему с обширной документацией и pythonic API. Независимо от того, используете ли вы Google Colab для обучения или экспортируете в CoreML для мобильного вывода, конвейер требует всего несколько строк кода.

from ultralytics import YOLO

# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX for production
model.export(format="onnx")

Революция YOLO26

Для разработчиков, оценивающих EfficientDet или DAMO-YOLO, Ultralytics YOLO26 представляет собой высший эволюционный шаг. Выпущенный в начале 2026 года, он предлагает возможности, меняющие парадигму:

  • Сквозная архитектура без NMS: Впервые разработанная YOLOv10, YOLO26 изначально устраняет необходимость в постобработке подавления немаксимумов (NMS). Это приводит к значительному упрощению архитектур развертывания и стабильной задержке на различном оборудовании.
  • До 43% более быстрая инференция на CPU: Для периферийных развертываний без мощных GPU — сценариев, где DAMO-YOLO испытывает трудности — YOLO26 значительно оптимизирован, обеспечивая значительное ускорение на стандартных CPU.
  • Оптимизатор MuSGD: Сокращая разрыв между инновациями LLM и компьютерным зрением, YOLO26 включает оптимизатор MuSGD (вдохновленный Moonshot AI), обеспечивая невероятно стабильное обучение и быструю сходимость по сравнению с хрупкими циклами обучения EfficientDet.
  • Удаление DFL: Удаление Distribution Focal Loss упрощает процесс экспорта, гарантируя превосходную совместимость с маломощными микроконтроллерами и устройствами Raspberry Pi.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают существенные улучшения в распознавании мелких объектов — области, где традиционно не справляются старые архитектуры.

Эффективность использования памяти и универсальность задач

В отличие от моделей трансформеров или сильно интегрированных NAS-сетей, модели Ultralytics характеризуются строгой эффективностью использования памяти. Они потребляют значительно меньше памяти CUDA во время обучения, что позволяет быстро проводить итерации на потребительском оборудовании.

Кроме того, в то время как EfficientDet и DAMO-YOLO строго ограничены ограничивающими рамками, Ultralytics нативно поддерживает сегментацию экземпляров и классификацию изображений в рамках той же интуитивно понятной платформы. Для пользователей, поддерживающих старые проекты, Ultralytics YOLOv8 остается надежной и широко используемой альтернативой, которую стоит рассмотреть.

Заключение

Выбор правильной архитектуры компьютерного зрения предполагает сопоставление чистой теоретической производительности с реальностью развертывания. EfficientDet предлагает математически элегантный подход к масштабированию, а DAMO-YOLO обеспечивает впечатляющую скорость на GPU. Однако для команд, которые отдают приоритет быстрой разработке, надежным развертываниям и передовым функциям, модели Ultralytics явно опережают конкурентов. Объединяя такие инновации, как вывод без NMS и оптимизация MuSGD, YOLO26 гарантирует, что ваши проекты компьютерного зрения будут построены на самой мощной, поддерживаемой и эффективной основе, доступной сегодня.


Комментарии