DAMO-YOLO против EfficientDet: технический глубокий разбор современного детектирования объектов

Эволюция компьютерного зрения привела к созданию множества мощных архитектур, адаптированных под различные реальные задачи. В то время как некоторые фреймворки отдают приоритет огромной масштабируемости, другие делают упор на скорость вывода в реальном времени. В этом техническом сравнении мы рассмотрим DAMO-YOLO и EfficientDet — две очень влиятельные модели, которые демонстрируют принципиально разные подходы к решению проблемы детектирования объектов. Мы разберем их архитектуры, сравним показатели производительности и, в конечном итоге, выясним, почему недавно выпущенная Ultralytics YOLO26 является оптимальным выбором для современных производственных развертываний.

Обзор архитектуры

Обе модели были разработаны для решения проблемы компромисса между эффективностью и точностью, но они опираются на фундаментально разные механизмы для достижения своих целей.

DAMO-YOLO: скорость за счет поиска нейронной архитектуры

Разработанная для расширения границ детектирования в реальном времени, DAMO-YOLO использует методы автоматизированного поиска для создания высокоэффективных сетей, адаптированных для сред с низкой задержкой.

Детали DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO построена на базе поиска нейронной архитектуры (NAS), которая оптимизирует скорость и точность. Она внедряет RepGFPN (перепараметризованная обобщенная пирамида признаков), что улучшает слияние признаков при сохранении высокой скорости вывода. Более того, дизайн ZeroHead минимизирует вычислительные затраты, обычно связанные с детекторами. Модель также выигрывает от AlignedOTA (Aligned Optimal Transport Assignment) и дистилляционного улучшения, гарантируя, что даже самые компактные варианты обучаются богатым представлениям на основе более крупных моделей.

Узнай больше о DAMO-YOLO

EfficientDet: масштабируемость через составное масштабирование

В отличие от подхода, ориентированного на скорость, EfficientDet фокусируется на систематической масштабируемости для различных вычислительных бюджетов.

Детали EfficientDet:
Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet

EfficientDet представляет BiFPN (двунаправленная пирамида признаков), которая позволяет легко и быстро выполнять многомасштабное слияние признаков. В отличие от традиционных методов, которые масштабируют архитектуры путем произвольного добавления слоев или каналов, EfficientDet использует метод составного масштабирования, который одновременно и единообразно масштабирует разрешение, глубину и ширину магистральной сети (backbone), сети признаков и сетей предсказания рамок/классов. Это позволяет ей достигать высокой точности на топовом оборудовании, предлагая при этом более компактные варианты для ограниченных сред.

Узнай больше об EfficientDet

Сравнение производительности и метрик

При сравнении этих моделей становится очевидным компромисс между чистой точностью и скоростью вывода. В таблице ниже представлены ключевые показатели производительности, демонстрирующие, как вывод DAMO-YOLO соотносится с семейством моделей EfficientDet.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Как видно выше, EfficientDet-d7 достигает наивысшей общей точности, что делает её подходящей для требовательных облачных приложений. Напротив, серия DAMO-YOLO обеспечивает высокую конкурентоспособную точность при значительно меньшей задержке на GPU, что делает её более сильным кандидатом для развертывания на периферийных устройствах в реальном времени.

Варианты использования и рекомендации

Выбор между DAMO-YOLO и EfficientDet зависит от твоих конкретных требований проекта, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать DAMO-YOLO

DAMO-YOLO — отличный выбор для:

  • Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
  • Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.

Когда выбирать EfficientDet

EfficientDet рекомендуется для:

  • Конвейеров Google Cloud и TPU: Систем, глубоко интегрированных с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
  • Исследований в области составного масштабирования: Академических бенчмарков, сфокусированных на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
  • Развертывания на мобильных устройствах через TFLite: Проектов, которые специально требуют экспорта в TensorFlow Lite для Android или встроенных Linux-устройств.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Современная альтернатива: Ultralytics YOLO26

Хотя DAMO-YOLO и EfficientDet представляют собой важные академические вехи, реальное развертывание часто требует более сбалансированного, функционального и дружелюбного к разработчику подхода. Именно здесь Ultralytics YOLO26 устанавливает новый отраслевой стандарт.

Выпущенная в январе 2026 года, YOLO26 развивает наследие своих предшественников, включая Ultralytics YOLO11 и YOLOv8, предлагая смену парадигмы в подходе к детектированию объектов.

Сквозная простота

YOLO26 отличается нативным сквозным дизайном без NMS. Устраняя немаксимальное подавление (NMS) во время постобработки — узкое место, преследовавшее детекторы объектов годами, — YOLO26 предлагает более простой и значительно более быстрый конвейер развертывания, особенно на периферийном оборудовании.

Непревзойденная производительность и универсальность

YOLO26 не просто увеличивает скорость; она переопределяет стабильность обучения и точность. В ней представлен оптимизатор MuSGD, гибрид SGD и Muon, вдохновленный инновациями в обучении больших языковых моделей (LLM), что приводит к значительно более высокой скорости сходимости и превосходной эффективности обучения. В отличие от тяжелых альтернатив на основе Transformer, таких как RT-DETR, YOLO26 сохраняет невероятно низкие требования к памяти, обеспечивая возможность обучения на потребительском оборудовании.

Кроме того, YOLO26 включает ProgLoss + STAL, значительно улучшая распознавание мелких объектов, что жизненно важно для таких вариантов использования, как аэросъемка с дронов и робототехника. Для оптимизации под маломощные устройства YOLO26 убрала Distribution Focal Loss (DFL), что привело к ускорению вывода на CPU до 43% по сравнению с предыдущими поколениями.

Экосистема и простота использования

Одним из самых больших препятствий при работе с моделями типа EfficientDet является сложный процесс интеграции. В отличие от них, платформа Ultralytics предлагает хорошо поддерживаемую, комплексную экосистему. Благодаря единому API ты можешь легко переключаться между детектированием, сегментацией экземпляров, оценкой поз, классификацией изображений и ориентированными ограничивающими рамками (OBB).

Вот как просто обучать и запускать вывод с YOLO26, используя пакет Ultralytics для Python:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

Узнай больше о YOLO26

Заключение

Хотя изучение DAMO-YOLO против EfficientDet дает отличные знания о компромиссах между поиском нейронной архитектуры и составным масштабированием, современным разработчикам нужны инструменты, которые устраняют разрыв между академическими исследованиями и реальностью производства.

Для разработчиков, которые ценят простоту использования, активное сообщество с открытым кодом и бескомпромиссный баланс скорости и точности, Ultralytics YOLO26 является окончательным выбором. Её архитектура без NMS, низкие накладные расходы на обучение и бесшовная интеграция с комплексной экосистемой Ultralytics делают её лучшим фреймворком для твоего следующего проекта в области компьютерного зрения.

Комментарии