Перейти к содержанию

DAMO-YOLO против EfficientDet: Глубокий технический анализ современных методов обнаружения объектов

Эволюция компьютерного зрения породила множество мощных архитектур, адаптированных к различным реальным требованиям. В то время как некоторые фреймворки отдают приоритет массивной масштабируемости, другие сильно сосредоточены на скорости инференса в реальном времени. В этом техническом сравнении мы исследуем DAMO-YOLO и EfficientDet — две весьма влиятельные модели, демонстрирующие различные подходы к решению проблемы обнаружения объектов. Мы проанализируем их архитектуры, сравним их эталонные показатели производительности и, в конечном итоге, исследуем, почему недавно выпущенный Ultralytics YOLO26 представляет собой оптимальный выбор для современных производственных развертываний.

Архитектурный обзор

Обе модели были разработаны для решения компромисса между эффективностью и точностью, но они полагаются на принципиально разные механизмы для достижения своих целей.

Разработанный для расширения границ обнаружения в реальном времени, DAMO-YOLO использует автоматизированные методы поиска для создания высокоэффективных сетей, адаптированных для сред с низкой задержкой.

Подробности DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO построена на основе магистральной сети, разработанной с помощью Neural Architecture Search (NAS), которая оптимизирована как по скорости, так и по точности. Она представляет RepGFPN (перепараметризованную обобщенную пирамидальную сеть признаков), которая улучшает слияние признаков, сохраняя при этом высокую скорость инференса. Кроме того, ее архитектура ZeroHead минимизирует вычислительные издержки, обычно связанные с детекционными головами. Модель также выигрывает от AlignedOTA (выровненного оптимального транспортного назначения) и улучшения дистилляции, что гарантирует, что даже самые маленькие варианты обучаются богатым представлениям от более крупных моделей.

Узнайте больше о DAMO-YOLO

EfficientDet: Масштабируемость за счет составного масштабирования

В отличие от подхода, ориентированного на скорость, EfficientDet сосредоточен на систематической масштабируемости при различных вычислительных бюджетах.

Подробности EfficientDet:
Авторы: Mingxing Tan, Ruoming Pang, and Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet

EfficientDet представляет BiFPN (двунаправленную пирамидальную сеть признаков), которая обеспечивает простое и быстрое слияние многомасштабных признаков. В отличие от традиционных методов, которые масштабируют архитектуры путем произвольного добавления слоев или каналов, EfficientDet использует метод составного масштабирования, который равномерно масштабирует разрешение, глубину и ширину backbone-сети, сети признаков и сетей предсказания ограничивающих рамок/классов одновременно. Это позволяет ему достигать современной точности на высокопроизводительном оборудовании, предлагая при этом меньшие варианты для сред с ограниченными ресурсами.

Узнайте больше об EfficientDet

Сравнение производительности и метрик

При сопоставлении этих моделей становится очевидным компромисс между абсолютной точностью и скоростью инференса. В таблице ниже представлены ключевые метрики производительности, демонстрирующие, как возможности инференса DAMO-YOLO соотносятся с семейством моделей EfficientDet.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Как показано выше, EfficientDet-d7 достигает наивысшей общей точности, что делает его подходящим для требовательных облачных приложений. Напротив, серия DAMO-YOLO обеспечивает высококонкурентную точность со значительно меньшей задержкой на аппаратном обеспечении GPU, что делает ее более сильным кандидатом для развертываний на периферии в реальном времени.

Сценарии использования и рекомендации

Выбор между DAMO-YOLO и EfficientDet зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.

Когда следует выбирать DAMO-YOLO

DAMO-YOLO — это отличный выбор для:

  • Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
  • Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.

Когда следует выбирать EfficientDet

EfficientDet рекомендуется для:

  • Конвейеры Google Cloud и TPU: Системы, глубоко интегрированные с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
  • Исследование составного масштабирования: Академическое бенчмаркинг, сфокусированное на изучении влияния сбалансированного масштабирования глубины, ширины и разрешения сети.
  • Мобильное развертывание через TFLite: Проекты, которые специально требуют экспорта TensorFlow Lite для Android или встраиваемых устройств на Linux.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Современная альтернатива: Ultralytics YOLO26

Хотя DAMO-YOLO и EfficientDet представляют собой значительные академические достижения, реальное развертывание часто требует более сбалансированного, многофункционального и удобного для разработчиков подхода. Именно здесь Ultralytics YOLO26 устанавливает новый отраслевой стандарт.

Выпущенный в январе 2026 года, YOLO26 опирается на наследие своих предшественников, включая Ultralytics YOLO11 и YOLOv8, обеспечивая смену парадигмы в подходе к обнаружению объектов.

Сквозная простота

YOLO26 обладает нативной сквозной архитектурой без NMS. Устраняя подавление немаксимумов (NMS) во время постобработки — узкое место, которое годами преследовало детекторы объектов — YOLO26 предлагает более простой и значительно более быстрый конвейер развертывания, особенно на периферийном оборудовании.

Непревзойденная производительность и универсальность

YOLO26 не просто улучшает скорость; он переосмысливает стабильность и точность обучения. Он представляет оптимизатор MuSGD, гибрид SGD и Muon, вдохновленный инновациями в обучении LLM, что приводит к значительно более быстрым темпам сходимости и превосходной эффективности обучения. В отличие от тяжелых альтернатив на основе трансформеров, таких как RT-DETR, YOLO26 поддерживает невероятно низкие требования к памяти, что позволяет обучать его на потребительском оборудовании.

Кроме того, YOLO26 включает ProgLoss + STAL, значительно улучшая распознавание мелких объектов, что жизненно важно для таких сценариев использования, как аэрофотосъемка с дронов и робототехника. Для оптимизации под устройства с низким энергопотреблением YOLO26 исключил Distribution Focal Loss (DFL), что привело к ускорению инференса на CPU до 43% по сравнению с предыдущими поколениями.

Экосистема и простота использования

Одной из самых больших проблем с моделями, такими как EfficientDet, является сложный процесс интеграции. В отличие от них, Ultralytics Platform предлагает хорошо поддерживаемую, сквозную экосистему. Благодаря унифицированному API пользователи могут легко переключаться между detect, сегментацией экземпляров, оценкой позы, классификацией изображений и ориентированными ограничивающими рамками (obb).

Вот как просто обучать и запускать инференс с YOLO26, используя пакет Ultralytics для python:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

Узнайте больше о YOLO26

Заключение

Хотя изучение DAMO-YOLO против EfficientDet дает прекрасное представление о компромиссах между поиском нейронной архитектуры и составным масштабированием, современным разработчикам требуются инструменты, которые устраняют разрыв между академическими исследованиями и производственной реальностью.

Для разработчиков, которые отдают приоритет простоте использования, активному сообществу с открытым исходным кодом и бескомпромиссному балансу скорости и точности, Ultralytics YOLO26 является окончательным выбором. Его архитектура без NMS, низкие накладные расходы на обучение и бесшовная интеграция с комплексной экосистемой Ultralytics делают его идеальным фреймворком для вашего следующего проекта компьютерного зрения.


Комментарии