DAMO-YOLO против EfficientDet: Глубокий технический анализ современных методов обнаружения объектов
Эволюция компьютерного зрения породила множество мощных архитектур, адаптированных к различным реальным требованиям. В то время как некоторые фреймворки отдают приоритет массивной масштабируемости, другие сильно сосредоточены на скорости инференса в реальном времени. В этом техническом сравнении мы исследуем DAMO-YOLO и EfficientDet — две весьма влиятельные модели, демонстрирующие различные подходы к решению проблемы обнаружения объектов. Мы проанализируем их архитектуры, сравним их эталонные показатели производительности и, в конечном итоге, исследуем, почему недавно выпущенный Ultralytics YOLO26 представляет собой оптимальный выбор для современных производственных развертываний.
Архитектурный обзор
Обе модели были разработаны для решения компромисса между эффективностью и точностью, но они полагаются на принципиально разные механизмы для достижения своих целей.
DAMO-YOLO: Скорость благодаря поиску нейроархитектуры
Разработанный для расширения границ обнаружения в реальном времени, DAMO-YOLO использует автоматизированные методы поиска для создания высокоэффективных сетей, адаптированных для сред с низкой задержкой.
Подробности DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO построена на основе магистральной сети, разработанной с помощью Neural Architecture Search (NAS), которая оптимизирована как по скорости, так и по точности. Она представляет RepGFPN (перепараметризованную обобщенную пирамидальную сеть признаков), которая улучшает слияние признаков, сохраняя при этом высокую скорость инференса. Кроме того, ее архитектура ZeroHead минимизирует вычислительные издержки, обычно связанные с детекционными головами. Модель также выигрывает от AlignedOTA (выровненного оптимального транспортного назначения) и улучшения дистилляции, что гарантирует, что даже самые маленькие варианты обучаются богатым представлениям от более крупных моделей.
EfficientDet: Масштабируемость за счет составного масштабирования
В отличие от подхода, ориентированного на скорость, EfficientDet сосредоточен на систематической масштабируемости при различных вычислительных бюджетах.
Подробности EfficientDet:
Авторы: Mingxing Tan, Ruoming Pang, and Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
EfficientDet представляет BiFPN (двунаправленную пирамидальную сеть признаков), которая обеспечивает простое и быстрое слияние многомасштабных признаков. В отличие от традиционных методов, которые масштабируют архитектуры путем произвольного добавления слоев или каналов, EfficientDet использует метод составного масштабирования, который равномерно масштабирует разрешение, глубину и ширину backbone-сети, сети признаков и сетей предсказания ограничивающих рамок/классов одновременно. Это позволяет ему достигать современной точности на высокопроизводительном оборудовании, предлагая при этом меньшие варианты для сред с ограниченными ресурсами.
Узнайте больше об EfficientDet
Сравнение производительности и метрик
При сопоставлении этих моделей становится очевидным компромисс между абсолютной точностью и скоростью инференса. В таблице ниже представлены ключевые метрики производительности, демонстрирующие, как возможности инференса DAMO-YOLO соотносятся с семейством моделей EfficientDet.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Как показано выше, EfficientDet-d7 достигает наивысшей общей точности, что делает его подходящим для требовательных облачных приложений. Напротив, серия DAMO-YOLO обеспечивает высококонкурентную точность со значительно меньшей задержкой на аппаратном обеспечении GPU, что делает ее более сильным кандидатом для развертываний на периферии в реальном времени.
Сценарии использования и рекомендации
Выбор между DAMO-YOLO и EfficientDet зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO — это отличный выбор для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда следует выбирать EfficientDet
EfficientDet рекомендуется для:
- Конвейеры Google Cloud и TPU: Системы, глубоко интегрированные с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследование составного масштабирования: Академическое бенчмаркинг, сфокусированное на изучении влияния сбалансированного масштабирования глубины, ширины и разрешения сети.
- Мобильное развертывание через TFLite: Проекты, которые специально требуют экспорта TensorFlow Lite для Android или встраиваемых устройств на Linux.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Современная альтернатива: Ultralytics YOLO26
Хотя DAMO-YOLO и EfficientDet представляют собой значительные академические достижения, реальное развертывание часто требует более сбалансированного, многофункционального и удобного для разработчиков подхода. Именно здесь Ultralytics YOLO26 устанавливает новый отраслевой стандарт.
Выпущенный в январе 2026 года, YOLO26 опирается на наследие своих предшественников, включая Ultralytics YOLO11 и YOLOv8, обеспечивая смену парадигмы в подходе к обнаружению объектов.
Сквозная простота
YOLO26 обладает нативной сквозной архитектурой без NMS. Устраняя подавление немаксимумов (NMS) во время постобработки — узкое место, которое годами преследовало детекторы объектов — YOLO26 предлагает более простой и значительно более быстрый конвейер развертывания, особенно на периферийном оборудовании.
Непревзойденная производительность и универсальность
YOLO26 не просто улучшает скорость; он переосмысливает стабильность и точность обучения. Он представляет оптимизатор MuSGD, гибрид SGD и Muon, вдохновленный инновациями в обучении LLM, что приводит к значительно более быстрым темпам сходимости и превосходной эффективности обучения. В отличие от тяжелых альтернатив на основе трансформеров, таких как RT-DETR, YOLO26 поддерживает невероятно низкие требования к памяти, что позволяет обучать его на потребительском оборудовании.
Кроме того, YOLO26 включает ProgLoss + STAL, значительно улучшая распознавание мелких объектов, что жизненно важно для таких сценариев использования, как аэрофотосъемка с дронов и робототехника. Для оптимизации под устройства с низким энергопотреблением YOLO26 исключил Distribution Focal Loss (DFL), что привело к ускорению инференса на CPU до 43% по сравнению с предыдущими поколениями.
Экосистема и простота использования
Одной из самых больших проблем с моделями, такими как EfficientDet, является сложный процесс интеграции. В отличие от них, Ultralytics Platform предлагает хорошо поддерживаемую, сквозную экосистему. Благодаря унифицированному API пользователи могут легко переключаться между detect, сегментацией экземпляров, оценкой позы, классификацией изображений и ориентированными ограничивающими рамками (obb).
Вот как просто обучать и запускать инференс с YOLO26, используя пакет Ultralytics для python:
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")
Заключение
Хотя изучение DAMO-YOLO против EfficientDet дает прекрасное представление о компромиссах между поиском нейронной архитектуры и составным масштабированием, современным разработчикам требуются инструменты, которые устраняют разрыв между академическими исследованиями и производственной реальностью.
Для разработчиков, которые отдают приоритет простоте использования, активному сообществу с открытым исходным кодом и бескомпромиссному балансу скорости и точности, Ultralytics YOLO26 является окончательным выбором. Его архитектура без NMS, низкие накладные расходы на обучение и бесшовная интеграция с комплексной экосистемой Ultralytics делают его идеальным фреймворком для вашего следующего проекта компьютерного зрения.