DAMO-YOLO против EfficientDet: технический глубокий разбор современного детектирования объектов
Эволюция компьютерного зрения привела к созданию множества мощных архитектур, адаптированных под различные реальные задачи. В то время как некоторые фреймворки отдают приоритет огромной масштабируемости, другие делают упор на скорость вывода в реальном времени. В этом техническом сравнении мы рассмотрим DAMO-YOLO и EfficientDet — две очень влиятельные модели, которые демонстрируют принципиально разные подходы к решению проблемы детектирования объектов. Мы разберем их архитектуры, сравним показатели производительности и, в конечном итоге, выясним, почему недавно выпущенная Ultralytics YOLO26 является оптимальным выбором для современных производственных развертываний.
Обзор архитектуры
Обе модели были разработаны для решения проблемы компромисса между эффективностью и точностью, но они опираются на фундаментально разные механизмы для достижения своих целей.
DAMO-YOLO: скорость за счет поиска нейронной архитектуры
Разработанная для расширения границ детектирования в реальном времени, DAMO-YOLO использует методы автоматизированного поиска для создания высокоэффективных сетей, адаптированных для сред с низкой задержкой.
Детали DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO построена на базе поиска нейронной архитектуры (NAS), которая оптимизирует скорость и точность. Она внедряет RepGFPN (перепараметризованная обобщенная пирамида признаков), что улучшает слияние признаков при сохранении высокой скорости вывода. Более того, дизайн ZeroHead минимизирует вычислительные затраты, обычно связанные с детекторами. Модель также выигрывает от AlignedOTA (Aligned Optimal Transport Assignment) и дистилляционного улучшения, гарантируя, что даже самые компактные варианты обучаются богатым представлениям на основе более крупных моделей.
EfficientDet: масштабируемость через составное масштабирование
В отличие от подхода, ориентированного на скорость, EfficientDet фокусируется на систематической масштабируемости для различных вычислительных бюджетов.
Детали EfficientDet:
Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
EfficientDet представляет BiFPN (двунаправленная пирамида признаков), которая позволяет легко и быстро выполнять многомасштабное слияние признаков. В отличие от традиционных методов, которые масштабируют архитектуры путем произвольного добавления слоев или каналов, EfficientDet использует метод составного масштабирования, который одновременно и единообразно масштабирует разрешение, глубину и ширину магистральной сети (backbone), сети признаков и сетей предсказания рамок/классов. Это позволяет ей достигать высокой точности на топовом оборудовании, предлагая при этом более компактные варианты для ограниченных сред.
Сравнение производительности и метрик
При сравнении этих моделей становится очевидным компромисс между чистой точностью и скоростью вывода. В таблице ниже представлены ключевые показатели производительности, демонстрирующие, как вывод DAMO-YOLO соотносится с семейством моделей EfficientDet.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Как видно выше, EfficientDet-d7 достигает наивысшей общей точности, что делает её подходящей для требовательных облачных приложений. Напротив, серия DAMO-YOLO обеспечивает высокую конкурентоспособную точность при значительно меньшей задержке на GPU, что делает её более сильным кандидатом для развертывания на периферийных устройствах в реальном времени.
Варианты использования и рекомендации
Выбор между DAMO-YOLO и EfficientDet зависит от твоих конкретных требований проекта, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать DAMO-YOLO
DAMO-YOLO — отличный выбор для:
- Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
- Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.
Когда выбирать EfficientDet
EfficientDet рекомендуется для:
- Конвейеров Google Cloud и TPU: Систем, глубоко интегрированных с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследований в области составного масштабирования: Академических бенчмарков, сфокусированных на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
- Развертывания на мобильных устройствах через TFLite: Проектов, которые специально требуют экспорта в TensorFlow Lite для Android или встроенных Linux-устройств.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Современная альтернатива: Ultralytics YOLO26
Хотя DAMO-YOLO и EfficientDet представляют собой важные академические вехи, реальное развертывание часто требует более сбалансированного, функционального и дружелюбного к разработчику подхода. Именно здесь Ultralytics YOLO26 устанавливает новый отраслевой стандарт.
Выпущенная в январе 2026 года, YOLO26 развивает наследие своих предшественников, включая Ultralytics YOLO11 и YOLOv8, предлагая смену парадигмы в подходе к детектированию объектов.
YOLO26 отличается нативным сквозным дизайном без NMS. Устраняя немаксимальное подавление (NMS) во время постобработки — узкое место, преследовавшее детекторы объектов годами, — YOLO26 предлагает более простой и значительно более быстрый конвейер развертывания, особенно на периферийном оборудовании.
Непревзойденная производительность и универсальность
YOLO26 не просто увеличивает скорость; она переопределяет стабильность обучения и точность. В ней представлен оптимизатор MuSGD, гибрид SGD и Muon, вдохновленный инновациями в обучении больших языковых моделей (LLM), что приводит к значительно более высокой скорости сходимости и превосходной эффективности обучения. В отличие от тяжелых альтернатив на основе Transformer, таких как RT-DETR, YOLO26 сохраняет невероятно низкие требования к памяти, обеспечивая возможность обучения на потребительском оборудовании.
Кроме того, YOLO26 включает ProgLoss + STAL, значительно улучшая распознавание мелких объектов, что жизненно важно для таких вариантов использования, как аэросъемка с дронов и робототехника. Для оптимизации под маломощные устройства YOLO26 убрала Distribution Focal Loss (DFL), что привело к ускорению вывода на CPU до 43% по сравнению с предыдущими поколениями.
Экосистема и простота использования
Одним из самых больших препятствий при работе с моделями типа EfficientDet является сложный процесс интеграции. В отличие от них, платформа Ultralytics предлагает хорошо поддерживаемую, комплексную экосистему. Благодаря единому API ты можешь легко переключаться между детектированием, сегментацией экземпляров, оценкой поз, классификацией изображений и ориентированными ограничивающими рамками (OBB).
Вот как просто обучать и запускать вывод с YOLO26, используя пакет Ultralytics для Python:
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")Заключение
Хотя изучение DAMO-YOLO против EfficientDet дает отличные знания о компромиссах между поиском нейронной архитектуры и составным масштабированием, современным разработчикам нужны инструменты, которые устраняют разрыв между академическими исследованиями и реальностью производства.
Для разработчиков, которые ценят простоту использования, активное сообщество с открытым кодом и бескомпромиссный баланс скорости и точности, Ultralytics YOLO26 является окончательным выбором. Её архитектура без NMS, низкие накладные расходы на обучение и бесшовная интеграция с комплексной экосистемой Ultralytics делают её лучшим фреймворком для твоего следующего проекта в области компьютерного зрения.