YOLO EfficientDet: подробное изучение архитектур обнаружения объектов
Выбор оптимальной архитектуры компьютерного зрения — это ключевое решение, которое влияет на все: от задержки вывода до стоимости оборудования. В этом техническом сравнении мы анализируем две влиятельные модели: YOLO от Alibaba и EfficientDet Google. В то время как EfficientDet представила концепцию масштабируемой эффективности,YOLO границы производительности в реальном времени с помощью новых методов дистилляции.
В этом руководстве представлен тщательный анализ их архитектуры, показателей производительности и пригодности для современного развертывания, а также рассматривается, как решения нового поколения, такие как Ultralytics , устанавливают новые стандарты удобства использования и эффективности на периферии.
Обзор DAMO-YOLO
YOLO высокопроизводительная платформа для обнаружения объектов, разработанная Alibaba Group. Она уделяет приоритетное внимание балансу между скоростью и точностью, используя такие технологии, как поиск нейронной архитектуры (NAS) и глубокая перепараметризация. Разработанная в первую очередь для промышленного применения, она направлена на сокращение задержки без ущерба для качества обнаружения.
Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 23 ноября 2022 г.
Arxiv:YOLO
GitHub:YOLO
Документация:YOLO
Ключевые архитектурные особенности
- MAE-NAS Backbone: использует поиск нейронной архитектуры на основе маскированного автокодировщика (MAE) для обнаружения эффективных базовых структур.
- Эффективный RepGFPN: конструкция с тяжелым «шейкой», использующая перепараметризацию (аналогично YOLOv6) для эффективного объединения признаков при сохранении высокой скорости вывода.
- ZeroHead: Легкая головка обнаружения, которая минимизирует вычислительные затраты на этапе окончательного прогнозирования.
- AlignedOTA: усовершенствованная стратегия присвоения меток, которая решает проблемы несоответствия между задачами классификации и регрессии во время обучения.
Обзор EfficientDet
EfficientDet, разработанный командой Google , представил системный подход к масштабированию моделей. Благодаря совместному масштабированию основной структуры, разрешения и глубины EfficientDet достигает замечательной эффективности. Он основан на основной структуре EfficientNet и использует BiFPN (Bidirectional Feature Pyramid Network) для сложного слияния характеристик.
Авторы: Минсин Тан, Руоминг Панг и Куок В. Ле
Организация:Google
Дата: 20 ноября 2019 г.
Arxiv:EfficientDet Статья
GitHub:google
Документация:EfficientDet README
Ключевые архитектурные особенности
- Комбинированное масштабирование: метод равномерного масштабирования ширины, глубины и разрешения сети с помощью простого комбинированного коэффициента (phi).
- BiFPN: взвешенная двунаправленная сеть пирамиды признаков, которая позволяет легко и быстро объединять многомасштабные признаки.
- EfficientNet Backbone: использует мощную архитектуру EfficientNet для извлечения признаков.
Сравнение производительности
В следующей таблице сравниваются характеристики вариантовYOLO EfficientDet.YOLO предлагает более высокое соотношение скорости и точности, особенно на GPU , где его перепараметризованные блоки демонстрируют свои преимущества. EfficientDet, хотя и является точным, часто страдает от более высокой задержки из-за сложных соединений BiFPN и более медленных функций активации.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Анализ результатов
- Задержка:YOLO превосходит EfficientDet по TensorRT . Например, DAMO-YOLOl достигает 50,8 mAP ~7 мс, тогда как EfficientDet-d4 требует ~33 мс для достижения аналогичной точности.
- Эффективность архитектуры: Низкое количество параметров EfficientDet (например, d0 имеет только 3,9 млн параметров) делает его удобным для хранения, но его сложная структура графа (BiFPN) часто приводит к более низкой фактической скорости вывода по сравнению с оптимизированными структурами моделей YOLO.
- Использование ресурсов:YOLO «улучшение дистилляции» во время обучения, что позволяет меньшим ученическим моделям учиться у более крупных учителей, повышая производительность без увеличения затрат на вывод.
Объяснение перепараметризации
YOLO методы перепараметризации, аналогичные RepVGG. Во время обучения модель использует сложные многоветвленные блоки для изучения богатых характеристик. Перед выводом эти ветви математически объединяются в одну свертку, что значительно увеличивает скорость без потери точности.
Случаи использования и приложения
Понимание преимуществ каждой модели помогает выбрать подходящий инструмент для конкретной задачи.
Когда использовать DAMO-YOLO
- Промышленная инспекция: идеально подходит для производственных линий, где задержка в миллисекундах имеет решающее значение для обнаружения дефектов на быстро движущихся конвейерах.
- Умное городское наблюдение: высокая пропускная способность позволяет обрабатывать несколько видеопотоков на одном GPU.
- Робототехника: подходит для автономной навигации, где требуется быстрая реакция для обхода препятствий.
Когда использовать EfficientDet
- Академические исследования: его систематические правила масштабирования делают его отличной базой для изучения теорий эффективности моделей.
- Среды с ограниченным объемом хранилища: чрезвычайно низкое количество параметров вариантов d0/d1 является преимуществом, если основным ограничением является дисковое пространство, хотя использование ОЗУ и CPU могут по-прежнему быть выше, чем у сопоставимых YOLO .
- Мобильные приложения (устаревшие): в ранних мобильных развертываниях использовались версии EfficientDet, TFLite, хотя современные архитектуры, такие как YOLO11 в значительной степени заменили его.
Преимущество Ultralytics: Представляем YOLO26
ХотяYOLO EfficientDet стали важными вехами, эта область продолжает развиваться. Ultralytics представляет собой современное решение, устраняющее ограничения предыдущих архитектур за счет сквозного дизайна и превосходной оптимизации.
Почему разработчики предпочитают Ultralytics
Простота использования и экосистема: Ultralytics беспроблемный переход от нуля к герою. В отличие от сложных конфигурационных файлов, которые часто требуются для исследовательских хранилищ, Ultralytics начать обучение с помощью нескольких строк Python. Экосистема включает в себя Ultralytics для простого управления наборами данных и обучения в облаке.
from ultralytics import YOLO # Load the latest YOLO26 model model = YOLO("yolo26n.pt") # Train on a custom dataset results = model.train(data="coco8.yaml", epochs=100)Баланс производительности: YOLO26 разработан для доминирования на границе Парето. Он обеспечивает до 43% более быстрое CPU по сравнению с предыдущими поколениями, что делает его мощным инструментом для приложений искусственного интеллекта на периферии, где GPU недоступны.
Полностью NMS: одной из самых больших проблем при развертывании детекторов объектов является немаксимальное подавление (NMS).YOLO EfficientDet полагаются на NMS, что усложняет постобработку и вносит изменчивость в задержку. YOLO26 изначально является полностью сквозным, NMS устраняя NMS для детерминированного и более быстрого вывода.
Эффективность обучения и MuSGD: YOLO26 интегрирует оптимизатор MuSGD, гибрид SGD Muon. Это нововведение, вдохновленное обучением LLM, обеспечивает стабильную конвергенцию и снижает необходимость в обширной настройке гиперпараметров. В сочетании с более низкими требованиями к памяти во время обучения, оно позволяет пользователям обучать более крупные пакеты данных на потребительском оборудовании по сравнению с гибридными трансформаторами, требующими большого объема памяти, такими как RT-DETR.
Универсальность: в то время как EfficientDet иYOLO в основномYOLO на ограничительные рамки, Ultralytics изначально поддерживают широкий спектр задач, включая сегментацию экземпляров, оценку позы, OBB и классификацию, и все это в рамках единого API.
Краткое сравнение
| Функциональность | EfficientDet | DAMO-YOLO | Ultralytics YOLO26 |
|---|---|---|---|
| Архитектура | На основе якоря, BiFPN | Без анкера, RepGFPN | Сквозной, NMS |
| Скорость инференса | Медленный (сложный график) | Быстрый (GPU ) | SOTA (CPU GPU) |
| Развертывание | Комплексный (NMS ) | Умеренный (NMS ) | Простой (NMS) |
| Тренировка памяти | Высокий | Умеренный | Низкий (оптимизированный) |
| Поддержка задач | Обнаружение | Обнаружение | Обнаружение, сегментация, поза, OBB |
Заключение
YOLO EfficientDet внесли значительный вклад в историю компьютерного зрения. EfficientDet продемонстрировал мощь составного масштабирования, аYOLO эффективность перепараметризации и дистилляции. Однако для разработчиков, начинающих новые проекты в 2026 году, Ultralytics предлагает убедительное преимущество.
Удаление NMS процессы развертывания, оптимизатор MuSGD ускоряет обучение, а оптимизированная архитектура обеспечивает превосходную скорость как на пограничных процессорах, так и на мощных графических процессорах. Независимо от того, создаете ли вы интеллектуальную систему камер или облачную платформу для анализа видео, надежная экосистема и производительность Ultralytics ее рекомендуемым выбором.
Для дальнейшего изучения вам также может быть интересно сравнить YOLO26 и YOLOv10 или понять преимущества YOLO11 для поддержки устаревших версий.