Meet YOLO26: next-gen vision AI.

Link to this sectionEfficientDet против DAMO-YOLO#

При создании масштабируемых конвейеров компьютерного зрения выбор правильной архитектуры модели является критически важным решением, влияющим как на возможность развертывания, так и на точность обнаружения. Это руководство содержит подробное техническое сравнение двух известных архитектур в области визуального распознавания: EfficientDet и DAMO-YOLO.

Хотя обе модели привнесли значительные инновации в область обнаружения объектов, быстрое развитие ИИ в компьютерном зрении проложило путь к более интегрированным экосистемам. В ходе этого анализа мы рассмотрим основные механизмы этих устаревших сетей и покажем, почему современные решения, такие как Ultralytics Platform и Ultralytics YOLO26, стали отраслевым стандартом для производственных сред.

Link to this sectionEfficientDet: масштабируемое и эффективное обнаружение объектов#

Представленная исследователями Google, модель EfficientDet была разработана для систематического масштабирования архитектуры при сохранении высокой эффективности. Этого удалось достичь за счет использования составного масштабирования по глубине сети, ширине и разрешению входных данных.

Подробности EfficientDet: Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl

Link to this sectionАрхитектурные инновации#

Основным вкладом EfficientDet является двунаправленная пирамидальная сеть признаков (BiFPN). В отличие от традиционных FPN, BiFPN позволяет легко и быстро выполнять многомасштабную интеграцию признаков, используя обучаемые веса для определения важности различных входных данных. Это сочетается с основой EfficientNet, что приводит к созданию семейства моделей (от D0 до D7), которые предсказуемо масштабируются.

Link to this sectionСильные и слабые стороны#

Ключевая сильная сторона EfficientDet заключается в эффективности использования параметров. Для задач, где необходимо максимизировать среднюю точность (mAP) в жестко ограниченных облачных средах, метод составного масштабирования является весьма предсказуемым. Однако EfficientDet, как известно, сложно обучать с нуля, и зачастую это требует существенной настройки гиперпараметров. Кроме того, сильная зависимость от специфических операций TensorFlow делает переход к развертыванию на периферийных устройствах через ONNX или TensorRT более громоздким по сравнению с оптимизированными возможностями экспорта, присутствующими в современных моделях YOLO.

Узнай больше об EfficientDet

Link to this sectionDAMO-YOLO: автоматизированный поиск архитектуры в действии#

DAMO-YOLO представляет собой особый подход, использующий нейросетевой поиск архитектуры (NAS) для автоматического проектирования оптимальных структур сетей для вывода в реальном времени.

Подробности DAMO-YOLO: Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Link to this sectionАрхитектурные инновации#

DAMO-YOLO внедряет несколько новых технологий. Он использует созданную с помощью NAS основу под названием MAE-NAS, эффективную сеть RepGFPN в качестве горловины и дизайн ZeroHead, который значительно снижает вычислительную стоимость головы обнаружения. Кроме того, он использует AlignedOTA для назначения меток и сильно полагается на улучшение за счет дистилляции знаний, чтобы повысить производительность своих более компактных вариантов.

Link to this sectionСильные и слабые стороны#

DAMO-YOLO выделяется скоростью вывода на GPU, будучи специально разработанным для развертывания на архитектурах NVIDIA с использованием TensorRT. Убирая тяжелые структуры головы, модель обеспечивает прогнозы с низкой задержкой. С другой стороны, автоматизированный поиск архитектуры может сделать структуру модели непрозрачной и сложной для ручной отладки или точной настройки для специализированных периферийных устройств. В отличие от высокоуниверсальной Ultralytics YOLO11, DAMO-YOLO в первую очередь ориентирован на стандартное обнаружение ограничивающих рамок и не имеет встроенной поддержки таких сложных задач, как оценка позы или обнаружение ориентированных ограничивающих рамок (OBB), «из коробки».

Узнай больше о DAMO-YOLO

Link to this sectionСравнение производительности#

Понимание эмпирических компромиссов необходимо для выбора модели. В приведенной ниже таблице сравнивается семейство EfficientDet и серия DAMO-YOLO по важнейшим метрикам производительности.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
Анализ данных

EfficientDet-d7 достигает высочайшей теоретической точности, но требует огромных вычислительных мощностей, что делает её непригодной для edge AI. DAMO-YOLO обеспечивает исключительную скорость работы TensorRT, хотя для достижения сопоставимой точности ей обычно требуется больше параметров, чем моделям EfficientDet начального уровня.

Link to this sectionСценарии использования и рекомендации#

Выбор между EfficientDet и DAMO-YOLO зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать EfficientDet#

EfficientDet — отличный выбор, если:

  • Конвейеры Google Cloud и TPU: Системы с глубокой интеграцией в Google Cloud Vision API или инфраструктуру TPU, где EfficientDet имеет встроенную оптимизацию.
  • Исследования составного масштабирования: Академическое тестирование, сфокусированное на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
  • Мобильного развертывания через TFLite: Проектов, которые требуют экспорта в TensorFlow Lite специально для Android или встраиваемых устройств на базе Linux.

Link to this sectionКогда выбирать DAMO-YOLO#

DAMO-YOLO рекомендуется для:

  • Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
  • Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
  • Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionПреимущество Ultralytics: развитие за пределами устаревших моделей#

Хотя EfficientDet и DAMO-YOLO дают ценные академические знания, современным разработчикам требуются фреймворки, которые сочетают в себе передовую производительность с удобством для разработчика. Именно здесь экосистема Ultralytics превосходит других.

Link to this sectionНепревзойденная простота использования и экосистема#

Развертывание моделей из отдельных, сильно модифицированных исследовательских репозиториев часто приводит к кошмарам с интеграцией. Ultralytics предоставляет унифицированную, тщательно обслуживаемую экосистему с обширной документацией и Python-интерфейсом (API). Используешь ли ты Google Colab для обучения или экспортируешь модель в CoreML для мобильного вывода, конвейер потребует всего несколько строк кода.

from ultralytics import YOLO

# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX for production
model.export(format="onnx")

Link to this sectionРеволюция YOLO26#

Для разработчиков, оценивающих EfficientDet или DAMO-YOLO, Ultralytics YOLO26 представляет собой высший эволюционный этап. Выпущенная в начале 2026 года, она внедряет парадигмально меняющие возможности:

  • Дизайн без NMS (End-to-End): впервые предложенный YOLOv10, YOLO26 естественным образом исключает необходимость в постобработке методом подавления немаксимумов (NMS). Это переводится в значительно более простые архитектуры развертывания и стабильную задержку на различном оборудовании.
  • До 43% более быстрый вывод на CPU: для периферийных развертываний, где не хватает мощных GPU (сценарии, с которыми DAMO-YOLO справляется с трудом), YOLO26 сильно оптимизирована, обеспечивая огромный прирост скорости на стандартных CPU.
  • Оптимизатор MuSGD: преодолевая разрыв между инновациями LLM и компьютерным зрением, YOLO26 включает оптимизатор MuSGD (вдохновленный Moonshot AI), обеспечивающий невероятно стабильное обучение и быструю сходимость по сравнению с хрупкими циклами обучения EfficientDet.
  • Удаление DFL: удаление Distribution Focal Loss упрощает процесс экспорта, гарантируя превосходную совместимость с маломощными микроконтроллерами и устройствами Raspberry Pi.
  • ProgLoss + STAL: эти передовые функции потерь дают значительные улучшения в распознавании мелких объектов — области, где старые архитектуры традиционно терпят неудачу.

Link to this sectionЭффективность памяти и универсальность задач#

В отличие от моделей transformer или сильно оптимизированных сетей NAS, модели Ultralytics отличаются строгой эффективностью использования памяти. Они потребляют значительно меньше памяти CUDA во время обучения, что позволяет тебе быстро выполнять итерации на потребительском оборудовании.

Более того, пока EfficientDet и DAMO-YOLO жестко ограничены ограничивающими рамками, Ultralytics естественным образом поддерживает сегментацию экземпляров и классификацию изображений в рамках того же интуитивно понятного фреймворка. Для пользователей, поддерживающих старые проекты, Ultralytics YOLOv8 остается надежной и широко развернутой альтернативой, заслуживающей внимания.

Link to this sectionЗаключение#

Выбор правильной архитектуры зрения включает в себя взвешивание чистой теоретической производительности и реальности развертывания. EfficientDet предлагает математически элегантный подход к масштабированию, а DAMO-YOLO обеспечивает впечатляющую «сырую» скорость работы на GPU. Однако для команд, которые ставят во главу угла быструю разработку, надежные развертывания и передовые функции, модели Ultralytics явно стоят впереди. Объединяя такие инновации, как вывод без NMS и оптимизацию MuSGD, YOLO26 гарантирует, что твои проекты компьютерного зрения построены на самой функциональной, поддерживаемой и эффективной базе из доступных сегодня.

Участники

Комментарии