Перейти к содержанию

YOLO26 против DAMO-YOLO: Прогресс в обнаружении объектов в реальном времени

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для баланса между точностью, скоростью и возможностью развертывания. Это сравнение исследует YOLO26, новейшее решение от Ultralytics, оптимизированное для периферийных устройств, и DAMO-YOLO, высокопроизводительный детектор, разработанный Alibaba Group. Обе модели представляют значительные архитектурные инновации, но они нацелены на несколько разные приоритеты в конвейере развертывания.

Обзор модели

Ultralytics YOLO26

YOLO26 представляет собой смену парадигмы в сторону простоты и эффективности на периферии. Выпущенная в январе 2026 года, она разработана для устранения сложностей традиционной постобработки, обеспечивая при этом передовую производительность на устройствах с ограниченными ресурсами CPU. Она нативно поддерживает широкий спектр задач, включая обнаружение объектов, сегментацию экземпляров, оценку позы, классификацию и обнаружение ориентированных ограничивающих рамок (OBB).

Узнайте больше о YOLO26

DAMO-YOLO

DAMO-YOLO фокусируется на оптимизации компромисса между скоростью и точностью за счет расширенного поиска нейронной архитектуры (NAS) и интенсивной репараметризации. Разработанная командой TinyVision в Alibaba, она представляет новые компоненты, такие как RepGFPN и ZeroHead, для максимизации эффективности извлечения признаков, в первую очередь ориентируясь на сценарии использования универсальных GPU.

  • Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
  • Организация: Alibaba Group
  • Дата: 23 ноября 2022 г.
  • Arxiv:Статья DAMO-YOLO
  • GitHub:Репозиторий DAMO-YOLO

Сравнение технической архитектуры

Сквозное решение против традиционного NMS

Наиболее существенное операционное различие заключается в том, как финализируются прогнозы.

YOLO26 использует нативно сквозную архитектуру без NMS. Генерируя окончательные прогнозы непосредственно из сети, она устраняет необходимость в подавлении немаксимумов (NMS). Это устранение постобработки снижает изменчивость задержки и упрощает конвейеры развертывания, особенно на периферийном оборудовании, таком как Raspberry Pi или мобильные устройства, где операции NMS могут быть узким местом. Этот подход был успешно применен в YOLOv10 и доработан здесь.

DAMO-YOLO опирается на более традиционную плотную предсказательную головку (ZeroHead), которая требует NMS для фильтрации перекрывающихся рамок. Хотя это эффективно, это добавляет вычислительный шаг во время вывода, который масштабируется с количеством обнаруженных объектов, потенциально вызывая колебания задержки в переполненных сценах.

Инновации в обучении: MuSGD против NAS

YOLO26 представляет оптимизатор MuSGD, гибрид SGD и Muon. Вдохновленный прорывами в обучении LLM, такими как Kimi K2 от Moonshot AI, этот оптимизатор обеспечивает более стабильную динамику обучения и более быструю сходимость, позволяя пользователям достигать оптимальной производительности за меньшее количество эпох.

DAMO-YOLO использует поиск нейронной архитектуры (NAS) с помощью своего метода MAE-NAS для автоматического обнаружения эффективных структур основы. Он также применяет Efficient RepGFPN, шейку с интенсивной репараметризацией, которая объединяет признаки на нескольких масштабах. Хотя эти архитектуры, полученные с помощью NAS, мощны, они иногда могут быть менее интуитивны для модификации или тонкой настройки по сравнению с созданными вручную, оптимизированными блоками в моделях Ultralytics.

Функции потерь

YOLO26 удаляет Distribution Focal Loss (DFL) для упрощения экспорта в такие форматы, как CoreML и TensorRT. Вместо этого он использует ProgLoss и присвоение меток с учетом малых объектов (STAL), которые значительно повышают производительность на малых объектах — распространенная проблема в таких секторах, как аэрофотосъемка и медицинский анализ.

DAMO-YOLO использует AlignedOTA, стратегию присвоения меток, которая решает проблему несоответствия между задачами классификации и регрессии. Она сосредоточена на обеспечении того, чтобы высококачественные якоря были присвоены наиболее релевантным истинным значениям во время обучения.

Оптимизация для периферийных устройств в YOLO26

Удаляя DFL и NMS, YOLO26 достигает до 43% более быстрого вывода на CPU по сравнению с предыдущими поколениями. Это делает его уникально подходящим для приложений "Edge AI", где ресурсы GPU недоступны, например, для управления умной парковкой на устройстве.

Метрики производительности

В следующей таблице показаны различия в производительности. YOLO26 демонстрирует превосходную эффективность, особенно по количеству параметров и FLOPs, сохраняя при этом конкурентоспособную или превосходную точность.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Основные выводы

  1. Эффективность: YOLO26n (Nano) примерно в 3,5 раза меньше по количеству параметров и в 3,3 раза меньше по FLOPs, чем DAMO-YOLOt, при достижении сопоставимой точности. Такое резкое снижение вычислительной нагрузки делает YOLO26 значительно лучше для развертывания на мобильных устройствах и в IoT.
  2. Масштабирование точности: По мере масштабирования моделей YOLO26m превосходит DAMO-YOLOm почти на 4,0 mAP, используя при этом меньшее количество параметров (20,4M против 28,2M).
  3. Скорость: YOLO26 стабильно обеспечивает более быстрое время вывода на GPU T4 во всех масштабах, что критически важно для высокопроизводительных приложений, таких как видеоаналитика.

Удобство использования и экосистема

Простота и документация

Одной из отличительных особенностей Ultralytics моделей является простота использования. YOLO26 интегрирована в ultralytics python пакет, что позволяет пользователям обучать, проверять и развертывать модели всего несколькими строками кода.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)

В отличие от этого, DAMO-YOLO представляет собой репозиторий, ориентированный на исследования. Хотя он предоставляет скрипты для обучения и инференса, ему не хватает унифицированного API, обширных руководств и широкой поддержки ОС (Windows, Linux, macOS), которые предлагает экосистема Ultralytics.

Развертывание и экспорт

YOLO26 поддерживает экспорт в один клик в более чем 10 форматов, включая ONNX, OpenVINO, CoreML и TFLite. Эта гибкость жизненно важна для инженеров, переходящих от исследований к производству. Удаление сложных модулей, таких как DFL, гарантирует надежность этих экспортов и их совместимость с более широким спектром аппаратных ускорителей.

DAMO-YOLO опирается на специфические шаги репараметризации, которые необходимо тщательно обрабатывать во время экспорта. Если модель не будет правильно «переключена» из режима обучения в режим развертывания, ее производительность может ухудшиться или она вообще не запустится, что добавляет пользователю дополнительный уровень сложности.

Реальные примеры использования

Идеальные сценарии для YOLO26

  • Граничные устройства и IoT: Благодаря минимальному объему памяти (начиная с 2,4 млн параметров), YOLO26 идеально подходит для камер видеонаблюдения и дронов, где мощность и оперативная память ограничены.
  • Аналитика спортивных событий в реальном времени: Без NMS-дизайн обеспечивает стабильную задержку, что критически важно для track быстродвижущихся объектов в спортивных приложениях.
  • Многозадачные системы: Поскольку YOLO26 нативно поддерживает segment, pose и obb, она является предпочтительным выбором для сложных конвейеров, таких как роботизированные манипуляции, требующие определения ориентации и точек захвата.

Идеальные сценарии для DAMO-YOLO

  • Академические исследования: Использование NAS и передовых методов дистилляции делает ее сильным кандидатом для исследователей, изучающих методологии поиска архитектуры.
  • Высокопроизводительные GPU-серверы: В сценариях, где аппаратные ограничения отсутствуют и каждая доля точности имеет значение на определенных бенчмарках, мощный backbone DAMO-YOLO может быть эффективно использован.

Заключение

В то время как DAMO-YOLO представила впечатляющие концепции в области поиска архитектуры и репараметризации еще в 2022 году, YOLO26 представляет собой передовое решение 2026 года. Сосредоточившись на сквозной простоте, устранении узких мест, таких как NMS и DFL, и значительном сокращении количества параметров, YOLO26 предлагает более практичное, быстрое и удобное решение для современных разработчиков ИИ.

Для пользователей, стремящихся развернуть надежные решения компьютерного зрения сегодня, бесшовная интеграция с платформой Ultralytics и высокая энергоэффективность (производительность на ватт) делают YOLO26 очевидной рекомендацией.

Дополнительная литература

Для тех, кто интересуется другими архитектурными подходами, изучите эти связанные модели в документации:

  • YOLO11 - Стандарт предыдущего поколения по универсальности и точности.
  • RT-DETR - Детектор реального времени на основе трансформеров, который также предлагает инференс без NMS.
  • YOLOv10 - Пионер сквозного подхода к обучению без NMS, используемого в YOLO26.

Комментарии