DAMO-YOLO против YOLO26: Анализ архитектур детектирования объектов нового поколения в реальном времени

Ландшафт компьютерного зрения постоянно эволюционирует, движимый потребностью в архитектурах, которые сочетают высокую точность с низкой задержкой вывода. Это сравнение погружается в технические тонкости DAMO-YOLO и Ultralytics YOLO26, исследуя их архитектурные инновации, методологии обучения и идеальные сценарии использования.

Независимо от того, развертываешь ли ты модели зрения на периферийных устройствах или создаешь облачные конвейеры с высокой пропускной способностью, понимание нюансов между этими моделями критически важно для принятия обоснованных архитектурных решений в современной разработке ИИ.

DAMO-YOLO: Масштабируемый поиск архитектуры нейронных сетей

DAMO-YOLO, разработанная Alibaba Group, была выпущена 23 ноября 2022 года. Модель, созданная Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь, уделяет особое внимание автоматизированному поиску эффективных архитектур с использованием нейроархитектурного поиска (NAS).

Ты можешь ознакомиться с оригинальным исследованием в их статье на ArXiv или изучить исходный код в репозитории DAMO-YOLO на GitHub.

Ключевые архитектурные особенности

DAMO-YOLO представляет несколько технических инноваций, разработанных для расширения границ детектирования объектов в реальном времени:

  • Бэкбоны MAE-NAS: DAMO-YOLO использует многоцелевой эволюционный поиск для нахождения оптимальных бэкбонов. Этот подход NAS обнаруживает архитектуры, которые строго балансируют точность детектирования со скоростью вывода на конкретном оборудовании.
  • Эффективный RepGFPN: Дизайн «тяжелого» нек-модуля, который значительно улучшает слияние признаков, что крайне полезно при анализе сложных сцен, например, в аэрофотоснимках.
  • Дизайн ZeroHead: Сильно упрощенная голова (head) детектирования, которая минимизирует вычислительную сложность финальных слоев предсказания.
  • AlignedOTA и дистилляция: DAMO-YOLO применяет Aligned Optimal Transport Assignment (AlignedOTA) для разрешения неоднозначностей при назначении меток в сочетании со стратегией улучшения на основе надежной дистилляции знаний, чтобы повысить точность небольших моделей-учеников с использованием более крупных сетей-учителей.

Узнай больше о DAMO-YOLO

Преимущество Ultralytics: YOLO26

Выпущенная 14 января 2026 года Гленном Джочером и Цзин Цю в Ultralytics, YOLO26 представляет собой вершину доступного и высокопроизводительного ИИ в компьютерном зрении. Опираясь на наследие YOLO11 и YOLOv10, YOLO26 разработана с нуля для развертывания на периферии, мультимодальной универсальности и непревзойденной простоты использования.

Инновации YOLO26

Ultralytics YOLO26 представляет несколько революционных функций, которые делают её окончательным выбором для современных приложений компьютерного зрения:

  • Сквозной дизайн без NMS: YOLO26 нативно исключает постпроцессинг Non-Maximum Suppression (NMS). Этот сквозной подход, впервые примененный в YOLOv10, радикально упрощает конвейеры развертывания и обеспечивает детерминированный вывод с низкой задержкой.
  • До 43% быстрее вывод на CPU: Архитектурно оптимизированная для граничных вычислений, YOLO26 обеспечивает исключительную скорость на периферийных устройствах и стандартных CPU, что делает её идеальной для IoT-устройств с питанием от батареи.
  • Оптимизатор MuSGD: Вдохновленная обучением LLM (как Kimi K2 от Moonshot AI), YOLO26 включает гибрид SGD и Muon. Это привносит стабильность обучения больших языковых моделей в компьютерное зрение, что приводит к более быстрой и надежной сходимости.
  • Удаление DFL: Благодаря удалению Distribution Focal Loss граф модели упрощается, позволяя беспрепятственно экспортировать её в форматы типа ONNX и TensorRT.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критической функцией для работы дронов и сельского хозяйства.
Улучшения для конкретных задач

YOLO26 включает специализированные улучшения для нескольких модальностей: мультимасштабное прото для сегментации экземпляров, Residual Log-Likelihood Estimation (RLE) для оценки позы и продвинутые угловые потери для снижения проблем с границами при детектировании с ориентированным BBox (OBB).

Узнай больше о YOLO26

Сравнение производительности

При оценке этих моделей баланс между точностью (mAP) и вычислительной эффективностью (скорость/FLOPs) имеет первостепенное значение. Таблица ниже показывает, как эти модели сравниваются при использовании стандартного для отрасли датасета COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Как видно выше, YOLO26 стабильно обеспечивает более высокую точность при значительно меньшем количестве параметров и операций FLOPs, что приводит к гораздо более эффективной архитектуре как для обучения, так и для вывода.

Эффективность обучения и удобство использования

Сложности DAMO-YOLO

Хотя DAMO-YOLO достигает конкурентной точности, методология её обучения крайне сложна. Зависимость от нейроархитектурного поиска (NAS) и тяжелой дистилляции знаний означает, что обучение пользовательской модели часто требует значительных ресурсов GPU и специальных знаний. Этот многоэтапный процесс — обучение массивной модели-учителя для дистилляции в меньшую модель-ученика — может стать «бутылочным горлышком» для гибких инженерных команд, пытающихся быстро итерировать на своих наборах данных.

Оптимизированный опыт Ultralytics

Напротив, Ultralytics YOLO26 спроектирована для максимального удобства. Весь жизненный цикл обучения, валидации и развертывания абстрагирован за чистым, унифицированным Python API и CLI. Кроме того, YOLO26 требует значительно меньше памяти CUDA во время обучения по сравнению с моделями на основе трансформеров, такими как RT-DETR, что позволяет исследователям обучать современные модели на потребительском оборудовании.

Вот пример того, как просто обучать, оценивать и экспортировать модель YOLO26 с использованием Ultralytics SDK:

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

Для команд, предпочитающих no-code среду, Ultralytics Platform предоставляет интуитивно понятный интерфейс для аннотирования данных, облачного обучения и бесшовного развертывания.

Применение в реальных условиях

Выбор правильной архитектуры сильно зависит от целевой среды развертывания и аппаратных ограничений.

Промышленный контроль качества

Для высокоскоростной автоматизации производства, DAMO-YOLO может хорошо работать на выделенном аппаратном обеспечении GPU. Однако YOLO26 является предпочтительным выбором для современных сборочных линий. Её сквозной дизайн без NMS обеспечивает детерминированную задержку без джиттера, что важно при синхронизации визуальных данных с робототехническими приводами в реальном времени.

Граничный ИИ и мобильные устройства

Развертывание компьютерного зрения на устройствах с питанием от батареи требует экстремальной эффективности. В то время как DAMO-YOLO полагается на специфические нек-модули RepGFPN, YOLO26n (Nano) специально оптимизирована для граничных вычислений. Удаление DFL и вывод на CPU, ставший на 43% быстрее, делают её лучшим решением для умных камер, мобильных приложений и систем охранной сигнализации.

Мультимодальные требования к проектам

Если проект требует большего, чем просто детектирование объектов — например, анализ механики движений игрока в спорте с использованием оценки позы или извлечение точных границ пикселей с использованием сегментации экземпляров — YOLO26 обеспечивает нативную поддержку всех этих задач в рамках одной единой кодовой базы. DAMO-YOLO строго ограничена детектированием ограничивающих рамок.

Варианты использования и рекомендации

Выбор между DAMO-YOLO и YOLO26 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать DAMO-YOLO

DAMO-YOLO — отличный выбор для:

  • Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
  • Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.

Когда выбирать YOLO26

YOLO26 рекомендуется для:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Заключение

Обе архитектуры представляют значительные достижения в области глубокого обучения. DAMO-YOLO предлагает увлекательный взгляд на мощь нейроархитектурного поиска и методов дистилляции, адаптированных под конкретные аппаратные бенчмарки.

Однако для разработчиков, исследователей и предприятий, ищущих готовое к продакшену решение, Ultralytics YOLO26 выделяется как превосходный выбор. Её комбинация сквозного дизайна без NMS, колоссального прироста скорости вывода на CPU, мультимодальной универсальности и интеграции в хорошо поддерживаемую экосистему Ultralytics делает её самым надежным и практичным инструментом для решения реальных задач компьютерного зрения сегодня.

Для пользователей, заинтересованных в изучении других моделей в экосистеме Ultralytics, доступна полная документация для YOLO11, YOLOv8 и RT-DETR на базе трансформеров.

Комментарии