DAMO-YOLO против YOLO26: Техническое сравнение детекторов объектов в реальном времени
Эволюция обнаружения объектов в реальном времени сопровождалась быстрыми достижениями, обусловленными потребностью в моделях, которые балансируют скорость, точность и эффективность развертывания. В этой статье представлено всестороннее техническое сравнение между DAMO-YOLO, разработанной Alibaba Group, и YOLO26, последней итерацией от Ultralytics. Мы проанализируем их архитектуры, метрики производительности и идеальные сценарии использования, чтобы помочь разработчикам и исследователям выбрать правильный инструмент для своих проектов в области компьютерного зрения.
Обзор DAMO-YOLO
DAMO-YOLO — это быстрый и точный метод обнаружения объектов, представленный в конце 2022 года исследователями из Alibaba Group. Он был разработан для расширения пределов производительности путем интеграции нескольких передовых технологий в фреймворк YOLO. Основная философия DAMO-YOLO заключается в использовании нейронного поиска архитектуры (NAS) для автоматического обнаружения эффективных базовых сетей в сочетании с мощным блоком повторной параметризации.
Ключевые архитектурные особенности включают:
- Базовая сеть MAE-NAS: Использование подхода маскированного автокодировщика (MAE) для поиска оптимальных структур базовой сети при различных ограничениях задержки.
- Эффективная RepGFPN: Обобщенная пирамидальная сеть признаков (GFPN), значительно оптимизированная с помощью повторной параметризации для повышения эффективности слияния признаков без ущерба для скорости во время инференса.
- ZeroHead: Легковесная конструкция головы, которая снижает вычислительные затраты.
- AlignedOTA: Улучшенная стратегия присвоения меток, которая решает проблемы несоответствия между задачами классификации и регрессии.
- Улучшение дистилляции: Используется надежный конвейер дистилляции для повышения точности меньших моделей с использованием более крупных моделей-учителей.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация:Alibaba Group
Дата: 23 ноября 2022 г.
Ссылки:Arxiv, GitHub
Обзор YOLO26
Выпущенная в январе 2026 года компанией Ultralytics, YOLO26 представляет собой значительный шаг вперед в области компьютерного зрения, оптимизированного для периферийных устройств. Разработанная специально для периферийных и маломощных устройств, она сосредоточена на оптимизации конвейера развертывания при одновременном повышении точности в сложных задачах, таких как обнаружение мелких объектов.
YOLO26 отличается несколькими крупными инновациями:
- Сквозная архитектура без NMS: Устраняя необходимость в постобработке Non-Maximum Suppression (NMS), YOLO26 упрощает логику развертывания и снижает изменчивость задержки — концепция, впервые примененная в YOLOv10.
- Удаление DFL: Удаление Distribution Focal Loss (DFL) упрощает выходную структуру модели, делая экспорт в форматы, такие как ONNX и TensorRT, более простым и совместимым с более широким спектром оборудования.
- Оптимизатор MuSGD: Новый гибридный оптимизатор, сочетающий SGD и Muon, вдохновленный методами обучения LLM из Kimi K2 от Moonshot AI. Это приводит к более стабильной динамике обучения и более быстрой сходимости.
- ProgLoss + STAL: Сочетание прогрессивного балансирования потерь (Progressive Loss Balancing) и присвоения меток с учетом мелких целей (Small-Target-Aware Label Assignment, STAL) значительно повышает производительность на мелких объектах, устраняя распространенную слабость детекторов реального времени.
Авторы: Glenn Jocher and Jing Qiu
Организация:Ultralytics
Дата: 14 января 2026 г.
Ссылки:Документация Ultralytics, GitHub
Сравнительный анализ
Архитектура и философия проектирования
Наиболее заметное различие заключается в конвейере инференса. DAMO-YOLO следует традиционному рабочему процессу детектора, который требует NMS для фильтрации перекрывающихся ограничивающих рамок. Хотя NMS эффективен, он может стать узким местом в высокопроизводительных приложениях и усложнить развертывание на некоторых ускорителях.
В отличие от этого, YOLO26 изначально является сквозной моделью. Модель напрямую предсказывает окончательный набор ограничивающих рамок. Эта безалгоритимная NMS-архитектура не только снижает задержку инференса — особенно на периферийных устройствах, ограниченных CPU, где NMS является дорогостоящей операцией — но и упрощает код интеграции, необходимый для запуска модели в производственных средах.
Простота развертывания
Безалгоритимная NMS-архитектура YOLO26 означает, что вам не нужно реализовывать сложную логику постобработки на C++ или CUDA при развертывании на периферийных устройствах. Выходные данные модели являются окончательным результатом обнаружения.
Методологии обучения
DAMO-YOLO в значительной степени полагается на дистилляцию знаний для достижения высокой производительности, особенно для своих меньших вариантов. Это добавляет сложности в конвейер обучения, поскольку сначала должна быть обучена мощная модель-учитель.
YOLO26 представляет оптимизатор MuSGD, преодолевая разрыв между оптимизацией больших языковых моделей (LLM) и компьютерным зрением. Это позволяет YOLO26 достигать современной сходимости без обязательной опоры на сложные схемы дистилляции, хотя режимы обучения Ultralytics поддерживают различные расширенные конфигурации. Кроме того, ProgLoss в YOLO26 динамически регулирует веса потерь во время обучения для стабилизации процесса обучения.
Метрики производительности
При сравнении производительности на наборе данных COCO обе модели показывают впечатляющие результаты, но выявляются явные компромиссы в отношении скорости и эффективности.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Анализ:
- Эффективность параметров: YOLO26 демонстрирует значительно лучшую эффективность по параметрам. Например,
YOLO26sдостигает 48.6 mAP всего с 9.5 млн параметров, тогда какDAMO-YOLOsдостигает 46.0 mAP с 16.3 млн параметров. Это делает модели YOLO26 более легкими для хранения и быстрыми для загрузки. - Скорость инференса: YOLO26n чрезвычайно быстр, достигая 1.7 мс на GPU T4 с TensorRT, по сравнению с примерно 2.32 мс для варианта Tiny DAMO. Скорость на CPU YOLO26 также является важным преимуществом, оптимизированным специально для таких устройств, как Raspberry Pi или мобильные телефоны, где GPU недоступны.
- Точность: При аналогичных масштабах (например, Medium/Large) YOLO26 стабильно превосходит DAMO-YOLO по mAP, вероятно, благодаря продвинутой стратегии назначения STAL и усовершенствованной архитектуре.
Универсальность и поддержка задач
В то время как DAMO-YOLO в основном ориентирован на обнаружение объектов, экосистема Ultralytics гарантирует, что YOLO26 является многозадачной мощной системой.
- DAMO-YOLO: Специализируется на обнаружении объектов.
- YOLO26: Поддерживает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих рамок (OBB) из коробки.
Эта универсальность позволяет разработчикам использовать единый унифицированный API для решения различных задач компьютерного зрения, снижая кривую обучения и технический долг.
Простота использования и экосистема
Одним из самых сильных преимуществ YOLO26 является окружающая экосистема Ultralytics.
DAMO-YOLO предоставляет кодовую базу, которую исследователи могут использовать для воспроизведения результатов, но ей может не хватать обширной документации, поддержки и сообщества, присущих более продуктоориентированным библиотекам.
YOLO26 выигрывает от:
- Простой API: Единый Python и интерфейс CLI (
yolo predict ...) что делает обучение и развертывание доступными как для новичков, так и для экспертов. - Документация: Обширные руководства по всему, от обучения на пользовательских наборах данных до экспорта моделей для iOS и Android.
- Интеграции: Бесшовная интеграция с такими инструментами, как Comet, Weights & Biases и Roboflow для MLOps.
- Поддержка: Частые обновления, устраняющие ошибки и добавляющие новые функции, обеспечивают актуальность модели.
Пример кода: Запуск YOLO26
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
Случаи использования
Когда выбирать DAMO-YOLO
- Применение в исследованиях: Если ваша работа включает изучение поиска нейронных архитектур (NAS) или исследование новых методов репараметризации, DAMO-YOLO предоставляет богатую основу для академических исследований.
- Специфические унаследованные ограничения: Если существующий конвейер строго построен вокруг определенного формата вывода или стратегий назначения якорей DAMO-YOLO, и рефакторинг нецелесообразен.
Когда стоит выбрать YOLO26
- Развертывание на периферии: Для приложений на Raspberry Pi, мобильных устройствах или встраиваемых системах, где скорость инференса на CPU и низкое потребление памяти критически важны.
- Системы реального времени: Отсутствие NMS делает YOLO26 идеальным решением для приложений с требованиями к сверхнизкой задержке в робототехнике или автономном вождении.
- Многозадачные проекты: Если ваш проект требует одновременного detect объектов, segment масок и оценки поз, YOLO26 охватывает все аспекты в рамках одной платформы.
- Коммерческая разработка: Стабильность, поддержка и простота экспорта в такие форматы, как CoreML и OpenVINO, делают его превосходным выбором для производственного программного обеспечения.
Заключение
Обе модели представляют собой значительные достижения в области компьютерного зрения. DAMO-YOLO представила впечатляющие концепции в области NAS и эффективного слияния признаков. Однако YOLO26 совершенствует передовые решения, уделяя особое внимание практичности развертывания, стабильности обучения и вычислительной эффективности. Благодаря своей сквозной архитектуре без NMS, превосходной эффективности параметров и поддержке надежной экосистемы Ultralytics, YOLO26 выделяется как рекомендуемый выбор для современных приложений компьютерного зрения реального времени.
Для тех, кто заинтересован в изучении других вариантов в семействе Ultralytics, такие модели, как YOLO11 и YOLOv8, остаются мощными альтернативами для задач detect общего назначения.