Перейти к содержанию

YOLO26 против DAMO-YOLO: Техническое сравнение детекторов объектов реального времени

При выборе современной модели компьютерного зрения крайне важно найти оптимальный баланс между скоростью инференса, точностью и простотой развертывания. В этом всеобъемлющем руководстве сравниваются две выдающиеся модели в области ИИ-зрения: Ultralytics YOLO26 и DAMO-YOLO. Хотя обе архитектуры расширяют границы обнаружения объектов в реальном времени, их основные принципы проектирования и предполагаемые сценарии использования значительно различаются.

Архитектурные инновации и проектирование

Ultralytics YOLO26: Стандарт компьютерного зрения, ориентированный на периферийные вычисления

Разработанный Гленном Йохером и Цзин Цю в Ultralytics и выпущенный 14 января 2026 года, YOLO26 представляет собой огромный шаг вперед в линейке YOLO. Он разработан с нуля для граничных вычислений, плавно сочетая передовые методы обучения LLM с продвинутыми архитектурами зрения.

Ключевые архитектурные прорывы YOLO26 включают:

  • Сквозная архитектура без NMS: Основываясь на новаторской работе, проделанной в YOLOv10, YOLO26 изначально является сквозной (end-to-end) системой. Полностью исключая подавление немаксимумов (NMS) на этапе постобработки, она гарантирует детерминированную задержку и значительно упрощает конвейеры развертывания.
  • Удаление DFL: Удаление Distribution Focal Loss оптимизирует граф модели. Это значительно упрощает экспорт в фреймворки развертывания, такие как ONNX и TensorRT, и обеспечивает лучшую совместимость с маломощными периферийными устройствами.
  • Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибрид стохастического градиентного спуска (SGD) и Muon привносит инновации в обучение LLM в компьютерное зрение, что приводит к исключительно стабильному обучению и быстрой сходимости.
  • ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критической необходимостью для анализа аэрофотоснимков с помощью дронов и сложных робототехнических конвейеров.

Узнайте больше о YOLO26

DAMO-YOLO: Масштабируемый поиск нейронных архитектур

Разработанный Сяньчжэ Сюй, Ици Цзяном, Вэйхуа Ченом, Илунем Хуаном, Юань Чжаном и Сюйю Сунь из Alibaba Group (выпущен 23 ноября 2022 года), DAMO-YOLO уделяет особое внимание автоматизированному поиску архитектур. Исследование, подробно описанное в их статье на arXiv, использует нейронный поиск архитектуры (NAS) для нахождения оптимальных базовых архитектур в условиях строгих ограничений по задержке.

Ключевые архитектурные особенности DAMO-YOLO включают:

  • Бэкбон MAE-NAS: Использует многоцелевой эволюционный поиск для автоматического проектирования бэкбонов, которые балансируют точность с целевой скоростью развертывания.
  • Эффективная RepGFPN: Надежная конструкция с мощной шейкой (heavy-neck), которая оптимизирует слияние признаков на разных масштабах, делая ее высокоэффективной при обработке сложных визуальных сцен.
  • ZeroHead: Кардинально упрощенная голова детектора, разработанная для минимизации вычислительных затрат в финальных слоях предсказания.

Узнайте больше о DAMO-YOLO

Выбор правильной архитектуры

Хотя NAS-архитектура DAMO-YOLO отлично подходит для конкретных, заранее определенных аппаратных ограничений, NMS-free дизайн и удаление DFL в YOLO26 делают его гораздо более универсальным и предсказуемым выбором для широкого спектра различных периферийных и облачных сред.

Сравнение производительности и метрик

Прямое сравнение вариантов моделей, обученных на стандартном наборе данных COCO, выявляет различные профили производительности. В таблице ниже представлены компромиссы между точностью (mAP), скоростью и вычислительными затратами (параметрами и FLOPs).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Анализ производительности

При анализе данных баланс производительности значительно смещается в сторону YOLO26 для современных приложений. Вариант Nano (YOLO26n) исключительно легок, имея всего 2,4 млн параметров, и обеспечивает невероятную скорость в 1,7 мс на GPU NVIDIA T4. Кроме того, YOLO26 специально разработан для обеспечения до 43% более быстрой инференции на CPU, что делает его бесспорным лидером для периферийных устройств, не имеющих выделенных GPU-ускорителей.

Хотя DAMO-YOLOt немного превосходит YOLO26n по чистому mAP, это достигается за счет почти четырехкратного увеличения количества параметров (8.5M). По мере перехода к более крупным вариантам, YOLO26 стабильно превосходит DAMO-YOLO по точности, сохраняя при этом меньший объем памяти, более низкое потребление памяти CUDA во время обучения и значительно более высокую скорость TensorRT.

Экосистема, удобство использования и эффективность обучения

Истинная сила модели машинного обучения заключается не только в ее сырых метриках, но и в том, насколько легко она может быть использована разработчиками и исследователями.

Преимущество Ultralytics

Выбор модели Ultralytics гарантирует доступ к высокоразвитой, ориентированной на разработчиков экосистеме. Сложные рабочие процессы, включающие аугментацию данных, настройку гиперпараметров и надежное отслеживание экспериментов, абстрагированы в интуитивно понятные команды.

Кроме того, YOLO26 предлагает непревзойденную универсальность. В то время как DAMO-YOLO является строго детектором объектов, YOLO26 предоставляет комплексные, специфичные для задач улучшения в нескольких областях из коробки:

Методологии обучения

Обучение DAMO-YOLO часто включает сложный процесс дистилляции, при котором большая модель-«учитель» обучает меньшую модель-«ученика». Хотя эта техника позволяет получить незначительный прирост точности, она требует значительного объема памяти GPU и более длительных циклов обучения.

Напротив, требования к памяти для YOLO26 значительно ниже. Благодаря оптимизатору MuSGD, YOLO26 быстро и эффективно обучается на стандартном потребительском оборудовании. Вот как легко вы можете обучить модель YOLO26, используя Ultralytics Python API на базе PyTorch:

from ultralytics import YOLO

# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the optimized, NMS-free model
model.export(format="onnx")

Изучение других моделей

Если вы заинтересованы в изучении других современных архитектур в экосистеме Ultralytics, высокопроизводительная YOLO11 остается отличным выбором для существующих конвейеров. В качестве альтернативы, исследователи, интересующиеся архитектурами на основе трансформеров, могут изучить модель RT-DETR.

Приложения в реальном мире

Выбор между этими архитектурами в конечном итоге зависит от вашей среды развертывания.

Edge AI и устройства IoT

Для камер умной розничной торговли, автоматизированных сельскохозяйственных мониторов или робототехники вычислительные ресурсы строго ограничены. В этом случае YOLO26 является окончательным выбором. Его на 43% более быстрый инференс на CPU, полностью NMS-свободный конвейер и минимальный объем параметров позволяют ему бесперебойно работать на периферийных устройствах, таких как Raspberry Pi, без ущерба для критической точности.

Высокоскоростное производство и контроль качества

На высокоскоростных линиях автоматизации производства обнаружение дефектов на быстродвижущихся конвейерных лентах требует минимальной, детерминированной задержки. Хотя DAMO-YOLO может адекватно работать на определенных конфигурациях GPU, колеблющаяся задержка, вносимая традиционной постобработкой NMS, может десинхронизировать роботизированные приводы. Сквозная природа YOLO26 гарантирует стабильное, предсказуемое время обработки кадров, обеспечивая безупречную интеграцию в высокоскоростную промышленную робототехнику.

Дрон и аэрофотосъемка

Обнаружение крошечных объектов с больших высот общеизвестно затруднительно. Интеграция ProgLoss и STAL в YOLO26 значительно улучшает распознавание мелких объектов. Будь то отслеживание дикой природы или анализ загруженности дорог с БПЛА, YOLO26 последовательно идентифицирует объекты с меньшей площадью в пикселях, которые часто пропускают старые архитектуры, включая DAMO-YOLO.

Сценарии использования и рекомендации

Выбор между YOLO26 и DAMO-YOLO зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLO26

YOLO26 является отличным выбором для:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Когда следует выбирать DAMO-YOLO

DAMO-YOLO рекомендуется для:

  • Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
  • Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.

Заключение

Хотя DAMO-YOLO остается увлекательным исследованием возможностей нейронного архитектурного поиска для конкретных аппаратных целей, Ultralytics YOLO26 является превосходным, всесторонним решением для современного специалиста по ИИ. Благодаря своей сквозной NMS-free архитектуре, значительно более низким требованиям к памяти, гибридному оптимизатору MuSGD и безупречно поддерживаемой экосистеме, YOLO26 позволяет разработчикам создавать и развертывать передовые системы зрения быстрее и надежнее, чем когда-либо прежде.


Комментарии