YOLO26 против DAMO-YOLO: Техническое сравнение детекторов объектов реального времени

При выборе современной модели компьютерного зрения крайне важно найти оптимальный баланс между скоростью инференса, точностью и простотой развертывания. В этом всеобъемлющем руководстве сравниваются две выдающиеся модели в области ИИ-зрения: Ultralytics YOLO26 и DAMO-YOLO. Хотя обе архитектуры расширяют границы обнаружения объектов в реальном времени, их основные принципы проектирования и предполагаемые сценарии использования значительно различаются.

Архитектурные инновации и проектирование

Ultralytics YOLO26: Стандарт компьютерного зрения, ориентированный на периферийные вычисления

Разработанный Гленном Йохером и Цзин Цю в Ultralytics и выпущенный 14 января 2026 года, YOLO26 представляет собой огромный шаг вперед в линейке YOLO. Он разработан с нуля для граничных вычислений, плавно сочетая передовые методы обучения LLM с продвинутыми архитектурами зрения.

Ключевые архитектурные прорывы YOLO26 включают:

Сквозная архитектура без NMS: Основываясь на новаторской работе, проделанной в YOLOv10, YOLO26 изначально является сквозной (end-to-end) системой. Полностью исключая подавление немаксимумов (NMS) на этапе постобработки, она гарантирует детерминированную задержку и значительно упрощает конвейеры развертывания.
Удаление DFL: Удаление Distribution Focal Loss оптимизирует граф модели. Это значительно упрощает экспорт в фреймворки развертывания, такие как ONNX и TensorRT, и обеспечивает лучшую совместимость с маломощными периферийными устройствами.
Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибрид стохастического градиентного спуска (SGD) и Muon привносит инновации в обучение LLM в компьютерное зрение, что приводит к исключительно стабильному обучению и быстрой сходимости.
ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критической необходимостью для анализа аэрофотоснимков с помощью дронов и сложных робототехнических конвейеров.

Узнайте больше о YOLO26

DAMO-YOLO: Масштабируемый поиск нейронных архитектур

Разработанный Сяньчжэ Сюй, Ици Цзяном, Вэйхуа Ченом, Илунем Хуаном, Юань Чжаном и Сюйю Сунь из Alibaba Group (выпущен 23 ноября 2022 года), DAMO-YOLO уделяет особое внимание автоматизированному поиску архитектур. Исследование, подробно описанное в их статье на arXiv, использует нейронный поиск архитектуры (NAS) для нахождения оптимальных базовых архитектур в условиях строгих ограничений по задержке.

Ключевые архитектурные особенности DAMO-YOLO включают:

Бэкбон MAE-NAS: Использует многоцелевой эволюционный поиск для автоматического проектирования бэкбонов, которые балансируют точность с целевой скоростью развертывания.
Эффективная RepGFPN: Надежная конструкция с мощной шейкой (heavy-neck), которая оптимизирует слияние признаков на разных масштабах, делая ее высокоэффективной при обработке сложных визуальных сцен.
ZeroHead: Кардинально упрощенная голова детектора, разработанная для минимизации вычислительных затрат в финальных слоях предсказания.

Узнайте больше о DAMO-YOLO

Выбор правильной архитектуры

Хотя NAS-архитектура DAMO-YOLO отлично подходит для конкретных, заранее определенных аппаратных ограничений, NMS-free дизайн и удаление DFL в YOLO26 делают его гораздо более универсальным и предсказуемым выбором для широкого спектра различных периферийных и облачных сред.

Сравнение производительности и метрик

Прямое сравнение вариантов моделей, обученных на стандартном наборе данных COCO, выявляет различные профили производительности. В таблице ниже представлены компромиссы между точностью (mAP), скоростью и вычислительными затратами (параметрами и FLOPs).

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Анализ производительности

При анализе данных баланс производительности значительно смещается в сторону YOLO26 для современных приложений. Вариант Nano (YOLO26n) исключительно легок, имея всего 2,4 млн параметров, и обеспечивает невероятную скорость в 1,7 мс на GPU NVIDIA T4. Кроме того, YOLO26 специально разработан для обеспечения до 43% более быстрой инференции на CPU, что делает его бесспорным лидером для периферийных устройств, не имеющих выделенных GPU-ускорителей.

Хотя DAMO-YOLOt немного превосходит YOLO26n по чистому mAP, это достигается за счет почти четырехкратного увеличения количества параметров (8.5M). По мере перехода к более крупным вариантам, YOLO26 стабильно превосходит DAMO-YOLO по точности, сохраняя при этом меньший объем памяти, более низкое потребление памяти CUDA во время обучения и значительно более высокую скорость TensorRT.

Экосистема, удобство использования и эффективность обучения

Истинная сила модели машинного обучения заключается не только в ее сырых метриках, но и в том, насколько легко она может быть использована разработчиками и исследователями.

Преимущество Ultralytics

Выбор модели Ultralytics гарантирует доступ к высокоразвитой, ориентированной на разработчиков экосистеме. Сложные рабочие процессы, включающие аугментацию данных, настройку гиперпараметров и надежное отслеживание экспериментов, абстрагированы в интуитивно понятные команды.

Кроме того, YOLO26 предлагает непревзойденную универсальность. В то время как DAMO-YOLO является строго детектором объектов, YOLO26 предоставляет комплексные, специфичные для задач улучшения в нескольких областях из коробки:

Сегментация экземпляров: Использует специализированную функцию потерь для семантической сегментации и многомасштабное прототипирование.
Оценка позы: Используя преимущества усовершенствованной оценки остаточного логарифмического правдоподобия (RLE).
Ориентированный ограничивающий прямоугольник (obb): Включает специализированные функции потерь по углу для идеального решения сложных проблем с границами.
Классификация изображений: Для быстрой и легковесной глобальной разметки изображений.

Методологии обучения

Обучение DAMO-YOLO часто включает сложный процесс дистилляции, при котором большая модель-«учитель» обучает меньшую модель-«ученика». Хотя эта техника позволяет получить незначительный прирост точности, она требует значительного объема памяти GPU и более длительных циклов обучения.

Напротив, требования к памяти для YOLO26 значительно ниже. Благодаря оптимизатору MuSGD, YOLO26 быстро и эффективно обучается на стандартном потребительском оборудовании. Вот как легко вы можете обучить модель YOLO26, используя Ultralytics Python API на базе PyTorch:

from ultralytics import YOLO

# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the optimized, NMS-free model
model.export(format="onnx")

Изучение других моделей

Если вы заинтересованы в изучении других современных архитектур в экосистеме Ultralytics, высокопроизводительная YOLO11 остается отличным выбором для существующих конвейеров. В качестве альтернативы, исследователи, интересующиеся архитектурами на основе трансформеров, могут изучить модель RT-DETR.

Приложения в реальном мире

Выбор между этими архитектурами в конечном итоге зависит от вашей среды развертывания.

Edge AI и устройства IoT

Для камер умной розничной торговли, автоматизированных сельскохозяйственных мониторов или робототехники вычислительные ресурсы строго ограничены. В этом случае YOLO26 является окончательным выбором. Его на 43% более быстрый инференс на CPU, полностью NMS-свободный конвейер и минимальный объем параметров позволяют ему бесперебойно работать на периферийных устройствах, таких как Raspberry Pi, без ущерба для критической точности.

Высокоскоростное производство и контроль качества

На высокоскоростных линиях автоматизации производства обнаружение дефектов на быстродвижущихся конвейерных лентах требует минимальной, детерминированной задержки. Хотя DAMO-YOLO может адекватно работать на определенных конфигурациях GPU, колеблющаяся задержка, вносимая традиционной постобработкой NMS, может десинхронизировать роботизированные приводы. Сквозная природа YOLO26 гарантирует стабильное, предсказуемое время обработки кадров, обеспечивая безупречную интеграцию в высокоскоростную промышленную робототехнику.

Дрон и аэрофотосъемка

Обнаружение крошечных объектов с больших высот общеизвестно затруднительно. Интеграция ProgLoss и STAL в YOLO26 значительно улучшает распознавание мелких объектов. Будь то отслеживание дикой природы или анализ загруженности дорог с БПЛА, YOLO26 последовательно идентифицирует объекты с меньшей площадью в пикселях, которые часто пропускают старые архитектуры, включая DAMO-YOLO.

Сценарии использования и рекомендации

Выбор между YOLO26 и DAMO-YOLO зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLO26

YOLO26 является отличным выбором для:

Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Когда следует выбирать DAMO-YOLO

DAMO-YOLO рекомендуется для:

Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.

Заключение

Хотя DAMO-YOLO остается увлекательным исследованием возможностей нейронного архитектурного поиска для конкретных аппаратных целей, Ultralytics YOLO26 является превосходным, всесторонним решением для современного специалиста по ИИ. Благодаря своей сквозной NMS-free архитектуре, значительно более низким требованиям к памяти, гибридному оптимизатору MuSGD и безупречно поддерживаемой экосистеме, YOLO26 позволяет разработчикам создавать и развертывать передовые системы зрения быстрее и надежнее, чем когда-либо прежде.