YOLO26 против DAMO-YOLO: Техническое сравнение детекторов объектов реального времени
При выборе современной модели компьютерного зрения крайне важно найти оптимальный баланс между скоростью инференса, точностью и простотой развертывания. В этом всеобъемлющем руководстве сравниваются две выдающиеся модели в области ИИ-зрения: Ultralytics YOLO26 и DAMO-YOLO. Хотя обе архитектуры расширяют границы обнаружения объектов в реальном времени, их основные принципы проектирования и предполагаемые сценарии использования значительно различаются.
Архитектурные инновации и проектирование
Ultralytics YOLO26: Стандарт компьютерного зрения, ориентированный на периферийные вычисления
Разработанный Гленном Йохером и Цзин Цю в Ultralytics и выпущенный 14 января 2026 года, YOLO26 представляет собой огромный шаг вперед в линейке YOLO. Он разработан с нуля для граничных вычислений, плавно сочетая передовые методы обучения LLM с продвинутыми архитектурами зрения.
Ключевые архитектурные прорывы YOLO26 включают:
- Сквозная архитектура без NMS: Основываясь на новаторской работе, проделанной в YOLOv10, YOLO26 изначально является сквозной (end-to-end) системой. Полностью исключая подавление немаксимумов (NMS) на этапе постобработки, она гарантирует детерминированную задержку и значительно упрощает конвейеры развертывания.
- Удаление DFL: Удаление Distribution Focal Loss оптимизирует граф модели. Это значительно упрощает экспорт в фреймворки развертывания, такие как ONNX и TensorRT, и обеспечивает лучшую совместимость с маломощными периферийными устройствами.
- Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибрид стохастического градиентного спуска (SGD) и Muon привносит инновации в обучение LLM в компьютерное зрение, что приводит к исключительно стабильному обучению и быстрой сходимости.
- ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критической необходимостью для анализа аэрофотоснимков с помощью дронов и сложных робототехнических конвейеров.
DAMO-YOLO: Масштабируемый поиск нейронных архитектур
Разработанный Сяньчжэ Сюй, Ици Цзяном, Вэйхуа Ченом, Илунем Хуаном, Юань Чжаном и Сюйю Сунь из Alibaba Group (выпущен 23 ноября 2022 года), DAMO-YOLO уделяет особое внимание автоматизированному поиску архитектур. Исследование, подробно описанное в их статье на arXiv, использует нейронный поиск архитектуры (NAS) для нахождения оптимальных базовых архитектур в условиях строгих ограничений по задержке.
Ключевые архитектурные особенности DAMO-YOLO включают:
- Бэкбон MAE-NAS: Использует многоцелевой эволюционный поиск для автоматического проектирования бэкбонов, которые балансируют точность с целевой скоростью развертывания.
- Эффективная RepGFPN: Надежная конструкция с мощной шейкой (heavy-neck), которая оптимизирует слияние признаков на разных масштабах, делая ее высокоэффективной при обработке сложных визуальных сцен.
- ZeroHead: Кардинально упрощенная голова детектора, разработанная для минимизации вычислительных затрат в финальных слоях предсказания.
Выбор правильной архитектуры
Хотя NAS-архитектура DAMO-YOLO отлично подходит для конкретных, заранее определенных аппаратных ограничений, NMS-free дизайн и удаление DFL в YOLO26 делают его гораздо более универсальным и предсказуемым выбором для широкого спектра различных периферийных и облачных сред.
Сравнение производительности и метрик
Прямое сравнение вариантов моделей, обученных на стандартном наборе данных COCO, выявляет различные профили производительности. В таблице ниже представлены компромиссы между точностью (mAP), скоростью и вычислительными затратами (параметрами и FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Анализ производительности
При анализе данных баланс производительности значительно смещается в сторону YOLO26 для современных приложений. Вариант Nano (YOLO26n) исключительно легок, имея всего 2,4 млн параметров, и обеспечивает невероятную скорость в 1,7 мс на GPU NVIDIA T4. Кроме того, YOLO26 специально разработан для обеспечения до 43% более быстрой инференции на CPU, что делает его бесспорным лидером для периферийных устройств, не имеющих выделенных GPU-ускорителей.
Хотя DAMO-YOLOt немного превосходит YOLO26n по чистому mAP, это достигается за счет почти четырехкратного увеличения количества параметров (8.5M). По мере перехода к более крупным вариантам, YOLO26 стабильно превосходит DAMO-YOLO по точности, сохраняя при этом меньший объем памяти, более низкое потребление памяти CUDA во время обучения и значительно более высокую скорость TensorRT.
Экосистема, удобство использования и эффективность обучения
Истинная сила модели машинного обучения заключается не только в ее сырых метриках, но и в том, насколько легко она может быть использована разработчиками и исследователями.
Преимущество Ultralytics
Выбор модели Ultralytics гарантирует доступ к высокоразвитой, ориентированной на разработчиков экосистеме. Сложные рабочие процессы, включающие аугментацию данных, настройку гиперпараметров и надежное отслеживание экспериментов, абстрагированы в интуитивно понятные команды.
Кроме того, YOLO26 предлагает непревзойденную универсальность. В то время как DAMO-YOLO является строго детектором объектов, YOLO26 предоставляет комплексные, специфичные для задач улучшения в нескольких областях из коробки:
- Сегментация экземпляров: Использует специализированную функцию потерь для семантической сегментации и многомасштабное прототипирование.
- Оценка позы: Используя преимущества усовершенствованной оценки остаточного логарифмического правдоподобия (RLE).
- Ориентированный ограничивающий прямоугольник (obb): Включает специализированные функции потерь по углу для идеального решения сложных проблем с границами.
- Классификация изображений: Для быстрой и легковесной глобальной разметки изображений.
Методологии обучения
Обучение DAMO-YOLO часто включает сложный процесс дистилляции, при котором большая модель-«учитель» обучает меньшую модель-«ученика». Хотя эта техника позволяет получить незначительный прирост точности, она требует значительного объема памяти GPU и более длительных циклов обучения.
Напротив, требования к памяти для YOLO26 значительно ниже. Благодаря оптимизатору MuSGD, YOLO26 быстро и эффективно обучается на стандартном потребительском оборудовании. Вот как легко вы можете обучить модель YOLO26, используя Ultralytics Python API на базе PyTorch:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the optimized, NMS-free model
model.export(format="onnx")
Изучение других моделей
Если вы заинтересованы в изучении других современных архитектур в экосистеме Ultralytics, высокопроизводительная YOLO11 остается отличным выбором для существующих конвейеров. В качестве альтернативы, исследователи, интересующиеся архитектурами на основе трансформеров, могут изучить модель RT-DETR.
Приложения в реальном мире
Выбор между этими архитектурами в конечном итоге зависит от вашей среды развертывания.
Edge AI и устройства IoT
Для камер умной розничной торговли, автоматизированных сельскохозяйственных мониторов или робототехники вычислительные ресурсы строго ограничены. В этом случае YOLO26 является окончательным выбором. Его на 43% более быстрый инференс на CPU, полностью NMS-свободный конвейер и минимальный объем параметров позволяют ему бесперебойно работать на периферийных устройствах, таких как Raspberry Pi, без ущерба для критической точности.
Высокоскоростное производство и контроль качества
На высокоскоростных линиях автоматизации производства обнаружение дефектов на быстродвижущихся конвейерных лентах требует минимальной, детерминированной задержки. Хотя DAMO-YOLO может адекватно работать на определенных конфигурациях GPU, колеблющаяся задержка, вносимая традиционной постобработкой NMS, может десинхронизировать роботизированные приводы. Сквозная природа YOLO26 гарантирует стабильное, предсказуемое время обработки кадров, обеспечивая безупречную интеграцию в высокоскоростную промышленную робототехнику.
Дрон и аэрофотосъемка
Обнаружение крошечных объектов с больших высот общеизвестно затруднительно. Интеграция ProgLoss и STAL в YOLO26 значительно улучшает распознавание мелких объектов. Будь то отслеживание дикой природы или анализ загруженности дорог с БПЛА, YOLO26 последовательно идентифицирует объекты с меньшей площадью в пикселях, которые часто пропускают старые архитектуры, включая DAMO-YOLO.
Сценарии использования и рекомендации
Выбор между YOLO26 и DAMO-YOLO зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбирать YOLO26
YOLO26 является отличным выбором для:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO рекомендуется для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Заключение
Хотя DAMO-YOLO остается увлекательным исследованием возможностей нейронного архитектурного поиска для конкретных аппаратных целей, Ultralytics YOLO26 является превосходным, всесторонним решением для современного специалиста по ИИ. Благодаря своей сквозной NMS-free архитектуре, значительно более низким требованиям к памяти, гибридному оптимизатору MuSGD и безупречно поддерживаемой экосистеме, YOLO26 позволяет разработчикам создавать и развертывать передовые системы зрения быстрее и надежнее, чем когда-либо прежде.