DAMO-YOLO против YOLO26: Анализ архитектур обнаружения объектов нового поколения в реальном времени
Ландшафт компьютерного зрения постоянно развивается, движимый потребностью в архитектурах, которые балансируют высокую точность с низкой задержкой вывода. Это сравнение углубляется в технические тонкости DAMO-YOLO и Ultralytics YOLO26, исследуя их архитектурные инновации, методологии обучения и идеальные сценарии использования.
Независимо от того, развертываете ли вы модели зрения на граничных устройствах или создаете высокопроизводительные облачные конвейеры, понимание нюансов между этими моделями имеет решающее значение для принятия обоснованных архитектурных решений в современной разработке ИИ.
DAMO-YOLO: Масштабируемый поиск нейронных архитектур
DAMO-YOLO, разработанный Alibaba Group, был выпущен 23 ноября 2022 года. Модель, разработанная Сяньчжэ Сюй, Ици Цзяном, Вэйхуа Ченом, Илуном Хуаном, Юанем Чжаном и Сюю Сунь, в значительной степени ориентирована на автоматизированный поиск эффективных архитектур с использованием поиска нейронной архитектуры (NAS).
Вы можете ознакомиться с оригинальным исследованием в их статье на ArXiv или изучить исходный код в репозитории DAMO-YOLO на GitHub.
Ключевые архитектурные особенности
DAMO-YOLO представляет несколько технических инноваций, разработанных для расширения границ обнаружения объектов в реальном времени:
- Бэкбоны MAE-NAS: DAMO-YOLO использует многоцелевой эволюционный поиск для нахождения оптимальных бэкбонов. Этот подход NAS обнаруживает архитектуры, которые строго балансируют точность обнаружения с скоростью инференса на конкретном оборудовании.
- Эффективная RepGFPN: Конструкция с "тяжелой" шейкой, которая значительно улучшает слияние признаков, что очень полезно при анализе сложных сцен, таких как те, что встречаются на аэроснимках.
- ZeroHead Design: Значительно упрощенная детекционная голова, которая минимизирует вычислительную сложность финальных слоев предсказаний.
- AlignedOTA и дистилляция: DAMO-YOLO использует Aligned Optimal Transport Assignment (AlignedOTA) для разрешения неоднозначностей при назначении меток, в сочетании с надежной стратегией улучшения дистилляции знаний для повышения точности меньших моделей-учеников с использованием более крупных моделей-учителей.
Преимущество Ultralytics: YOLO26
Выпущенный 14 января 2026 года Гленном Джочером и Цзин Цю из Ultralytics, YOLO26 представляет собой вершину доступного и высокопроизводительного ИИ для компьютерного зрения. Основываясь на наследии YOLO11 и YOLOv10, YOLO26 разработан с нуля для развертывания на периферийных устройствах, мультимодальной универсальности и беспрецедентной простоты использования.
Инновации YOLO26
Ultralytics YOLO26 представляет несколько новаторских функций, которые делают его окончательным выбором для современных приложений компьютерного зрения:
- Сквозная архитектура без NMS: YOLO26 изначально исключает постобработку Non-Maximum Suppression (NMS). Впервые примененный в YOLOv10, этот сквозной подход значительно упрощает конвейеры развертывания и обеспечивает детерминированный инференс с низкой задержкой.
- До 43% более быстрый инференс на CPU: Архитектурно оптимизированный для граничных вычислений, YOLO26 обеспечивает исключительную скорость на граничных устройствах и стандартных CPU, что делает его идеальным для IoT-устройств с батарейным питанием.
- Оптимизатор MuSGD: Вдохновленный обучением LLM (например, Kimi K2 от Moonshot AI), YOLO26 включает гибрид SGD и Muon. Это привносит стабильность обучения больших языковых моделей в компьютерное зрение, что приводит к более быстрой и надежной сходимости.
- Удаление DFL: Удаление Distribution Focal Loss упрощает граф модели, обеспечивая беспрепятственный экспорт в такие форматы, как ONNX и TensorRT.
- ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критически важной особенностью для операций с дронами и сельского хозяйства.
Усовершенствования, специфичные для задачи
YOLO26 включает специализированные улучшения для нескольких модальностей: многомасштабный прототип для сегментации экземпляров, оценка остаточного логарифмического правдоподобия (RLE) для оценки позы и продвинутая угловая функция потерь для смягчения проблем с границами при детектировании ориентированных ограничивающих рамок (OBB).
Сравнение производительности
При оценке этих моделей первостепенное значение имеет баланс между точностью (mAP) и вычислительной эффективностью (скорость/FLOPs). В таблице ниже показано, как эти модели сравниваются с использованием стандартного для отрасли набора данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Как показано выше, YOLO26 последовательно обеспечивает более высокую точность при значительно меньшем количестве параметров и FLOPs, что приводит к гораздо более эффективной архитектуре как для обучения, так и для инференса.
Эффективность обучения и удобство использования
Сложности DAMO-YOLO
Хотя DAMO-YOLO достигает конкурентной точности, ее методология обучения очень сложна. Зависимость от Neural Architecture Search (NAS) и интенсивной дистилляции знаний означает, что обучение пользовательской модели часто требует значительных ресурсов GPU и специализированных знаний. Этот многоэтапный процесс — обучение массивной модели-учителя для дистилляции в меньшую модель-ученика — может стать узким местом для гибких инженерных команд, пытающихся быстро итерировать на пользовательских наборах данных.
Оптимизированный опыт Ultralytics
Напротив, Ultralytics YOLO26 разработан для удобства использования по принципу «от новичка до эксперта». Весь жизненный цикл обучения, валидации и развертывания абстрагирован за чистым, унифицированным Python API и CLI. Кроме того, YOLO26 требует значительно меньше памяти CUDA во время обучения по сравнению с моделями на основе трансформеров, такими как RT-DETR, что позволяет исследователям обучать современные модели на потребительском оборудовании.
Вот пример того, как просто обучать, оценивать и экспортировать модель YOLO26 с использованием Ultralytics SDK:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")
Для команд, предпочитающих no-code среду, платформа Ultralytics предоставляет интуитивно понятный интерфейс для аннотации наборов данных, облачного обучения и бесшовного развертывания.
Приложения в реальном мире
Выбор правильной архитектуры в значительной степени зависит от целевой среды развертывания и аппаратных ограничений.
Промышленный контроль качества
Для высокоскоростной автоматизации производства DAMO-YOLO может хорошо работать на специализированном оборудовании GPU. Однако YOLO26 является предпочтительным выбором для современных сборочных линий. Его сквозная NMS-free архитектура обеспечивает детерминированную задержку без дрожания, что крайне важно при синхронизации визуальных данных с роботизированными приводами в реальном времени.
Периферийный ИИ и мобильные устройства
Развертывание компьютерного зрения на устройствах с автономным питанием требует исключительной эффективности. В то время как DAMO-YOLO опирается на специфические RepGFPN-шейки, YOLO26n (Nano) специально оптимизирован для граничных вычислений. Удаление DFL и ускорение вывода на CPU на 43% делают его идеальным решением для умных камер, мобильных приложений и систем охранной сигнализации.
Мультимодальные требования к проекту
Если проект требует большего, чем просто обнаружение объектов — например, анализ механики игроков в спорте с использованием оценки позы или извлечение точных границ пикселей с помощью сегментации экземпляров — YOLO26 обеспечивает нативную поддержку всех этих задач в рамках единой кодовой базы. DAMO-YOLO строго ограничен обнаружением ограничивающих рамок.
Сценарии использования и рекомендации
Выбор между DAMO-YOLO и YOLO26 зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO — это отличный выбор для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда выбирать YOLO26
YOLO26 рекомендуется для:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Заключение
Обе архитектуры представляют собой значительные достижения в области глубокого обучения. DAMO-YOLO предлагает увлекательный взгляд на мощь Neural Architecture Search и методов дистилляции, адаптированных для конкретных аппаратных бенчмарков.
Однако для разработчиков, исследователей и предприятий, ищущих готовое к производству решение, Ultralytics YOLO26 выделяется как превосходный выбор. Его сочетание сквозного NMS-free дизайна, значительного прироста скорости инференса на CPU, мультимодальной универсальности и интеграции в хорошо поддерживаемую экосистему Ultralytics делает его самым надежным и практичным инструментом для решения реальных задач компьютерного зрения сегодня.
Для пользователей, заинтересованных в изучении других моделей в экосистеме Ultralytics, доступна исчерпывающая документация для YOLO11, YOLOv8 и трансформер-основанного RT-DETR.