Link to this sectionDAMO-YOLO против YOLO26#
Ландшафт компьютерного зрения постоянно развивается, движимый потребностью в архитектурах, которые сочетают в себе высокую точность с низкой задержкой вывода. В этом сравнении мы углубимся в технические тонкости DAMO-YOLO и Ultralytics YOLO26, исследуя их архитектурные инновации, методологии обучения и идеальные варианты использования.
Независимо от того, разворачиваешь ли ты модели зрения на граничных устройствах или создаешь облачные конвейеры с высокой пропускной способностью, понимание нюансов между этими моделями имеет решающее значение для принятия обоснованных архитектурных решений в современной разработке ИИ.
Link to this sectionDAMO-YOLO: нейронный архитектурный поиск в масштабе#
DAMO-YOLO, разработанная Alibaba Group, была выпущена 23 ноября 2022 года. Созданная Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь, модель в значительной степени фокусируется на автоматизированном поиске эффективных архитектур с использованием Neural Architecture Search (NAS).
Ты можешь ознакомиться с оригинальным исследованием в их статье на ArXiv или изучить исходный код в репозитории DAMO-YOLO на GitHub.
Link to this sectionКлючевые архитектурные особенности#
DAMO-YOLO представляет несколько технических инноваций, разработанных для расширения границ обнаружения объектов в реальном времени:
- Backbones MAE-NAS: DAMO-YOLO использует многоцелевой эволюционный поиск для нахождения оптимальных бэкбонов. Этот подход NAS обнаруживает архитектуры, которые строго балансируют точность обнаружения и скорость вывода на конкретном оборудовании.
- Эффективный RepGFPN: дизайн с тяжелым неком, который значительно улучшает слияние признаков, что крайне полезно при анализе сложных сцен, подобных тем, что встречаются в аэрофотосъемке.
- Дизайн ZeroHead: сильно упрощенная головка обнаружения, которая минимизирует вычислительную сложность финальных уровней предсказания.
- AlignedOTA и дистилляция: DAMO-YOLO использует Aligned Optimal Transport Assignment (AlignedOTA) для разрешения неоднозначностей при назначении меток в сочетании со стратегией улучшения на основе надежной дистилляции знаний для повышения точности небольших моделей-учеников с использованием более крупных сетей-учителей.
Link to this sectionПреимущество Ultralytics: YOLO26#
Выпущенная 14 января 2026 года Гленном Джочером и Цзин Цю из Ultralytics, YOLO26 представляет собой вершину доступного и высокопроизводительного ИИ в области зрения. Опираясь на наследие YOLO11 и YOLOv10, YOLO26 с самого начала была разработана для граничных развертываний, мультимодальной универсальности и непревзойденной простоты использования.
Link to this sectionИнновации YOLO26#
Ultralytics YOLO26 представляет несколько прорывных функций, которые делают ее окончательным выбором для современных приложений компьютерного зрения:
- Сквозной дизайн без NMS: YOLO26 нативно исключает постобработку Non-Maximum Suppression (NMS). Впервые примененный в YOLOv10, этот сквозной подход радикально упрощает конвейеры развертывания и обеспечивает детерминированный вывод с низкой задержкой.
- До 43% быстрее вывод на CPU: архитектурно оптимизированная для граничных вычислений, YOLO26 обеспечивает исключительную скорость на граничных устройствах и стандартных CPUs, что делает ее идеальной для IoT-устройств с питанием от батареи.
- Оптимизатор MuSGD: вдохновленный обучением LLM (как Kimi K2 от Moonshot AI), YOLO26 включает гибрид SGD и Muon. Это привносит стабильность обучения больших языковых моделей в компьютерное зрение, что приводит к более быстрой и надежной сходимости.
- Удаление DFL: благодаря удалению Distribution Focal Loss граф модели упрощается, что позволяет легко экспортировать ее в форматы, такие как ONNX и TensorRT.
- ProgLoss + STAL: эти продвинутые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критически важной функцией для операций с дронами и сельского хозяйства.
YOLO26 включает специализированные улучшения для нескольких модальностей: мультимасштабный прото для сегментации экземпляров, оценка остаточного логарифмического правдоподобия (RLE) для оценки позы и расширенная функция потерь по углу для смягчения проблем с границами при ориентированном обнаружении ограничивающих рамок (OBB).
Link to this sectionСравнение производительности#
При оценке этих моделей баланс между точностью (mAP) и вычислительной эффективностью (Speed/FLOPs) имеет первостепенное значение. Таблица ниже показывает, как эти модели соотносятся друг с другом при использовании отраслевого стандарта — набора данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Как видно выше, YOLO26 стабильно обеспечивает более высокую точность при значительно меньшем количестве параметров и FLOPs, что приводит к гораздо более эффективной архитектуре как для обучения, так и для вывода.
Link to this sectionЭффективность обучения и удобство использования#
Link to this sectionСложности DAMO-YOLO#
Хотя DAMO-YOLO достигает конкурентоспособной точности, ее методология обучения очень сложна. Опора на Neural Architecture Search (NAS) и тяжелую дистилляцию знаний означает, что обучение пользовательской модели часто требует значительных ресурсов GPU и специализированных знаний. Этот многоэтапный процесс — обучение массивной модели-учителя для дистилляции в меньшую модель-ученика — может стать «бутылочным горлышком» для гибких инженерных команд, пытающихся быстро итерировать на пользовательских наборах данных.
Link to this sectionОптимизированный опыт Ultralytics#
Напротив, Ultralytics YOLO26 разработана для удобства использования по принципу «с нуля до героя». Весь жизненный цикл обучения, проверки и развертывания абстрагирован за чистым, унифицированным Python API и CLI. Кроме того, YOLO26 требует значительно меньше памяти CUDA во время обучения по сравнению с моделями на основе Transformer, такими как RT-DETR, что позволяет исследователям обучать современные модели на потребительском оборудовании.
Вот пример того, как просто обучать, оценивать и экспортировать модель YOLO26 с помощью SDK Ultralytics:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")Для команд, которые предпочитают среду без кода, платформа Ultralytics предоставляет интуитивно понятный интерфейс для аннотирования наборов данных, облачного обучения и бесшовного развертывания.
Link to this sectionПрименение в реальных условиях#
Выбор правильной архитектуры во многом зависит от целевой среды развертывания и ограничений оборудования.
Link to this sectionПромышленный контроль качества#
Для высокоскоростной автоматизации производства DAMO-YOLO может хорошо работать на выделенном аппаратном обеспечении GPU. Однако YOLO26 является предпочтительным выбором для современных сборочных линий. Ее сквозной дизайн без NMS обеспечивает детерминированную задержку без джиттера, что важно при синхронизации визуальных данных с роботизированными приводами в реальном времени.
Link to this sectionГраничный ИИ и мобильные устройства#
Развертывание компьютерного зрения на устройствах с питанием от батареи требует экстремальной эффективности. В то время как DAMO-YOLO опирается на специфические неки RepGFPN, YOLO26n (Nano) специально оптимизирована для граничных вычислений. Ее удаление DFL и ускоренный на 43% вывод на CPU делают ее идеальным решением для умных камер, мобильных приложений и систем охранной сигнализации.
Link to this sectionМультимодальные требования к проекту#
Если проекту требуется нечто большее, чем просто обнаружение объектов, например, анализ механики игрока в спорте с использованием оценки позы или извлечение точных границ пикселей с использованием сегментации экземпляров, YOLO26 обеспечивает нативную поддержку всех этих задач в рамках единой кодовой базы. DAMO-YOLO строго ограничена обнаружением с помощью ограничивающих рамок.
Link to this sectionСценарии использования и рекомендации#
Выбор между DAMO-YOLO и YOLO26 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать DAMO-YOLO#
DAMO-YOLO — сильный выбор для:
- Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
- Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
- Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.
Link to this sectionКогда стоит выбрать YOLO26#
YOLO26 рекомендуется для:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionЗаключение#
Обе архитектуры представляют собой значительные достижения в области глубокого обучения. DAMO-YOLO предлагает захватывающий взгляд на мощь Neural Architecture Search и методов дистилляции, адаптированных для конкретных аппаратных бенчмарков.
Однако для разработчиков, исследователей и предприятий, ищущих готовое к производству решение, Ultralytics YOLO26 выделяется как лучший выбор. Сочетание сквозного дизайна без NMS, массивного прироста скорости вывода на CPU, мультимодальной универсальности и интеграции в хорошо поддерживаемую экосистему Ultralytics делает ее самым надежным и практичным инструментом для решения современных задач компьютерного зрения.
Для пользователей, заинтересованных в изучении других моделей в экосистеме Ultralytics, доступна полная документация по YOLO11, YOLOv8 и основанной на Transformer модели RT-DETR.