Meet YOLO26: next-gen vision AI.

Link to this sectionСравнение DAMO-YOLO и YOLOX#

Сфера компьютерного зрения в реальном времени постоянно развивается. Двумя заметными вехами на этом пути стали DAMO-YOLO и YOLOX, каждая из которых привнесла уникальные инновации в решение задач высокоскоростного и высокоточного обнаружения объектов. Хотя обе модели внесли значительный вклад в сообщество разработчиков ПО с открытым исходным кодом, понимание их архитектурных различий, методологий обучения и идеальных сценариев развертывания имеет решающее значение для инженеров по машинному обучению.

Это подробное руководство исследует технические нюансы обеих моделей и объясняет, почему современные альтернативы, такие как платформа Ultralytics YOLO26, предлагают превосходную производительность и простоту использования для современных производственных сред.

Link to this sectionОбзор моделей#

Link to this sectionПодробности DAMO-YOLO#

Разработанная командой исследователей Alibaba Group, DAMO-YOLO была представлена как высокоэффективный метод обнаружения объектов, использующий автоматизированный поиск архитектуры. Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: Документация DAMO-YOLO

Узнай больше о DAMO-YOLO

Link to this sectionДетали YOLOX#

Созданная исследователями из Megvii, модель YOLOX была нацелена на сокращение разрыва между научными исследованиями и промышленным применением за счет перехода серии YOLO на архитектуру без использования анкоров, что значительно упростило структуру при одновременном достижении более высокой производительности на тот момент. Авторы: Чжэн Гэ, Сунтао Лю, Фэн Ван, Земин Ли и Цзянь Сунь
Организация: Megvii
Дата: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Документация: Документация YOLOX

Узнай больше о YOLOX

Link to this sectionАрхитектурный анализ#

Link to this sectionАрхитектура DAMO-YOLO#

DAMO-YOLO в значительной степени полагается на нейронный поиск архитектуры (NAS). К основным компонентам относятся:

  • Бэкбоны MAE-NAS: Использует многоцелевой эволюционный алгоритм поиска для нахождения бэкбонов, обеспечивающих оптимальный баланс между скоростью вывода и точностью.
  • Efficient RepGFPN: Конструкция с «тяжелой» шейкой (heavy-neck), адаптированная для слияния признаков, которая помогает модели поддерживать высокую точность при различных масштабах объектов.
  • ZeroHead: Упрощенная, облегченная детектирующая головка, которая снижает вычислительные затраты в слоях финального прогнозирования.

Link to this sectionАрхитектура YOLOX#

YOLOX использовала другой подход, фокусируясь на структурной простоте и архитектуре без использования анкоров:

  • Механизм без анкоров (Anchor-Free): Предсказывая координаты ограничивающей рамки напрямую без предопределенных анкоров, YOLOX уменьшает количество параметров проектирования и необходимость в эвристической настройке.
  • Разделенная головка (Decoupled Head): Она разделяет задачи классификации и регрессии на разные ветви признаков, что улучшает скорость сходимости и общую точность.
  • Назначение меток SimOTA: Передовая стратегия назначения меток, которая динамически распределяет положительные образцы по истинным значениям (ground truths), повышая эффективность обучения.
Философия проектирования

В то время как DAMO-YOLO использует машинный поиск NAS для нахождения оптимальных архитектур в жестких ограничениях, YOLOX использует элегантные упрощения, разработанные людьми (такие как головки без анкоров), для оптимизации конвейера обнаружения объектов.

Link to this sectionСравнение производительности#

Для оценки этих моделей необходимо смотреть на среднюю точность (mAP), скорость вывода и количество параметров. Ниже приведена подробная сравнительная таблица стандартных и облегченных вариантов обеих архитектур.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Хотя YOLOXx достигает максимального абсолютного mAP в 51.1, DAMO-YOLOl обеспечивает очень конкурентоспособный mAP 50.8 при вдвое меньшем количестве параметров (42.1 млн против 99.1 млн) и значительно более быстром выполнении в TensorRT.

Link to this sectionМетодологии обучения#

Link to this sectionОбучение DAMO-YOLO#

DAMO-YOLO использует сложное улучшение дистилляции во время обучения. Часто сначала обучается большая модель-«учитель», знания которой затем передаются в меньшие модели-«ученики». Также применяется AlignedOTA для динамического назначения меток. Несмотря на высокую эффективность, этот многоэтапный процесс обучения значительно увеличивает время вычислений на GPU и объем используемой памяти.

Link to this sectionОбучение YOLOX#

YOLOX опирается на мощные стратегии аугментации данных, такие как MixUp и Mosaic. Однако авторы обнаружили, что отключение этих сильных аугментаций на последних 15 эпохах позволяет модели сократить разрыв с реальностью, значительно повышая финальные показатели точности.

Link to this sectionИдеальные варианты использования#

  • DAMO-YOLO: Лучше всего подходит для ответственных промышленных развертываний, где могут быть поддержаны серверные конвейеры дистилляции и где целевое оборудование (например, определенные GPU NVIDIA) получает прямую выгоду от архитектуры NAS с «тяжелой» шейкой.
  • YOLOX: Отлично подходит для разработчиков, ищущих чистый подход без анкоров. Чрезвычайно легкая модель YOLOXnano делает ее пригодной для устаревших устройств на Android, периферийных вычислений и очень ограниченных IoT-сенсоров, где количество параметров является абсолютным узким местом.

Link to this sectionПреимущество Ultralytics: знакомься с YOLO26#

Хотя DAMO-YOLO и YOLOX представляют собой отличные вехи, сегодня разработчикам требуются более комплексные, универсальные и простые в использовании решения. Именно здесь блистают платформа Ultralytics и недавно выпущенная Ultralytics YOLO26.

Выпущенная в январе 2026 года, YOLO26 является оптимальной рекомендованной моделью для всех задач компьютерного зрения. Она представляет ряд прорывов, которые превосходят более старые архитектуры:

  • Сквозной дизайн без NMS: YOLO26 нативно исключает постобработку методом немаксимального подавления (NMS). Это позволяет значительно упростить и ускорить развертывание, избегая задержек, присущих традиционным детектирующим головкам.
  • До 43% более быстрый вывод на CPU: Благодаря стратегическому удалению Distribution Focal Loss (DFL) и оптимизации слоев, YOLO26 обеспечивает непревзойденную скорость на CPU и периферийном оборудовании.
  • Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (LLM), YOLO26 представляет оптимизатор MuSGD (гибрид SGD и Muon), что приводит к высокостабильным запускам обучения и гораздо более быстрой сходимости по сравнению с устаревшими настройками в YOLOX.
  • ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов, делая YOLO26 значительно более эффективной для работы с кадрами с дронов и в робототехнике.
  • Универсальность: В отличие от DAMO-YOLO, которая предназначена исключительно для обнаружения объектов, YOLO26 плавно справляется с сегментацией экземпляров, оценкой позы, классификацией и ориентированными ограничивающими рамками (OBB) внутри той же хорошо поддерживаемой экосистемы.

Узнай больше о YOLO26

Link to this sectionПростота использования с Ultralytics#

Python API от Ultralytics упрощает работу разработчика. Обучение современной модели YOLO26 требует гораздо меньше шаблонного кода и позволяет избежать сложных конвейеров дистилляции, как в DAMO-YOLO. Кроме того, модели Ultralytics отличаются исключительно низкими требованиями к памяти CUDA во время обучения по сравнению с тяжелыми моделями на базе Transformer.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Облачное обучение и развертывание

Ты можешь автоматически аннотировать, обучать и развертывать модели на периферийных устройствах с помощью платформы Ultralytics, которая берет на себя все управление версиями данных и выделение облачных ресурсов GPU.

Link to this sectionЗаключение#

Выбор между DAMO-YOLO и YOLOX зависит от конкретных ограничений: DAMO-YOLO предлагает исключительное соотношение скорости к точности на определенных GPU через NAS, в то время как YOLOX предоставляет чистый дизайн без анкоров, идеально подходящий для легких сценариев на периферии.

Однако для команд, ищущих современное, перспективное решение с активным сообществом, архитектура Ultralytics YOLO26 является окончательным выбором. Ее дизайн без NMS, быстрый вывод на CPU и единый API для задач обнаружения, сегментации и оценки позы делают ее непревзойденной для плавного перехода от исследований к надежному производству в реальном мире.

Разработчикам, желающим изучить другие современные архитектуры, мы также рекомендуем ознакомиться с Ultralytics YOLO11 или моделями на базе Transformer, такими как RT-DETR, доступными в комплексной документации Ultralytics.

Участники

Комментарии