Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO против YOLOX: всестороннее техническое сравнение#

Ландшафт компьютерного зрения реального времени постоянно меняется. Двумя заметными вехами на этом пути стали DAMO-YOLO и YOLOX, каждая из которых привнесла уникальные инновации в решение задач высокоскоростного и высокоточного обнаружения объектов. Хотя обе модели внесли значительный вклад в сообщество разработчиков открытого ПО, понимание их архитектурных различий, методологий обучения и идеальных сценариев развертывания критически важно для инженеров машинного обучения.

Это полное руководство исследует технические нюансы обеих моделей и объясняет, почему современные альтернативы, такие как платформа Ultralytics YOLO26, обеспечивают превосходную производительность и простоту использования в современных производственных средах.

Link to this sectionОбзор моделей#

Link to this sectionПодробности DAMO-YOLO#

Разработанная командой исследователей из Alibaba Group, модель DAMO-YOLO была представлена как высокоэффективный метод обнаружения объектов, использующий автоматизированный поиск архитектуры. Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 23.11.2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: Документация DAMO-YOLO

Узнай больше о DAMO-YOLO

Link to this sectionПодробности о YOLOX#

Созданная исследователями из Megvii, модель YOLOX была нацелена на сокращение разрыва между научными исследованиями и промышленным применением путем перевода серии YOLO на архитектуру без использования анкоров (anchor-free), что значительно упростило структуру при одновременном достижении более высокой производительности на тот момент. Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Документация: Документация YOLOX

Узнай больше о YOLOX

Link to this sectionАрхитектурный анализ#

Link to this sectionАрхитектура DAMO-YOLO#

DAMO-YOLO в значительной степени полагается на поиск нейронных архитектур (NAS). Основные компоненты включают:

  • Бэкенды MAE-NAS: Используют многоцелевой эволюционный алгоритм поиска для нахождения бэкендов, которые обеспечивают оптимальный баланс между скоростью вывода и точностью.
  • Эффективная RepGFPN: Конструкция с «тяжелой» шейной частью, адаптированная для слияния признаков, что помогает модели поддерживать высокую точность при различных масштабах объектов.
  • ZeroHead: Упрощенная, легковесная головка обнаружения, которая снижает вычислительные затраты в финальных слоях предсказания.

Link to this sectionАрхитектура YOLOX#

YOLOX применил другой подход, сфокусировавшись на структурной простоте и архитектуре без использования анкоров:

  • Механизм без анкоров (Anchor-Free): Предсказывая координаты ограничивающей рамки напрямую без предопределенных анкоров, YOLOX сокращает количество параметров проектирования и необходимость в эвристической настройке.
  • Разделенная головка (Decoupled Head): Она разделяет задачи классификации и регрессии на разные ветви признаков, что улучшает скорость сходимости и общую точность.
  • Назначение меток SimOTA: Продвинутая стратегия назначения меток, которая динамически распределяет положительные образцы по истинным меткам (ground truths), повышая эффективность обучения.
Философия дизайна

В то время как DAMO-YOLO использует машинный поиск NAS для нахождения оптимальных архитектур в жестких ограничениях, YOLOX опирается на элегантные, спроектированные человеком упрощения (такие как головки без анкоров) для оптимизации конвейера обнаружения объектов.

Link to this sectionСравнение производительности#

Оценка этих моделей требует рассмотрения среднего значения точности (mAP), скорости вывода и количества параметров. Ниже представлена подробная сравнительная таблица стандартных и облегченных вариантов для обеих архитектур.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Хотя YOLOXx достигает наивысшего абсолютного mAP в 51.1, DAMO-YOLOl демонстрирует очень конкурентоспособный mAP 50.8 с количеством параметров менее половины от исходного (42.1 млн против 99.1 млн) и значительно более быстрым выполнением в TensorRT.

Link to this sectionМетодологии обучения#

Link to this sectionОбучение DAMO-YOLO#

DAMO-YOLO использует сложное улучшение через дистилляцию во время обучения. Часто сначала обучается большая «учительская» модель, а ее знания дистиллируются в меньшие «ученические» модели. Она также применяет AlignedOTA для динамического назначения меток. Несмотря на высокую эффективность, этот многоэтапный процесс обучения резко увеличивает требуемое время работы GPU и нагрузку на память.

Link to this sectionОбучение YOLOX#

YOLOX опирается на мощные стратегии аугментации данных, такие как MixUp и Mosaic. Однако авторы обнаружили, что отключение этих сильных аугментаций на финальных 15 эпохах позволяет модели сократить разрыв с реальностью, значительно повышая итоговые метрики точности.

Link to this sectionИдеальные сценарии использования#

  • DAMO-YOLO: Лучше всего подходит для ответственных промышленных развертываний, где можно обеспечить серверные конвейеры дистилляции, и где целевое оборудование (например, определенные GPU NVIDIA) напрямую выигрывает от ее NAS-архитектуры с «тяжелой» шейной частью.
  • YOLOX: Отлично подходит для разработчиков, ищущих чистый подход без анкоров. Чрезвычайно легкая версия YOLOXnano делает ее пригодной для устаревших устройств Android, граничных вычислений и крайне ограниченных датчиков IoT, где количество параметров является абсолютным узким местом.

Link to this sectionПреимущество Ultralytics: знакомство с YOLO26#

Хотя DAMO-YOLO и YOLOX представляют собой отличные вехи, современные разработчики требуют более комплексных, универсальных и простых в использовании решений. Именно здесь проявляют себя платформа Ultralytics и недавно выпущенная Ultralytics YOLO26.

Выпущенная в январе 2026 года, YOLO26 является основной рекомендуемой моделью для всех задач компьютерного зрения. Она представляет ряд прорывов, превосходящих старые архитектуры:

  • Комплексная архитектура без NMS: YOLO26 нативно исключает постобработку методом подавления немаксимумов (NMS). Это позволяет значительно упростить и ускорить развертывание, избегая узких мест в задержке, присущих традиционным головкам обнаружения.
  • До 43% более быстрый вывод на CPU: Стратегически удалив Distribution Focal Loss (DFL) и оптимизировав слои, YOLO26 обеспечивает непревзойденную скорость на CPU и граничном оборудовании.
  • Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (LLM), YOLO26 представляет оптимизатор MuSGD (гибрид SGD и Muon), что приводит к высокостабильному обучению и гораздо более быстрой сходимости по сравнению с устаревшими настройками в YOLOX.
  • ProgLoss + STAL: Эти передовые функции потерь дают заметные улучшения в распознавании мелких объектов, делая YOLO26 значительно более эффективной для работы с дронами и в робототехнике.
  • Универсальность: В отличие от DAMO-YOLO, которая предназначена строго для обнаружения объектов, YOLO26 без проблем справляется с сегментацией экземпляров, оценкой позы, классификацией и ориентированными ограничивающими рамками (OBB) в рамках одной и той же поддерживаемой экосистемы.

Узнай больше о YOLO26

Link to this sectionПростота использования с Ultralytics#

Python API от Ultralytics упрощает работу разработчика. Обучение современной модели YOLO26 требует гораздо меньше шаблонного кода и позволяет избежать сложных конвейеров дистилляции, как в DAMO-YOLO. Кроме того, модели Ultralytics отличаются исключительно низкими требованиями к памяти CUDA во время обучения по сравнению с тяжелыми моделями на базе Transformer.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Облачное обучение и развертывание

Ты можешь автоматически аннотировать, обучать и развертывать модели на периферийные устройства, используя платформу Ultralytics, которая берет на себя все управление версиями данных и выделение облачных ресурсов GPU.

Link to this sectionЗаключение#

Выбор между DAMO-YOLO и YOLOX зависит от конкретных ограничений: DAMO-YOLO предлагает исключительное соотношение скорости к точности на определенных GPU через NAS, в то время как YOLOX предоставляет чистый дизайн без анкоров, идеальный для легких граничных сценариев.

Однако для команд, ищущих современное, перспективное решение с активным сообществом, архитектура Ultralytics YOLO26 является окончательным выбором. Ее дизайн без NMS, быстрый вывод на CPU и единый API для задач обнаружения, сегментации и оценки позы делают ее непревзойденной для плавного перехода от исследований к надежному промышленному использованию.

Разработчикам, интересующимся другими современными архитектурами, мы также рекомендуем ознакомиться с Ultralytics YOLO11 или моделями на базе Transformer, такими как RT-DETR, доступными в полной документации Ultralytics.

Контрибьюторы

Комментарии