Перейти к содержанию

DAMO-YOLO против YOLOX: Всестороннее техническое сравнение

Ландшафт компьютерного зрения в реальном времени постоянно развивается. Двумя заметными вехами на этом пути являются DAMO-YOLO и YOLOX, каждая из которых привнесла уникальные инновации в проблему высокоскоростного и высокоточного обнаружения объектов. Хотя обе модели внесли значительный вклад в сообщество открытого исходного кода, понимание их архитектурных различий, методологий обучения и идеальных сценариев развертывания имеет решающее значение для инженеров машинного обучения.

Это всеобъемлющее руководство исследует технические нюансы обеих моделей и подчеркивает, почему современные альтернативы, такие как платформа Ultralytics YOLO26, предлагают превосходную производительность и простоту использования для современных производственных сред.

Обзоры моделей

Подробности о DAMO-YOLO

Разработанный командой исследователей из Alibaba Group, DAMO-YOLO был представлен как высокоэффективный метод обнаружения объектов, использующий автоматизированное обнаружение архитектуры. Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: DAMO-YOLO Documentation

Узнайте больше о DAMO-YOLO

Подробности о YOLOX

Разработанный исследователями из Megvii, YOLOX был направлен на преодоление разрыва между исследовательским и промышленным сообществами путем перехода серии YOLO на безанкерную архитектуру, значительно упрощая архитектуру и одновременно достигая лучшей производительности на тот момент. Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Документация: Документация YOLOX

Узнайте больше о YOLOX

Архитектурный анализ

Архитектура DAMO-YOLO

DAMO-YOLO активно опирается на Neural Architecture Search (NAS). Основные компоненты включают:

  • Бэкбоны MAE-NAS: Использует многоцелевой эволюционный алгоритм поиска для обнаружения бэкбонов, которые обеспечивают оптимальный баланс между скоростью инференса и точностью.
  • Эффективная RepGFPN: Конструкция с "тяжелой" шейкой, адаптированная для слияния признаков, которая помогает модели поддерживать высокую точность при различных масштабах объектов.
  • ZeroHead: Упрощенная, легковесная голова детектора, которая снижает вычислительные затраты в финальных слоях предсказания.

Архитектура YOLOX

YOLOX применил другой подход, сосредоточившись на структурной простоте и безакорной архитектуре:

  • Безанкерный механизм: Предсказывая координаты ограничивающих рамок напрямую без предопределенных якорей, YOLOX сокращает количество проектных параметров и требуемой эвристической настройки.
  • Разделенная голова: Она разделяет задачи классификации и регрессии на разные ветви признаков, что улучшает скорость сходимости и общую точность.
  • Присвоение меток SimOTA: Продвинутая стратегия присвоения меток, которая динамически распределяет положительные выборки по эталонным данным, повышая эффективность обучения.

Философии проектирования

Хотя DAMO-YOLO использует машинный NAS-поиск для нахождения оптимальных архитектур в условиях жестких ограничений, YOLOX использует элегантные, разработанные человеком упрощения (например, anchor-free головы) для оптимизации конвейера detect объектов.

Сравнение производительности

Оценка этих моделей требует рассмотрения средней точности (mAP), скорости инференса и количества параметров. Ниже приведена подробная сравнительная таблица стандартных и облегченных вариантов для обеих архитектур.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Хотя YOLOXx достигает наивысшего абсолютного mAP в 51.1, DAMO-YOLOl обеспечивает очень конкурентоспособный 50.8 mAP с менее чем половиной параметров (42.1M против 99.1M) и значительно более быстрым выполнением TensorRT.

Методологии обучения

Обучение DAMO-YOLO

DAMO-YOLO использует сложное улучшение дистилляции во время обучения. Часто сначала обучается большая модель-«учитель», а ее знания дистиллируются в меньшие модели-«ученики». Он также использует AlignedOTA для динамического назначения меток. Хотя этот многостадийный процесс обучения очень эффективен, он значительно увеличивает время вычислений на GPU и требуемые накладные расходы на память.

Обучение YOLOX

YOLOX полагается на сильные стратегии аугментации данных, такие как MixUp и Mosaic. Однако авторы обнаружили, что отключение этих сильных аугментаций на последние 15 эпох позволяет модели сократить разрыв с реальностью, значительно повышая итоговые метрики точности.

Идеальные варианты использования

  • DAMO-YOLO: Наилучшим образом подходит для ответственных промышленных развертываний, где могут быть поддержаны конвейеры дистилляции на стороне сервера, и где целевое оборудование (например, специфические NVIDIA GPU) напрямую выигрывает от его NAS-архитектуры с массивной шейкой.
  • YOLOX: Отлично подходит для разработчиков, ищущих чисто безанкерный подход. Чрезвычайно легковесный YOLOXnano делает его пригодным для устаревших устройств Android, Периферийные вычисления, а также для сильно ограниченных IoT-датчиков, где количество параметров является абсолютным узким местом.

Преимущество Ultralytics: Представляем YOLO26

Хотя DAMO-YOLO и YOLOX представляют собой отличные вехи, современные разработчики требуют более комплексных, универсальных и простых в использовании решений. Именно здесь проявляют себя платформа Ultralytics и недавно выпущенный Ultralytics YOLO26.

Выпущенный в январе 2026 года, YOLO26 является идеальной рекомендованной моделью для всех задач компьютерного зрения. Он представляет ряд прорывных решений, превосходящих старые архитектуры:

  • Сквозная архитектура без NMS: YOLO26 изначально исключает постобработку Non-Maximum Suppression (NMS). Это обеспечивает значительно более простое и быстрое развертывание, избегая узких мест задержки, присущих традиционным детекторам.
  • До 43% более быстрая инференция на CPU: За счет стратегического удаления Distribution Focal Loss (DFL) и оптимизации слоев, YOLO26 обеспечивает беспрецедентную скорость на CPU и периферийном оборудовании.
  • Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (LLM), YOLO26 представляет оптимизатор MuSGD (гибрид SGD и Muon), что приводит к высокостабильным циклам обучения и гораздо более быстрой сходимости по сравнению с устаревшими конфигурациями в YOLOX.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, что делает YOLO26 значительно превосходящим для видеоматериалов с дронов и робототехники.
  • Универсальность: В отличие от DAMO-YOLO, который строго предназначен для обнаружения объектов, YOLO26 бесшовно обрабатывает сегментацию экземпляров, оценку позы, классификацию и ориентированные ограничивающие рамки (OBB) нативно в рамках той же хорошо поддерживаемой экосистемы.

Узнайте больше о YOLO26

Простота использования с Ultralytics

Ultralytics Python API оптимизирует опыт разработчика. Обучение современной модели YOLO26 требует гораздо меньше шаблонного кода и позволяет избежать сложных конвейеров дистилляции DAMO-YOLO. Кроме того, модели Ultralytics отличаются исключительно низкими требованиями к памяти CUDA во время обучения по сравнению с тяжелыми моделями на основе трансформеров.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Облачное обучение и развертывание

Вы можете автоматически аннотировать, обучать и развертывать модели на граничных устройствах, используя платформу Ultralytics, которая берет на себя все вопросы версионирования данных и предоставления облачных GPU.

Заключение

Выбор между DAMO-YOLO и YOLOX зависит от конкретных ограничений: DAMO-YOLO предлагает исключительное соотношение скорости и точности на определенных GPU через NAS, в то время как YOLOX предоставляет чистый, безанкерный дизайн, идеальный для легковесных граничных сценариев.

Однако для команд, ищущих современное, перспективное решение с активным сообществом, архитектура Ultralytics YOLO26 является окончательным выбором. Его NMS-free дизайн, быстрый инференс на CPU и унифицированный API для задач detect, segment и pose делают его непревзойденным для плавного перехода от исследований к надежному производству в реальных условиях.

Для разработчиков, заинтересованных в изучении других современных архитектур, мы также рекомендуем ознакомиться с Ultralytics YOLO11 или моделями на основе трансформеров, такими как RT-DETR, доступными в исчерпывающей документации Ultralytics.


Комментарии