DAMO-YOLO против YOLOX: Всестороннее техническое сравнение
Ландшафт компьютерного зрения в реальном времени постоянно развивается. Двумя заметными вехами на этом пути являются DAMO-YOLO и YOLOX, каждая из которых привнесла уникальные инновации в проблему высокоскоростного и высокоточного обнаружения объектов. Хотя обе модели внесли значительный вклад в сообщество открытого исходного кода, понимание их архитектурных различий, методологий обучения и идеальных сценариев развертывания имеет решающее значение для инженеров машинного обучения.
Это всеобъемлющее руководство исследует технические нюансы обеих моделей и подчеркивает, почему современные альтернативы, такие как платформа Ultralytics YOLO26, предлагают превосходную производительность и простоту использования для современных производственных сред.
Обзоры моделей
Подробности о DAMO-YOLO
Разработанный командой исследователей из Alibaba Group, DAMO-YOLO был представлен как высокоэффективный метод обнаружения объектов, использующий автоматизированное обнаружение архитектуры.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: DAMO-YOLO Documentation
Подробности о YOLOX
Разработанный исследователями из Megvii, YOLOX был направлен на преодоление разрыва между исследовательским и промышленным сообществами путем перехода серии YOLO на безанкерную архитектуру, значительно упрощая архитектуру и одновременно достигая лучшей производительности на тот момент.
Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Документация: Документация YOLOX
Архитектурный анализ
Архитектура DAMO-YOLO
DAMO-YOLO активно опирается на Neural Architecture Search (NAS). Основные компоненты включают:
- Бэкбоны MAE-NAS: Использует многоцелевой эволюционный алгоритм поиска для обнаружения бэкбонов, которые обеспечивают оптимальный баланс между скоростью инференса и точностью.
- Эффективная RepGFPN: Конструкция с "тяжелой" шейкой, адаптированная для слияния признаков, которая помогает модели поддерживать высокую точность при различных масштабах объектов.
- ZeroHead: Упрощенная, легковесная голова детектора, которая снижает вычислительные затраты в финальных слоях предсказания.
Архитектура YOLOX
YOLOX применил другой подход, сосредоточившись на структурной простоте и безакорной архитектуре:
- Безанкерный механизм: Предсказывая координаты ограничивающих рамок напрямую без предопределенных якорей, YOLOX сокращает количество проектных параметров и требуемой эвристической настройки.
- Разделенная голова: Она разделяет задачи классификации и регрессии на разные ветви признаков, что улучшает скорость сходимости и общую точность.
- Присвоение меток SimOTA: Продвинутая стратегия присвоения меток, которая динамически распределяет положительные выборки по эталонным данным, повышая эффективность обучения.
Философии проектирования
Хотя DAMO-YOLO использует машинный NAS-поиск для нахождения оптимальных архитектур в условиях жестких ограничений, YOLOX использует элегантные, разработанные человеком упрощения (например, anchor-free головы) для оптимизации конвейера detect объектов.
Сравнение производительности
Оценка этих моделей требует рассмотрения средней точности (mAP), скорости инференса и количества параметров. Ниже приведена подробная сравнительная таблица стандартных и облегченных вариантов для обеих архитектур.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Хотя YOLOXx достигает наивысшего абсолютного mAP в 51.1, DAMO-YOLOl обеспечивает очень конкурентоспособный 50.8 mAP с менее чем половиной параметров (42.1M против 99.1M) и значительно более быстрым выполнением TensorRT.
Методологии обучения
Обучение DAMO-YOLO
DAMO-YOLO использует сложное улучшение дистилляции во время обучения. Часто сначала обучается большая модель-«учитель», а ее знания дистиллируются в меньшие модели-«ученики». Он также использует AlignedOTA для динамического назначения меток. Хотя этот многостадийный процесс обучения очень эффективен, он значительно увеличивает время вычислений на GPU и требуемые накладные расходы на память.
Обучение YOLOX
YOLOX полагается на сильные стратегии аугментации данных, такие как MixUp и Mosaic. Однако авторы обнаружили, что отключение этих сильных аугментаций на последние 15 эпох позволяет модели сократить разрыв с реальностью, значительно повышая итоговые метрики точности.
Идеальные варианты использования
- DAMO-YOLO: Наилучшим образом подходит для ответственных промышленных развертываний, где могут быть поддержаны конвейеры дистилляции на стороне сервера, и где целевое оборудование (например, специфические NVIDIA GPU) напрямую выигрывает от его NAS-архитектуры с массивной шейкой.
- YOLOX: Отлично подходит для разработчиков, ищущих чисто безанкерный подход. Чрезвычайно легковесный
YOLOXnanoделает его пригодным для устаревших устройств Android, Периферийные вычисления, а также для сильно ограниченных IoT-датчиков, где количество параметров является абсолютным узким местом.
Преимущество Ultralytics: Представляем YOLO26
Хотя DAMO-YOLO и YOLOX представляют собой отличные вехи, современные разработчики требуют более комплексных, универсальных и простых в использовании решений. Именно здесь проявляют себя платформа Ultralytics и недавно выпущенный Ultralytics YOLO26.
Выпущенный в январе 2026 года, YOLO26 является идеальной рекомендованной моделью для всех задач компьютерного зрения. Он представляет ряд прорывных решений, превосходящих старые архитектуры:
- Сквозная архитектура без NMS: YOLO26 изначально исключает постобработку Non-Maximum Suppression (NMS). Это обеспечивает значительно более простое и быстрое развертывание, избегая узких мест задержки, присущих традиционным детекторам.
- До 43% более быстрая инференция на CPU: За счет стратегического удаления Distribution Focal Loss (DFL) и оптимизации слоев, YOLO26 обеспечивает беспрецедентную скорость на CPU и периферийном оборудовании.
- Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (LLM), YOLO26 представляет оптимизатор MuSGD (гибрид SGD и Muon), что приводит к высокостабильным циклам обучения и гораздо более быстрой сходимости по сравнению с устаревшими конфигурациями в YOLOX.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, что делает YOLO26 значительно превосходящим для видеоматериалов с дронов и робототехники.
- Универсальность: В отличие от DAMO-YOLO, который строго предназначен для обнаружения объектов, YOLO26 бесшовно обрабатывает сегментацию экземпляров, оценку позы, классификацию и ориентированные ограничивающие рамки (OBB) нативно в рамках той же хорошо поддерживаемой экосистемы.
Простота использования с Ultralytics
Ultralytics Python API оптимизирует опыт разработчика. Обучение современной модели YOLO26 требует гораздо меньше шаблонного кода и позволяет избежать сложных конвейеров дистилляции DAMO-YOLO. Кроме того, модели Ultralytics отличаются исключительно низкими требованиями к памяти CUDA во время обучения по сравнению с тяжелыми моделями на основе трансформеров.
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Облачное обучение и развертывание
Вы можете автоматически аннотировать, обучать и развертывать модели на граничных устройствах, используя платформу Ultralytics, которая берет на себя все вопросы версионирования данных и предоставления облачных GPU.
Заключение
Выбор между DAMO-YOLO и YOLOX зависит от конкретных ограничений: DAMO-YOLO предлагает исключительное соотношение скорости и точности на определенных GPU через NAS, в то время как YOLOX предоставляет чистый, безанкерный дизайн, идеальный для легковесных граничных сценариев.
Однако для команд, ищущих современное, перспективное решение с активным сообществом, архитектура Ultralytics YOLO26 является окончательным выбором. Его NMS-free дизайн, быстрый инференс на CPU и унифицированный API для задач detect, segment и pose делают его непревзойденным для плавного перехода от исследований к надежному производству в реальных условиях.
Для разработчиков, заинтересованных в изучении других современных архитектур, мы также рекомендуем ознакомиться с Ultralytics YOLO11 или моделями на основе трансформеров, такими как RT-DETR, доступными в исчерпывающей документации Ultralytics.