YOLOX против DAMO-YOLO: Сравнение безанкерных и NAS-ориентированных детекторов объектов
Эволюция обнаружения объектов в реальном времени привела к многочисленным изменениям парадигм: от архитектур на основе якорей к безъякорным, и от вручную разработанных базовых сетей к автоматизированному нейронному поиску архитектуры (NAS). В этом всеобъемлющем техническом сравнении мы проанализируем две значимые вехи на этом пути: YOLOX и DAMO-YOLO. Мы рассмотрим их архитектурные инновации, методологии обучения и компромиссы в производительности, а также подчеркнем, как современная Ultralytics YOLO26 предоставляет беспрецедентную альтернативу для современных разработчиков.
YOLOX: Пионер безаякорной парадигмы
Выпущенный 18 июля 2021 года Чжэн Гэ, Сунтао Лю, Фэн Ваном, Цзэмином Ли и Цзянь Сунем из Megvii, YOLOX ознаменовал собой критический поворотный момент, успешно интегрировав безанкерную архитектуру в семейство YOLO. Описанный в их подробном техническом отчете на ArXiv, YOLOX стремился сократить разрыв между академическими исследованиями и промышленным развертыванием.
Ключевые архитектурные инновации
YOLOX представил несколько ключевых структурных изменений, которые значительно улучшили его по сравнению с предшественниками:
- Безанкерный механизм: Предсказывая центр объекта и размеры его ограничивающей рамки напрямую, YOLOX сократил количество эвристик проектирования и упростил сложные процессы кластеризации якорей. Это делает его легко адаптируемым к различным сценариям компьютерного зрения.
- Декаплированная голова: Традиционные модели YOLO использовали одну связанную голову как для классификации, так и для регрессии. YOLOX реализовал декаплированную голову, обрабатывая классификацию и локализацию отдельно, что значительно ускорило сходимость и повысило точность.
- Присвоение меток SimOTA: Упрощенная версия Optimal Transport Assignment (OTA) использовалась для динамического присвоения положительных выборок, сокращая время обучения и преодолевая неоднозначности присвоений центральных точек.
Наследие YOLOX
Дизайн YOLOX с разделенной головой сильно повлиял на последующие поколения детекторов объектов, став стандартной функцией во многих современных моделях.
DAMO-YOLO: Автоматизированный поиск архитектуры в масштабе
Разработанный Сяньчжэ Сюй и командой исследователей из Alibaba Group, DAMO-YOLO был представлен 23 ноября 2022 года. Как подробно описано в их публикации на ArXiv, модель активно использовала нейронный поиск архитектуры (NAS) для расширения границы Парето скорости и точности.
Ключевые архитектурные инновации
Стратегия DAMO-YOLO была основана на автоматизации проектирования эффективных структур:
- Бэкбоны MAE-NAS: Используя многоцелевой эволюционный алгоритм, DAMO-YOLO обнаружил высокоэффективные бэкбоны, настроенные для определенных бюджетов задержки, особенно при экспорте во фреймворки, такие как TensorRT.
- Эффективная RepGFPN: Конструкция с "тяжелой" шейкой, которая значительно улучшает слияние признаков в различных пространственных разрешениях, что очень полезно для анализа аэрофотоснимков и detect объектов в различных масштабах.
- ZeroHead: Упрощенная голова предсказания, которая сокращает вычислительную избыточность без ущерба для общей средней точности модели (mAP).
- AlignedOTA и дистилляция: Включает усовершенствованное назначение меток и дистилляцию знаний по принципу "учитель-ученик" для достижения максимальной производительности от меньших моделей-учеников.
Сравнение производительности и метрик
При сравнении этих двух моделей мы должны учитывать количество их параметров, требуемые FLOPs и профили задержки. Ниже представлены данные бенчмарков, сравнивающие YOLOX и DAMO-YOLO в различных масштабах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Хотя обе модели достигают впечатляющих результатов, они имеют свои особенности. YOLOX требует тщательной настройки своей разделенной головы, в то время как сильная зависимость DAMO-YOLO от дистилляции делает переобучение на пользовательских наборах данных чрезвычайно ресурсоемким, требуя огромных объемов памяти GPU.
Сценарии использования и рекомендации
Выбор между YOLOX и DAMO-YOLO зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать YOLOX
YOLOX является отличным выбором для:
- Исследования безъякорного detect: Академические исследования, использующие чистую, безъякорную архитектуру YOLOX в качестве основы для экспериментов с новыми головами detect или функциями потерь.
- Сверхлегкие граничные устройства: Развертывание на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый объем (0,91 млн параметров) варианта YOLOX-Nano.
- Исследования по назначению меток SimOTA: Исследовательские проекты, изучающие стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO рекомендуется для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Преимущество Ultralytics: Представляем YOLO26
Хотя YOLOX и DAMO-YOLO представляют собой важные исторические вехи, современным разработчикам требуется решение, сочетающее передовую точность с беспрецедентной простотой использования. Именно здесь Ultralytics YOLO26 меняет ландшафт. Выпущенный в январе 2026 года, YOLO26 основывается на наследии NMS-free моделей, чтобы обеспечить идеальный баланс скорости, точности и удобства для разработчиков.
Почему стоит выбрать YOLO26?
Интегрированная экосистема Ultralytics превосходит фрагментированные академические репозитории, предлагая:
- Сквозная архитектура без NMS: YOLO26 изначально исключает Non-Maximum Suppression (NMS) во время инференса. Это обеспечивает невероятно быструю, предсказуемую задержку, что критически важно для развертывания на периферийных устройствах и в автономных транспортных средствах.
- Удаление DFL: Удаление Distribution Focal Loss в YOLO26 упрощает процессы экспорта на периферийные устройства, значительно снижая требования к памяти для легковесных приложений.
- Оптимизатор MuSGD: YOLO26 заимствует инновации в обучении LLM благодаря своему гибридному оптимизатору SGD и Muon, обеспечивая исключительную стабильность обучения и сверхбыструю сходимость.
- До 43% более быстрый инференс на CPU: Благодаря глубоким структурным оптимизациям YOLO26 работает невероятно быстро на CPU, не требуя дорогостоящего оборудования GPU.
- Расширенные функции потерь: Интеграция ProgLoss + STAL обеспечивает значительные улучшения в распознавании мелких объектов, что делает ее идеальной для таких задач, как инспекции с помощью дронов и мониторинг IoT.
- Универсальность: В отличие от DAMO-YOLO, который является исключительно детектором, YOLO26 нативно поддерживает задачи сегментации экземпляров, оценки позы, классификации изображений и ориентированных ограничивающих рамок (OBB) в единой унифицированной среде.
Начните создание мгновенно
С помощью Ultralytics Python API вам не нужно вручную настраивать сложные конвейеры дистилляции или писать сотни строк кода на C++ для развертывания вашей модели.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")
Другие модели для рассмотрения
Экосистема компьютерного зрения обширна. В зависимости от ваших конкретных ограничений, вы также можете изучить другие архитектуры, полностью поддерживаемые экосистемой Ultralytics:
- YOLO11: Высокопроизводительный предшественник YOLO26, известный своей надежностью в розничной аналитике и контроле качества производства.
- YOLOv8: Легендарная, высокостабильная безанкерная модель, популяризировавшая широкое развертывание на периферийных устройствах.
- RT-DETR: Трансформер для обнаружения в реальном времени, разработанный Baidu, предлагающий отличную альтернативу для задач, которые значительно выигрывают от глобальных механизмов внимания, хотя и ценой более высоких требований к памяти для обучения.
Заключение
И YOLOX, и DAMO-YOLO внесли жизненно важные концепции в развитие глубокого обучения — YOLOX, подтверждающий декомпозированный, безаякорный подход, и DAMO-YOLO, демонстрирующий мощь автоматизированного поиска архитектуры. Однако для реального производства сложности их оригинальных исследовательских кодовых баз могут замедлять гибкие команды.
Используя комплексную Платформу Ultralytics, разработчики могут обойти эти препятствия. Благодаря сквозной архитектуре YOLO26, превосходной скорости на CPU и обширной документации, достижение современного ИИ для зрения стало доступнее, чем когда-либо. Независимо от того, строите ли вы инфраструктуру умного города, разрабатываете диагностику для здравоохранения или передовую робототехнику, Ultralytics предоставляет наиболее эффективный путь от необработанных данных к надёжному развёртыванию в реальных условиях.