YOLOX против DAMO-YOLO: сравнение детекторов объектов, основанных на архитектурах без анкоров и NAS

Эволюция детектирования объектов в реальном времени ознаменовалась множеством смен парадигм: от архитектур с анкорами к архитектурам без них, и от вручную спроектированных бэкбонов к автоматизированному нейроархитектурному поиску (NAS). В этом подробном техническом сравнении мы проанализируем две важные вехи на этом пути: YOLOX и DAMO-YOLO. Мы исследуем их архитектурные инновации, методологии обучения и компромиссы в производительности, а также подчеркнем, как современный Ultralytics YOLO26 предоставляет непревзойденную альтернативу для современных разработчиков.

YOLOX: Пионер парадигмы без анкоров

Выпущенный 18 июля 2021 года Чжэн Гэ, Сунтао Лю, Фэном Ваном, Земином Ли и Цзянь Сунем из Megvii, YOLOX стал критической поворотной точкой, успешно интегрировав дизайн без анкоров в семейство YOLO. Описанный в их подробном техническом отчете на ArXiv, YOLOX был направлен на преодоление разрыва между академическими исследованиями и промышленным внедрением.

Ключевые архитектурные инновации

YOLOX представил несколько основных структурных изменений, которые значительно улучшили показатели его предшественников:

  • Механизм без анкоров: Предсказывая центр объекта и размеры его ограничивающей рамки (BBox) напрямую, YOLOX сократил количество эвристик проектирования и упростил сложные процессы кластеризации анкоров. Это делает его легко адаптируемым к разнообразным сценариям computer vision.
  • Развязанная голова (Decoupled Head): Традиционные модели YOLO использовали одну связанную голову для классификации и регрессии. YOLOX внедрил развязанную голову, обрабатывая классификацию и локализацию отдельно, что позволило достичь сходимости намного быстрее и повысить точность.
  • Назначение меток SimOTA: Упрощенная версия Optimal Transport Assignment (OTA) использовалась для динамического назначения положительных образцов, сокращая время обучения и устраняя неоднозначности назначения центральных точек.
Наследие YOLOX

Дизайн развязанной головы YOLOX сильно повлиял на последующие поколения детекторов объектов, став стандартной особенностью многих современных моделей.

Узнай больше о YOLOX

DAMO-YOLO: Автоматизированный архитектурный поиск в масштабе

Разработанный Сяньчжэ Сюй и командой исследователей из Alibaba Group, DAMO-YOLO был представлен 23 ноября 2022 года. Как подробно описано в их публикации на ArXiv, модель активно использовала нейроархитектурный поиск (NAS), чтобы расширить границу Парето скорости и точности.

Ключевые архитектурные инновации

Стратегия DAMO-YOLO была построена на автоматизации проектирования эффективных структур:

  • Бэкбоны MAE-NAS: Используя многоцелевой эволюционный алгоритм, DAMO-YOLO обнаружил высокоэффективные бэкбоны, настроенные под конкретные бюджеты задержки, особенно при экспорте в такие фреймворки, как TensorRT.
  • Эффективный RepGFPN: Дизайн с «тяжелой» шейкой, который значительно улучшает слияние признаков при различных пространственных разрешениях, что крайне полезно для анализа аэрофотоснимков и обнаружения объектов разного масштаба.
  • ZeroHead: Упрощенная голова предсказаний, которая сокращает вычислительную избыточность без ущерба для общей средней точности (mAP) модели.
  • AlignedOTA и дистилляция: Включает передовое назначение меток и дистилляцию знаний «учитель-ученик», чтобы выжать максимум производительности из более компактных моделей-студентов.

Узнай больше о DAMO-YOLO

Сравнение производительности и метрик

При сравнении этих двух моделей мы должны учитывать их количество параметров, требуемые FLOPs и профили задержки. Ниже приведены данные бенчмарков, сравнивающие YOLOX и DAMO-YOLO в различных масштабах.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Хотя обе модели достигают впечатляющих результатов, они имеют свои нюансы. YOLOX требует тщательной настройки своей развязанной головы, в то время как сильная зависимость DAMO-YOLO от дистилляции делает переобучение на пользовательских наборах данных очень ресурсоемким, требуя больших объемов GPU memory.

Варианты использования и рекомендации

Выбор между YOLOX и DAMO-YOLO зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOX

YOLOX — сильный выбор, если:

  • Исследований обнаружения без анкоров: Академических исследований, использующих чистую архитектуру YOLOX без анкоров в качестве базы для экспериментов с новыми головами обнаружения или функциями потерь.
  • Сверхлегких граничных устройств: Развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый размер варианта YOLOX-Nano (0.91 млн параметров).
  • Исследований назначения меток SimOTA: Исследовательских проектов, изучающих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда выбирать DAMO-YOLO

DAMO-YOLO рекомендуется для:

  • Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
  • Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: представляем YOLO26

Хотя YOLOX и DAMO-YOLO представляют собой важные исторические вехи, современным разработчикам нужно решение, сочетающее передовую точность с непревзойденной простотой использования. Именно здесь Ultralytics YOLO26 меняет правила игры. Выпущенный в январе 2026 года, YOLO26 опирается на наследие моделей без NMS, чтобы обеспечить идеальный баланс скорости, точности и удобства для разработчика.

Почему стоит выбрать YOLO26?

Интегрированная экосистема Ultralytics превосходит фрагментированные академические репозитории, предлагая:

  • Сквозной дизайн без NMS: YOLO26 нативно исключает не-максимальное подавление (NMS) во время вывода. Это приводит к невероятно быстрой и предсказуемой задержке, что критически важно для граничных вычислений и автономных транспортных средств.
  • Удаление DFL: Удалив Distribution Focal Loss, YOLO26 упрощает процессы экспорта на граничные устройства, значительно снижая требования к памяти для легких приложений.
  • Оптимизатор MuSGD: YOLO26 заимствует инновации в обучении LLM благодаря гибридному оптимизатору SGD и Muon, обеспечивая стабильность обучения и сверхбыструю сходимость.
  • До 43% более быстрый вывод на CPU: Благодаря глубоким структурным оптимизациям, YOLO26 работает невероятно быстро на CPU, не требуя дорогостоящего GPU-оборудования.
  • Передовые функции потерь: Интеграция ProgLoss + STAL обеспечивает значительные улучшения в распознавании мелких объектов, что делает модель идеальной для таких задач, как инспекция дронами и мониторинг IoT.
  • Универсальность: В отличие от DAMO-YOLO, который является строго детектором, YOLO26 нативно поддерживает задачи Instance Segmentation, Pose Estimation, Image Classification и Oriented Bounding Box (OBB) в рамках одного унифицированного фреймворка.
Начни разработку мгновенно

С помощью Ultralytics Python API тебе не нужно вручную настраивать сложные конвейеры дистилляции или писать сотни строк кода на C++ для развертывания твоей модели.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Узнай больше о YOLO26

Другие модели, которые стоит рассмотреть

Экосистема компьютерного зрения огромна. В зависимости от твоих конкретных ограничений, ты также можешь изучить другие архитектуры, полностью поддерживаемые экосистемой Ultralytics:

  • YOLO11: Высокоэффективный предшественник YOLO26, известный своей надежностью в розничной аналитике и контроле качества на производстве.
  • YOLOv8: Легендарная, высокостабильная модель без анкоров, которая популяризировала широкое развертывание на границе (edge).
  • RT-DETR: Трансформер для детектирования в реальном времени, разработанный Baidu, предлагающий отличную альтернативу для задач, сильно зависящих от механизмов глобального внимания, хотя и ценой более высоких требований к памяти при обучении.

Заключение

И YOLOX, и DAMO-YOLO внесли важные концепции в развитие глубокого обучения: YOLOX подтвердил эффективность развязанного подхода без анкоров, а DAMO-YOLO продемонстрировал мощь автоматизированного архитектурного поиска. Однако для реального промышленного производства сложности их исходных исследовательских кодовых баз могут замедлять работу гибких команд.

Используя комплексную Ultralytics Platform, разработчики могут обойти эти препятствия. Благодаря сквозному дизайну YOLO26, превосходной скорости на CPU и обширной документации, достижение передового уровня в Vision AI стало доступнее, чем когда-либо. Независимо от того, создаешь ли ты инфраструктуру умного города, медицинскую диагностику или передовую робототехнику, Ultralytics предоставляет наиболее эффективный путь от сырых данных до надежного развертывания в реальных условиях.

Комментарии