Перейти к содержанию

YOLOX против YOLOv6.0: подробное техническое сравнение

В быстро развивающейся области обнаружения объектов для того, чтобы отличить высокопроизводительные модели, необходимо глубоко изучить нюансы архитектуры, методологии обучения и применимость в реальных условиях. В этом всеобъемлющем руководстве сравниваются YOLOX, новаторский детектор без анкоров, выпущенный в 2021 году, и YOLOv6.YOLOv6, надежная промышленная платформа, выпущенная в начале 2023 года. Анализируя их преимущества и ограничения, разработчики могут принимать обоснованные решения для своих конвейеров компьютерного зрения.

Краткое изложение

В то время как YOLOX представил парадигмальный сдвиг к обнаружению без якорей с развязанными головками, YOLOv6. YOLOv6 усовершенствовал эти концепции для промышленного применения, сделав акцент на аппаратно-ориентированных конструкциях и квантовании. Однако для разработчиков, стремящихся к абсолютному максимуму скорости и простоты использования, современные решения, такие как YOLO26 теперь предлагают нативные сквозные архитектуры, которые полностью устраняют узкие места в постобработке.

YOLOX: пионер Anchor-Free

YOLOX значительно отличается от предыдущих YOLO благодаря переходу на механизм без якоря и использованию развязанных головок. Такой выбор конструкции упростил процесс обучения и повысил скорость сходимости, что сделало его фаворитом в академическом исследовательском сообществе.

Ключевые архитектурные особенности

  • Конструкция без анкеров: устраняет необходимость в заранее определенных анкерных ячейках, сокращая количество параметров конструкции и эвристической настройки. Это делает модель более универсальной для различных наборов данных.
  • Разделенная головка: разделяет задачи классификации и локализации на разные ветви. Это разделение устраняет конфликт между достоверностью классификации и точностью локализации, который часто возникает в связанных архитектурах.
  • SimOTA Label Assignment: передовая стратегия динамического присвоения меток, которая рассматривает процесс обучения как задачу оптимального транспорта. Она автоматически выбирает лучшие положительные образцы для каждого объекта ground truth, повышая стабильность обучения.

Технические характеристики

Узнайте больше о YOLOX

YOLOv6.0: эффективность промышленного уровня

YOLOv6.YOLOv6, часто называемый «Meituan YOLO», был разработан специально для промышленных приложений, где эффективность оборудования имеет первостепенное значение. Он ориентирован на оптимизацию пропускной способности графических процессоров (таких как NVIDIA ) при сохранении конкурентоспособной точности.

Ключевые архитектурные особенности

  • Двунаправленное соединение (BiC): улучшает процесс слияния характеристик в шее, повышая эффективность обнаружения многомасштабных объектов без значительных вычислительных затрат.
  • Обучение с помощью якорей (AAT): гибридная стратегия, которая сочетает в себе парадигмы на основе якорей и без якорей во время обучения для стабилизации конвергенции, в то время как вывод остается без якорей для обеспечения скорости.
  • Самодистилляция: использует структуру обучения «учитель-ученик», в которой модель учится сама на себе, повышая точность без увеличения затрат на вывод.
  • Обучение с учетом квантования (QAT): встроенная поддержка квантования INT8 гарантирует, что модели могут быть развернуты на периферийных устройствах с минимальной потерей точности.

Технические характеристики

  • Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
  • Организация:Meituan
  • Дата: 2023-01-13
  • Ссылки:Arxiv, GitHub, Документация

Узнайте больше о YOLOv6

Ориентиры производительности

В следующей таблице показаны компромиссы между двумя архитектурами с точки зрения производительности. YOLOv6. YOLOv6, как правило, достигает более высокой пропускной способности на специализированном GPU благодаря TensorRT , в то время как YOLOX остается сильным конкурентом с точки зрения эффективности параметров для своего времени.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Сравнительный анализ

Эффективность обучения и память

При обучении современных детекторов управление ресурсами имеет решающее значение. YOLOX известен своей более медленной конвергенцией по сравнению с последующими моделями, часто требуя 300 эпох для достижения максимальной производительности. Его конвейер увеличения данных, включающий Mosaic и MixUp, эффективен, но требует больших вычислительных ресурсов.

В отличие от этого, YOLOv6.YOLOv6 использует самодистилляцию для повышения эффективности данных, но это усложняет цикл обучения. Обе модели, хотя и эффективны, обычно потребляют больше GPU во время обучения по сравнению с высокооптимизированными Ultralytics . Ultralytics разработаны таким образом, чтобы минимизировать объем CUDA , что позволяет использовать более крупные пакеты данных на стандартных потребительских GPU, демократизируя доступ к обучению высокопроизводительных моделей.

Варианты использования и универсальность

  • YOLOX лучше всего подходит для академических исследований и сценариев, требующих чистой базовой линии без анкоров. Благодаря развязанной головке он является фаворитом для независимого изучения задач классификации и регрессии.
  • YOLOv6.0 отлично подходит для промышленных условий, таких как производственные линии или аналитика розничной торговли, где развертывание на устройствах NVIDIA или Jetson с помощью TensorRT является стандартом.

Однако обе модели в первую очередь ориентированы на обнаружение ограничивающих рамок. Разработчикам, которым необходимо выполнять сегментацию экземпляров, оценку позы или обнаружение ориентированных ограничивающих рамок (OBB), часто приходится искать другие решения или поддерживать отдельные кодовые базы. Эта фрагментация решена Ultralytics , которая поддерживает все эти задачи в рамках единого API.

Преимущество Ultralytics: Представляем YOLO26

Хотя YOLOX и YOLOv6 важные вехи, в этой области наблюдается быстрое развитие. YOLO26 представляет собой современное достижение, предлагающее явные преимущества, которые устраняют ограничения предшествующих версий.

Оптимизированная разработка с Ultralytics

Python Ultralytics позволяет легко переключаться между моделями. Переход с более старой архитектуры на YOLO26 часто требует изменения всего одной строки кода, что обеспечивает мгновенный доступ к превосходной скорости и точности.

Революционные особенности YOLO26

  1. Сквозной дизайн NMS: в отличие от YOLOX и YOLOv6, которые используют немаксимальное подавление (NMS) для фильтрации перекрывающихся рамок, YOLO26 является сквозным по своей природе. Это устраняет изменчивость задержки, вызванную NMS, обеспечивая детерминированное время вывода, критически важное для робототехники в реальном времени.
  2. Оптимизированная эффективность на периферии: благодаря устранению распределительной фокальной потери (DFL) и оптимизации архитектуры для CPU , YOLO26 обеспечивает ускорение CPU до 43 %. Это делает его идеальным выбором для периферийного ИИ на таких устройствах, как Raspberry Pi или мобильные телефоны, где GPU недоступны.
  3. Усовершенствованная динамика обучения: вдохновленный инновациями в области обучения LLM, YOLO26 использует оптимизатор MuSGD, гибрид SGD Muon. Это обеспечивает более стабильное обучение и более быструю конвергенцию, сокращая время и затраты, связанные с разработкой модели.
  4. Улучшенное обнаружение мелких объектов: благодаря новым функциям потерь, таким как ProgLoss + STAL, YOLO26 значительно превосходит старые модели по обнаружению мелких объектов, что является важной функцией для аэрофотосъемки и точного земледелия.

Экосистема и обслуживание

Одним из самых весомых аргументов в пользу выбора Ultralytics является экосистема. В то время как исследовательские репозитории часто стагнируют после публикации, Ultralytics поддерживаются активным обслуживанием, частыми обновлениями и огромным сообществом. Ultralytics упрощает весь жизненный цикл — от аннотирования данных до обучения в облаке и развертывания в различных форматах, таких как OpenVINO или CoreML— гарантируя, что ваш проект останется актуальным в будущем.

Заключение

Выбор между YOLOX и YOLOv6. YOLOv6 во многом зависит от того, что для вас важнее: академические исследования или промышленное GPU . Однако для разработчиков, которые ищут универсальное, перспективное решение, сочетающее в себе простоту использования и передовую производительность, YOLO26 является лучшим выбором. Его способность обрабатывать различные задачи (обнаружение, сегментация, поза, OBB) в рамках единой, эффективной с точки зрения использования памяти структуры делает его стандартом для современных приложений компьютерного зрения.

Узнайте больше о YOLO26


Комментарии