YOLOv6-3.0 против YOLOX: подробное техническое сравнение
Выбор правильной модели обнаружения объектов имеет решающее значение для успеха проектов компьютерного зрения. На этой странице представлено подробное техническое сравнение YOLOv6-3.0 и YOLOX, двух популярных моделей, известных своей эффективностью и точностью в обнаружении объектов. Мы углубимся в их архитектуры, показатели производительности, методологии обучения и идеальные области применения, чтобы помочь вам принять обоснованное решение.
YOLOv6-3.0: оптимизирован для промышленных приложений
YOLOv6 — это платформа обнаружения объектов, разработанная компанией Meituan, предназначенная для промышленных применений с акцентом на высокую скорость и точность. Версия 3.0, выпущенная 13 января 2023 года, привносит значительные улучшения по сравнению с предыдущими версиями, повышая как производительность, так и эффективность.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация: Meituan
- Дата: 13.01.2023
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub: https://github.com/meituan/YOLOv6
- Документация: https://docs.ultralytics.com/models/yolov6/
Архитектура и ключевые особенности
YOLOv6-3.0 построена с учетом аппаратного обеспечения, имеет эффективную репараметризацию backbone и гибридную блочную структуру. Эта архитектура оптимизирована для более быстрой задержки инференса без ущерба для точности. Ключевые архитектурные особенности включают в себя:
- Эффективный Reparameterization Backbone: Разработан для более высокой скорости инференса за счет оптимизации структуры сети после обучения.
- Гибридная блочная структура: Направлена на создание оптимального баланса между точностью и эффективностью в слоях извлечения признаков.
- Оптимизированная стратегия обучения: Улучшает скорость сходимости и общую производительность, включая такие методы, как обучение с помощью Anchor (AAT), чтобы использовать преимущества методов на основе anchor во время обучения.
Сильные и слабые стороны
Преимущества:
- Высокая скорость инференса: Ее архитектура сильно оптимизирована для быстрого обнаружения объектов, что делает ее сильным кандидатом для приложений реального времени.
- Хороший баланс точности и скорости: Достигает конкурентоспособных показателей mAP, сохраняя при этом быструю скорость inference, особенно для промышленного развертывания.
- Ориентация на промышленность: Специально разработан с учетом реальных промышленных применений и сценариев развертывания.
Слабые стороны:
- Сообщество и экосистема: Несмотря на надежность, его сообщество и экосистема могут быть меньше по сравнению с более широко используемыми моделями, такими как Ultralytics YOLOv8 или YOLOv5.
- Универсальность задач: В основном ориентирован на обнаружение объектов, не имеет встроенной многозадачной поддержки для сегментации, классификации и оценки позы, которые есть в экосистеме Ultralytics.
Идеальные варианты использования
YOLOv6-3.0 хорошо подходит для промышленных приложений, требующих обнаружения объектов в реальном времени с высокой точностью, таких как:
- Промышленный контроль: Эффективно обнаруживает дефекты в производственных процессах, улучшая контроль качества.
- Робототехника: Позволяет роботам воспринимать окружающую среду и взаимодействовать с ней в режиме реального времени для навигации и манипулирования, что является ключевым компонентом ИИ в робототехнике.
- Системы безопасности: Обеспечивает быстрое и точное обнаружение объектов для проектов систем охранной сигнализации и видеонаблюдения.
YOLOX: Простота и высокая точность без привязки к якорям
YOLOX, представленный компанией Megvii 18 июля 2021 года, выделяется своей конструкцией без привязки к якорям, которая упрощает сложность, связанную с традиционными моделями YOLO. Он стремится преодолеть разрыв между исследованиями и промышленными приложениями благодаря своим эффективным и точным возможностям обнаружения объектов.
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация: Megvii
- Дата: 18.07.2021
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Документация: https://yolox.readthedocs.io/en/latest/
Архитектура и ключевые особенности
В YOLOX используется оптимизированный подход за счет исключения anchor boxes, что упрощает процесс обучения и уменьшает количество гиперпараметров. Ключевые архитектурные инновации включают:
- Обнаружение без привязки к якорям (Anchor-Free Detection): Устраняет необходимость в предопределенных якорях, снижая сложность проектирования и потенциально улучшая обобщение для объектов различных размеров.
- Разделенная Head: Разделяет задачи классификации и локализации на отдельные ветви в detection head, что, как было показано, улучшает производительность.
- Назначение меток SimOTA: Использует продвинутую стратегию назначения меток, которая динамически назначает цели на основе результатов прогнозирования, повышая эффективность обучения.
- Надежная аугментация данных: Использует надежные методы аугментации данных, такие как MixUp и Mosaic, для повышения устойчивости модели.
Сильные и слабые стороны
Преимущества:
- Высокая точность: Достигает превосходных показателей mAP, что делает его подходящим для приложений, требующих точного обнаружения объектов.
- Упрощенная конструкция: Подход без anchor-ов уменьшает количество гиперпараметров и упрощает общую архитектуру, что облегчает понимание и модификацию.
- Универсальность: Адаптируется к широкому спектру задач обнаружения объектов благодаря своей надежной конструкции.
Слабые стороны:
- Скорость инференса: Несмотря на быстродействие, он может быть немного медленнее, чем высокооптимизированные модели, такие как YOLOv6-3.0, особенно на периферийных устройствах.
- Размер модели: Некоторые из более крупных вариантов YOLOX имеют значительное количество параметров, что может быть проблемой для развертываний с ограниченными ресурсами.
Идеальные варианты использования
YOLOX — это отличный выбор для сценариев, где высокая точность является приоритетом, а также для исследовательских целей.
- Приложения, требующие высокой точности: Идеально подходит для сценариев, где точность имеет первостепенное значение, таких как анализ медицинских изображений или анализ спутниковых снимков.
- Исследования и разработки: Ее упрощенная и новая структура делает ее отличной отправной точкой для исследователей, изучающих новые методологии обнаружения объектов.
- Универсальное обнаружение объектов: Применимо в широком спектре задач, извлекая выгоду из своей надежной и обобщаемой конструкции.
Сравнение производительности: YOLOv6-3.0 против YOLOX
Производительность YOLOv6-3.0 и YOLOX демонстрирует компромиссы между скоростью, точностью и размером модели. YOLOv6-3.0 разработан для максимальной скорости на таком оборудовании, как NVIDIA GPU, при этом его самая маленькая модель, YOLOv6-3.0n, достигает впечатляющей задержки в 1.17 мс. Его самая большая модель, YOLOv6-3.0l, достигает самой высокой точности в этом сравнении с 52.8 mAP.
YOLOX, с другой стороны, предлагает очень легкий вариант с YOLOX-Nano, который имеет всего 0,91 млн параметров, что делает его подходящим для сред с крайне ограниченными ресурсами. В то время как его более крупные модели конкурентоспособны по точности, они, как правило, имеют больше параметров и FLOPs по сравнению со своими аналогами YOLOv6-3.0.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Заключение и рекомендации
YOLOv6-3.0 и YOLOX — это мощные детекторы объектов, каждый со своими преимуществами. YOLOv6-3.0 превосходен в критически важных по скорости промышленных приложениях, где эффективность имеет первостепенное значение. YOLOX предлагает упрощенную архитектуру без привязки к якорям, которая обеспечивает высокую точность, что делает его сильным выбором для исследований и задач, ориентированных на точность.
Однако для разработчиков и исследователей, ищущих современную модель в рамках комплексной и удобной структуры, Ultralytics YOLO11 выделяется как превосходная альтернатива. Модели Ultralytics обеспечивают исключительный баланс производительности, достигая высокой точности с замечательной эффективностью. Что еще более важно, они являются частью хорошо поддерживаемой экосистемы, которая отдает приоритет простоте использования с помощью простого API, обширной документации и оптимизированных рабочих процессов обучения.
Платформа Ultralytics предлагает беспрецедентную универсальность благодаря встроенной поддержке обнаружения, сегментации экземпляров, оценки позы, классификации и отслеживания. Эта многозадачность в сочетании с активной разработкой, сильной поддержкой сообщества и бесшовной интеграцией с такими инструментами, как Ultralytics HUB, обеспечивает более эффективную и мощную разработку, чем та, что предлагается YOLOv6 или YOLOX.
Для дальнейшего изучения рассмотрите возможность сравнения этих моделей с другими архитектурами, такими как YOLOv7 или RT-DETR.