YOLO11 против YOLOX: всестороннее техническое сравнение
Выбор оптимальной модели обнаружения объектов является ключевым решением для разработчиков и исследователей, стремящихся найти баланс между точностью, скоростью вывода и простотой развертывания. В данном техническом анализе приводится подробное сравнение между Ultralytics YOLO11новейшей моделью искусственного интеллекта для технического зрения, и YOLOX, новаторским безъякорным детектором от Megvii. В то время как YOLOX внедрил значительные инновации в 2021 году, YOLO11 представляет собой следующее поколение компьютерного зрения, предлагая расширенную универсальность, превосходные показатели производительности и единую экосистему разработки.
Ultralytics YOLO11: новый стандарт в области искусственного интеллекта для зрения
YOLO11 - новейшая флагманская модель знаменитой серии YOLO , выпущенная компанией Ultralytics с целью переопределить возможности компьютерного зрения в реальном времени. Опираясь на наследие своих предшественников, YOLO11 представляет архитектурные усовершенствования, которые значительно повышают возможности извлечения функций и эффективность обработки.
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- Документы:https://docs.ultralytics.com/models/yolo11/
Архитектура и основные возможности
В YOLO11 используется передовая безъякорная архитектура, которая оптимизирует компромисс между вычислительными затратами и точностью обнаружения. В отличие от традиционных моделей, которые полагаются исключительно на регрессию ограничительных рамок, YOLO11 - это многозадачный фреймворк. Он поддерживает широкий спектр задач технического зрения, включая обнаружение объектов, сегментацию объектов, оценку позы, классификацию изображений и обнаружение ориентированных ограничительных рамок (OBB).
Единый API для всех задач
YOLO11 упрощает рабочий процесс разработки, используя единый интерфейс Python для всех поддерживаемых задач. Переключение с обнаружения на сегментацию осуществляется просто - достаточно загрузить другой весовой файл модели (например, yolo11n-seg.pt).
Ключевые преимущества
- Современная производительность: YOLO11 достигает более высоких показателей mAP по сравнению с предыдущими итерациями и конкурентами, используя при этом меньшее количество параметров.
- Широкая универсальность: Возможность выполнять сегментацию, классификацию и оценку позы в рамках одной кодовой базы избавляет от необходимости изучать несколько фреймворков.
- Гибкость развертывания: Модель легко экспортируется в такие форматы, как ONNX, TensorRT, CoreML и TFLite, обеспечивая совместимость с различным оборудованием - от граничных устройств до облачных GPU.
- Дизайн, ориентированный на пользователя: Ориентируясь на простоту использования, разработчики могут обучать, проверять и развертывать модели с минимальным количеством кода.
YOLOX: пионер без якоря
Выпущенный в 2021 году компанией Megvii, YOLOX стал революционным решением в области обнаружения объектов. Он отличался от распространенных в то время подходов, основанных на якорях (например, YOLOv4 и YOLOv5), за счет использования механизма без якорей и раздельной структуры головы.
- Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
- Организация:Megvii
- Дата: 18.07.2021
- Arxiv:https://arxiv.org/abs/2107.08430
- GitHub:https://github.com/Megvii-BaseDetection/YOLOX
- Документы:https://yolox.readthedocs.io/en/latest/
Архитектурные особенности
Отличительной особенностью YOLOX является раздельная голова, разделяющая задачи классификации и регрессии на разные ветви. Такая конструкция в сочетании со стратегией присвоения меток SimOTA позволила достичь высокой производительности без необходимости вручную настраивать гиперпараметры якорного ящика.
Сильные стороны и ограничения
- Безъякорный дизайн: Убрав якоря, YOLOX упростил процесс обучения и улучшил обобщение для различных форм объектов.
- Надежный базовый уровень: Она остается ценным ориентиром для исследований методов обнаружения без якорей.
- Ограниченная область применения: В отличие от YOLO11, YOLOX является в первую очередь детектором объектов и не имеет встроенной поддержки сложных последующих задач, таких как сегментация или оценка позы.
- Фрагментация экосистемы: Несмотря на открытый исходный код, в экосистемеUltralytics отсутствует единый, активно поддерживаемый инструментарий, что часто требует дополнительных ручных усилий для интеграции и развертывания.
Анализ производительности
В следующей таблице представлено прямое сравнение ключевых показателей производительности на наборе данных COCO . YOLO11 демонстрирует явное преимущество в эффективности, обеспечивая значительно более высокую точностьmAP) при сопоставимых или сниженных вычислительных требованиях.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Метрическая разбивка
- Точность (mAP): YOLO11 превосходит YOLOX во всех масштабах модели. Например, YOLO11s достигает 47,0 mAP, превосходя YOLOX-m (46,9 mAP), несмотря на то, что YOLOX-m - более крупный класс моделей с почти в три раза большим количеством FLOP.
- Скорость вывода: YOLO11 оптимизирована для современного аппаратного ускорения. На GPU T4 с использованием TensorRTвремя работы YOLO11n составляет впечатляющие 1,5 мс, что делает его идеальным для высокоскоростных вычислений в реальном времени.
- Эффективность: YOLO11m достигает высокой точности 51,5 mAP , используя всего 20,1M параметров. В отличие от этого, самая большая модель YOLOX-x требует 99,1 М параметров для достижения более низкой точности 51,1 mAP, что подчеркивает архитектурное превосходство YOLO11 в эффективности использования параметров.
Техническое погружение
Методология и экосистема обучения
Одно из самых значительных отличий заключается в обучении и развитии. Ultralytics ставит во главу угла оптимизированный пользовательский опыт, предлагая комплексную экосистему, которая упрощает каждый этап жизненного цикла машинного обучения.
- Простота использования: YOLO11 можно обучить с помощью нескольких строк кода, используя
ultralyticsПакет Python или надежный интерфейс командной строкиCLI). Такая доступность контрастирует с YOLOX, который обычно требует клонирования репозиториев и сложных настроек. - Эффективность обучения: Ultralytics предоставляет высококачественные, предварительно обученные веса, которые ускоряют трансферное обучение. Конвейер обучения высоко оптимизирован и поддерживает такие функции, как автоматическая настройка размера партии и распределенное обучение на нескольких GPU .
- Использование памяти: Модели YOLO11 разработаны таким образом, чтобы не занимать много памяти ни при обучении, ни при выводе. Это важнейшее преимущество по сравнению со старыми архитектурами и тяжелыми моделями на основе трансформаторов, позволяющее YOLO11 работать на аппаратном обеспечении потребительского класса и на устройствах, где память CUDA ограничена.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
Универсальность и применение в реальных условиях
В то время как YOLOX является специализированным детектором объектов, YOLO11 служит комплексной платформой технического зрения.
- Мультимодальные возможности: Разработчики могут решать сложные проблемы, комбинируя задачи. Например, приложение для робототехники может использовать обнаружение объектов для поиска объекта и оценку позы для определения его ориентации для захвата - и все это в рамках одного фреймворка YOLO11 .
- Хорошо поддерживаемая экосистема: Модели Ultralytics пользуются преимуществами активного сообщества и частых обновлений. Такие функции, как Ultralytics HUB, облегчают управление данными, обучение работе с моделями и их развертывание, обеспечивая уровень поддержки, с которым не могут сравниться разрозненные проекты с открытым исходным кодом.
Идеальные варианты использования
Когда стоит выбирать Ultralytics YOLO11
YOLO11 - это рекомендуемый выбор для подавляющего большинства коммерческих и исследовательских приложений благодаря сбалансированности производительности и поддержке экосистемы.
- Edge AI в реальном времени: низкая задержка и высокая эффективность делают его идеальным для развертывания на таких устройствах, как NVIDIA Jetson, Raspberry Pi или мобильные телефоны.
- Сложные системы технического зрения: Проекты, требующие сегментации, отслеживания или оценки положения наряду с обнаружением, выиграют от использования единой структуры.
- Корпоративные решения: Надежность, обширная документация и активное сопровождение обеспечивают стабильную основу для программного обеспечения производственного уровня.
Когда стоит обратить внимание на YOLOX
YOLOX остается актуальным в определенных нишевых сценариях:
- Академические исследования: Исследователи, изучающие специфические эффекты отсоединенных головок в безъякорных детекторах, могут использовать YOLOX в качестве базового сравнения.
- Унаследованные системы: Существующие конвейеры, сильно интегрированные с конкретной кодовой базой YOLOX (например, реализации MegEngine), могут продолжать использовать ее, чтобы избежать затрат на рефакторинг.
Заключение
Хотя YOLOX сыграл решающую роль в популяризации безъякорного обнаружения объектов, Ultralytics YOLO11 представляет собой лучший выбор для современных разработок в области компьютерного зрения.
YOLO11 превосходит YOLOX по всем важнейшим показателям: он более точен, значительно быстрее и гораздо более эффективен по параметрам. Помимо высокой производительности, экосистема Ultralytics предоставляет разработчикам непревзойденную простоту использования, надежную документацию и универсальные многозадачные возможности. YOLO11 предоставляет инструменты и производительность, необходимые для создания передовых решений в области искусственного интеллекта, как для быстрого создания прототипов, так и для крупномасштабного промышленного развертывания.
Сравнения с другими моделями
Изучите, как YOLO11 сравнивается с другими ведущими моделями в этой области: