YOLO11 vs YOLOX: Техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и простоту реализации. На этой странице представлено подробное техническое сравнение Ultralytics YOLO11, новейшей современной модели от Ultralytics, и YOLOX, значимой модели без привязки к якорям от Megvii. Хотя обе модели продвинули область обнаружения объектов в реальном времени, YOLO11 предлагает более комплексное, универсальное и удобное решение, поддерживаемое надежной и активно поддерживаемой экосистемой.
Ultralytics YOLO11: Современная производительность и универсальность
Ultralytics YOLO11 – это новейшая флагманская модель от Ultralytics, разработанная для обеспечения беспрецедентной производительности и гибкости в широком спектре задач компьютерного зрения. Разработанная Гленном Джохером и Цзин Цю, она опирается на успешную основу предыдущих моделей, таких как YOLOv8, и представляет значительные архитектурные усовершенствования для превосходной точности и эффективности.
- Авторы: Гленн Джохер, Цзин Цю
- Организация: Ultralytics
- Дата: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: https://docs.ultralytics.com/models/yolo11/
Архитектура и ключевые особенности
YOLO11 имеет высокооптимизированную, anchor-free архитектуру, которая улучшает извлечение признаков и оптимизирует процесс обнаружения. Такая конструкция обеспечивает лучший компромисс между скоростью и точностью, часто достигая более высоких показателей mAP с меньшим количеством параметров и меньшими вычислительными затратами по сравнению с другими моделями.
Ключевым преимуществом YOLO11 является его универсальность. Это не просто детектор объектов, а комплексная платформа AI для компьютерного зрения, изначально поддерживающая несколько задач, включая сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих прямоугольников (OBB).
Сильные стороны
- Превосходная производительность: Достигает современной точности и скорости, превосходя многих конкурентов при аналогичных размерах моделей.
- Простота использования: Поставляется с простым Python API и CLI, обширной документацией и многочисленными руководствами, которые делают его доступным как для начинающих, так и для экспертов.
- Хорошо поддерживаемая экосистема: Преимущества непрерывной разработки, сильного сообщества на GitHub и Discord, и частых обновлений. Интеграция с такими инструментами, как Ultralytics HUB, обеспечивает бесперебойную работу MLOps.
- Эффективность обучения: Предлагает эффективные процессы обучения с легкодоступными предварительно обученными весами, обеспечивая более быструю сходимость. Также имеет более низкие требования к памяти во время обучения и инференса по сравнению с более сложными архитектурами, такими как трансформеры.
- Универсальность в многозадачности: Единая платформа может использоваться для широкого спектра задач компьютерного зрения, что снижает сложность и время разработки.
- Гибкость развертывания: Оптимизировано для различного оборудования, от периферийных устройств до облачных серверов, с поддержкой многочисленных форматов экспорта, таких как ONNX и TensorRT.
Слабые стороны
- Будучи передовой моделью, более крупные варианты, такие как YOLO11x, могут быть требовательны к вычислительным ресурсам, что требует мощного оборудования для работы в реальном времени.
- Хотя экосистема надежна, некоторые нишевые интеграции сторонних инструментов могут быть более зрелыми для старых, более устоявшихся моделей.
Идеальные варианты использования
Сочетание высокой точности, скорости и универсальности YOLO11 делает ее идеальным выбором для широкого спектра приложений:
- Промышленная автоматизация: Для контроля качества и обнаружения дефектов на производственных линиях.
- Умные города: Поддержка систем управления дорожным движением и систем видеонаблюдения общественной безопасности.
- Здравоохранение: Помощь в анализе медицинских изображений, например, обнаружение опухолей.
- Розница: Улучшение управления запасами и аналитики клиентов.
YOLOX: Подход без использования якорей
YOLOX, разработанный компанией Megvii, стал заметным вкладом в семейство YOLO, представив anchor-free дизайн для упрощения конвейера обнаружения и повышения производительности по сравнению с его предшественниками.
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация: Megvii
- Дата: 18.07.2021
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Документация: https://yolox.readthedocs.io/en/latest/
Архитектура и ключевые особенности
Основные инновации YOLOX включают его детектор без anchor, отделенную голову для классификации и регрессии, а также продвинутую стратегию назначения меток под названием SimOTA. Эти изменения были направлены на создание более оптимизированного и эффективного детектора объектов.
Сильные стороны
- Высокая точность: YOLOX обеспечивает конкурентоспособные показатели mAP, особенно в своих более крупных вариантах модели.
- Простота Anchor-Free (Anchor-Free Simplicity): Благодаря устранению предварительно определенных якорных прямоугольников уменьшается количество гиперпараметров, которые необходимо настраивать, что может улучшить обобщение.
- Устоявшаяся модель: Будучи выпущенной в 2021 году, она имеет сообщество и была адаптирована в различных проектах.
Слабые стороны
- Ограниченная универсальность: YOLOX в основном предназначен для обнаружения объектов. Ему не хватает встроенной поддержки других задач, таких как сегментация, оценка позы и OBB, которые являются стандартными в YOLO11.
- Фрагментированная экосистема: Несмотря на открытый исходный код, отсутствует единая и хорошо поддерживаемая экосистема, которую предоставляет Ultralytics. Пользователям может потребоваться приложить больше усилий для интеграции с инструментами MLOps и для развертывания.
- Пробелы в производительности: Как показано в таблице производительности, модели YOLOX могут быть медленнее и менее точными, чем их аналоги YOLO11. Например, YOLOX-l уступает YOLO11l по mAP, имея при этом значительно больше параметров и FLOPs.
- Производительность CPU: Бенчмарки для инференса на CPU не являются общедоступными, что затрудняет оценку его производительности в сценариях, связанных с CPU, где YOLO11 предоставляет четкие метрики.
Идеальные варианты использования
YOLOX — это отличный выбор для проектов, которым требуются:
- Высокопроизводительное обнаружение объектов: В сценариях, где основной целью является чистая точность обнаружения объектов.
- Базовая модель для исследований: В качестве базовой модели для исследований методов обнаружения без привязки к anchor boxes.
- Промышленные приложения: Для таких задач, как контроль качества, где достаточно специализированного детектора объектов.
Анализ производительности: YOLO11 против YOLOX
Сравнение производительности наглядно демонстрирует достижения Ultralytics YOLO11. Для всех размеров моделей YOLO11 стабильно обеспечивает лучший баланс точности и эффективности.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
- Точность: Модели YOLO11 стабильно достигают более высоких показателей mAP, чем их аналоги YOLOX. Например, YOLO11m достигает 51,5 mAP, значительно превосходя 46,9 mAP у YOLOXm с меньшим количеством параметров.
- Эффективность: YOLO11 демонстрирует превосходную эффективность. YOLO11l достигает 53.4 mAP, используя всего 25.3M параметров, в то время как YOLOXl требует 54.2M параметров для достижения более низкого показателя в 49.7 mAP.
- Скорость: YOLO11 оптимизирована для инференса как на CPU, так и на GPU. Самая маленькая модель, YOLO11n, может похвастаться впечатляющей задержкой в 1,5 мс на GPU T4, что делает ее идеальной для приложений реального времени. Заявленные скорости YOLOX ниже для сопоставимых моделей.
Заключение и рекомендации
Несмотря на то, что YOLOX был важным этапом в разработке обнаружения объектов без привязки к якорям, Ultralytics YOLO11 — явный победитель для разработчиков и исследователей, стремящихся к наилучшему сочетанию производительности, универсальности и удобства использования.
YOLO11 не только превосходит YOLOX по ключевым показателям, таким как точность и эффективность, но и предлагает гораздо более полную и поддерживающую экосистему. Его способность обрабатывать несколько задач компьютерного зрения в рамках единой, простой в использовании структуры делает его более практичным и мощным выбором для создания современных AI-решений. Для любого нового проекта, от быстрого прототипирования до развертывания в масштабах производства, Ultralytics YOLO11 — рекомендуемая модель.
Сравнения с другими моделями
Если вам интересно, как YOLO11 и YOLOX соотносятся с другими моделями, ознакомьтесь со следующими страницами сравнения:
- YOLO11 против YOLOv10
- YOLO11 против YOLOv9
- YOLO11 против YOLOv8
- YOLOv8 против YOLOX
- YOLOv5 против YOLOX
- RT-DETR против YOLOX
- YOLO11 против EfficientDet