YOLO11 vs YOLOX: Всестороннее техническое сравнение

Выбор оптимальной модели для detectирования объектов является ключевым решением для разработчиков и исследователей, стремящихся сбалансировать точность, скорость inference и простоту развертывания. Этот технический анализ представляет собой углубленное сравнение между Ultralytics YOLO11, новейшей современной моделью искусственного интеллекта для зрения, и YOLOX, новаторским детектором без привязки к якорям от Megvii. В то время как YOLOX представила значительные инновации в 2021 году, YOLO11 представляет собой следующее поколение компьютерного зрения, предлагая расширенную универсальность, превосходные показатели производительности и унифицированную экосистему разработки.

Ultralytics YOLO11: Новый стандарт в Vision AI

YOLO11 — это новейшая флагманская модель в знаменитой серии YOLO, выпущенная Ultralytics, чтобы переосмыслить возможности компьютерного зрения в реальном времени. Основываясь на наследии своих предшественников, YOLO11 представляет архитектурные усовершенствования, которые значительно повышают возможности извлечения признаков и эффективность обработки.

Авторы: Гленн Джохер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

Архитектура и основные возможности

YOLO11 использует передовую архитектуру без привязки к якорям, которая оптимизирует компромисс между вычислительными затратами и точностью detect. В отличие от традиционных моделей, которые полагаются исключительно на регрессию ограничивающих рамок, YOLO11 является многозадачной средой. Она изначально поддерживает широкий спектр задач компьютерного зрения, включая detect объектов, segment экземпляров, оценку позы, классификацию изображений и detect ориентированных ограничивающих рамок (obb).

Унифицированный API для всех задач

YOLO11 упрощает рабочий процесс разработки, используя единый интерфейс python для всех поддерживаемых задач. Переключение с detect на segment так же просто, как загрузка другого файла весов модели (например, yolo11n-seg.pt).

Основные преимущества

Современная производительность: YOLO11 достигает более высоких показателей mAP по сравнению с предыдущими итерациями и конкурентами, используя при этом меньшее количество параметров.
Broad Versatility: Возможность выполнять segment, классификацию и оценку позы в рамках одной кодовой базы устраняет необходимость изучения нескольких фреймворков.
Гибкость развертывания: Модель легко экспортируется в такие форматы, как ONNX, TensorRT, CoreML и TFLite, обеспечивая совместимость с различным оборудованием, от периферийных устройств до облачных GPU.
Дизайн, ориентированный на пользователя: Благодаря акценту на простоте использования, разработчики могут обучать, проверять и развертывать модели с минимальным количеством кода.

Узнайте больше о YOLO11

YOLOX: пионер Anchor-Free

YOLOX, выпущенная Megvii в 2021 году, стала преобразующим событием в области detectирования объектов. Она отошла от подходов, основанных на якорях (anchor-based), распространенных в то время (таких как YOLOv4 и YOLOv5), приняв механизм, свободный от якорей (anchor-free), и структуру разделенной головы.

Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
Организация:Megvii
Дата: 18.07.2021
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
Документация:https://yolox.readthedocs.io/en/latest/

Архитектурные особенности

YOLOX отличается decoupled head, разделяющей задачи классификации и регрессии на разные ветви. Эта конструкция в сочетании со стратегией назначения меток SimOTA позволила добиться высокой производительности без сложной ручной настройки гиперпараметров anchor box.

Сильные стороны и ограничения

Дизайн без Anchor: Удалив anchor, YOLOX упростил конвейер обучения и улучшил обобщение для различных форм объектов.
Надежная отправная точка: Он остается ценным ориентиром для исследований методов обнаружения без привязки к якорям.
Ограниченная область применения: В отличие от YOLO11, YOLOX — это в первую очередь детектор объектов, и ему не хватает встроенной поддержки сложных задач, таких как segment или оценка позы.
Фрагментация экосистемы: Будучи открытым исходным кодом, ему не хватает унифицированного, активно поддерживаемого инструментария, который есть в экосистеме Ultralytics, что часто требует больше ручных усилий для интеграции и развертывания.

Узнайте больше о YOLOX

Анализ производительности

В следующей таблице представлено прямое сравнение ключевых показателей производительности на наборе данных COCO. YOLO11 демонстрирует явное преимущество в эффективности, обеспечивая значительно более высокую точность (mAP) при сопоставимых или уменьшенных вычислительных требованиях.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Разбивка по метрикам

Точность (mAP): YOLO11 превосходит YOLOX по всем масштабам моделей. Например, YOLO11s достигает 47,0 mAP, превосходя YOLOX-m (46,9 mAP), несмотря на то, что YOLOX-m является более крупным классом моделей с почти в 3 раза большим количеством FLOPs.
Скорость инференса: YOLO11 оптимизирован для современного аппаратного ускорения. На GPU T4 с использованием TensorRT, YOLO11n показывает впечатляющие 1,5 мс, что делает его идеальным для высокоскоростного инференса в реальном времени.
Эффективность: YOLO11m достигает высокой точности 51,5 mAP, имея всего 20,1M параметров. В отличие от этого, крупнейшая модель YOLOX-x требует 99,1M параметров для достижения более низкого показателя 51,1 mAP, что подчеркивает архитектурное превосходство YOLO11 в эффективности использования параметров.

Глубокий технический анализ

Методология обучения и экосистема

Одно из наиболее существенных различий заключается в опыте обучения и разработки. Ultralytics отдает приоритет оптимизированному пользовательскому интерфейсу, предлагая комплексную экосистему, которая упрощает каждый этап жизненного цикла машинного обучения.

Простота использования: YOLO11 можно обучить с помощью нескольких строк кода, используя ultralytics Python пакет или надежный интерфейс командной строки (CLI). Эта доступность контрастирует с YOLOX, который обычно требует клонирования репозиториев и сложной настройки.
Эффективность обучения: Ultralytics предоставляет высококачественные предварительно обученные веса, которые ускоряют трансферное обучение. Конвейер обучения хорошо оптимизирован, поддерживает такие функции, как автоматическая настройка размера пакета и распределенное обучение на нескольких GPU из коробки.
Использование памяти: Модели YOLO11 разработаны для эффективного использования памяти как во время обучения, так и во время инференса. Это является решающим преимуществом перед старыми архитектурами и тяжелыми моделями на основе transformer, позволяя YOLO11 работать на оборудовании потребительского класса и периферийных устройствах, где память CUDA ограничена.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Универсальность и применение в реальных условиях

В то время как YOLOX является специализированным detectором объектов, YOLO11 служит комплексной платформой vision.

Возможности Multi-Modal: Разработчики могут решать сложные задачи, объединяя задачи. Например, в робототехнике можно использовать object detection для поиска объекта и оценку позы, чтобы определить его ориентацию для захвата — и все это в рамках единой платформы YOLO11.
Хорошо поддерживаемая экосистема: Модели Ultralytics выигрывают от активного сообщества и частых обновлений. Такие функции, как Ultralytics HUB, облегчают управление данными, обучение моделей и развертывание, обеспечивая уровень поддержки, который не могут обеспечить разрозненные проекты с открытым исходным кодом.

Идеальные варианты использования

Когда стоит выбирать Ultralytics YOLO11

YOLO11 — это рекомендуемый выбор для подавляющего большинства коммерческих и исследовательских приложений благодаря балансу производительности и поддержке экосистемы.

Edge AI в реальном времени: Низкая задержка и высокая эффективность делают его идеальным для развертывания на таких устройствах, как NVIDIA Jetson, Raspberry Pi или мобильные телефоны.
Сложные системы машинного зрения: Проекты, требующие segment, отслеживания или оценки позы наряду с detect, выиграют от унифицированной структуры.
Корпоративные решения: Надежность, обширная документация и активное обслуживание обеспечивают стабильную основу для программного обеспечения производственного уровня.

Когда следует рассмотреть YOLOX

YOLOX остается актуальным в определенных нишевых сценариях:

Академические исследования: Исследователи, изучающие конкретные эффекты разделенных голов в детекторах без anchor, могут использовать YOLOX в качестве базового сравнения.
Устаревшие системы: Существующие конвейеры, тесно интегрированные с конкретной кодовой базой YOLOX (например, реализациями MegEngine), могут продолжать использовать ее, чтобы избежать затрат на рефакторинг.

Заключение

В то время как YOLOX сыграла решающую роль в популяризации detectирования объектов без anchor, Ultralytics YOLO11 представляет собой превосходный выбор для современной разработки компьютерного зрения.

YOLO11 превосходит YOLOX по всем критическим показателям: она более точная, значительно быстрее и гораздо эффективнее с точки зрения параметров. Помимо чистой производительности, экосистема Ultralytics предоставляет разработчикам непревзойденную простоту использования, надежную документацию и универсальные многозадачные возможности. Будь то быстрое прототипирование или крупномасштабное промышленное развертывание, YOLO11 предоставляет инструменты и производительность, необходимые для создания передовых решений в области искусственного интеллекта.

Сравнения с другими моделями

Узнайте, как YOLO11 сравнивается с другими ведущими моделями в этой области: