Перейти к содержанию

YOLOX против YOLO11: глубокий технический анализ эволюции object detection

Выбор оптимальной архитектуры для detectирования объектов имеет решающее значение для разработчиков, стремящихся сбалансировать точность, задержку и вычислительную эффективность. Этот всесторонний анализ сравнивает YOLOX, новаторскую модель без привязки к якорям от Megvii, и Ultralytics YOLO11, последнюю современную итерацию от Ultralytics. В то время как YOLOX представила значительные инновации в 2021 году, YOLO11 представляет собой передовой уровень компьютерного зрения в 2024 году, предлагая унифицированную структуру для различных задач, начиная от detectирования и заканчивая сегментацией экземпляров.

YOLOX: Наведение мостов между исследованиями и промышленностью

Выпущенный в 2021 году, YOLOX ознаменовал собой значительный сдвиг в семействе YOLO , приняв безъякорный механизм и отсоединив предсказательную головку. Он был разработан для преодоления разрыва между академическими исследованиями и промышленным применением.

Архитектура и инновации

YOLOX отошел от предыдущих итераций, таких как YOLOv5, отказавшись от anchor boxes, что уменьшило сложность проектирования и количество эвристических гиперпараметров. Его архитектура включает в себя decoupled head, разделяющую задачи классификации и регрессии на разные ветви, что улучшило скорость сходимости и точность. Кроме того, он представил SimOTA — продвинутую стратегию назначения меток, которая динамически назначает положительные примеры, что еще больше повышает производительность.

Сильные и слабые стороны

Преимущества:

  • Дизайн без Anchor: Устраняет необходимость в ручной кластеризации anchor box, упрощая конвейер обучения.
  • Разделенная голова (Decoupled Head): Повышает точность локализации за счет независимой оптимизации классификации и регрессии.
  • Базовая линия для исследований: Служит надежной отправной точкой для изучения детекторов без привязки к якорям.

Слабые стороны:

  • Ограниченная поддержка задач: В первую очередь ориентирован на object detection, отсутствует встроенная поддержка segment, оценки позы или ориентированных ограничивающих рамок (OBB).
  • Фрагментированная экосистема: Отсутствует унифицированный, активно поддерживаемый набор инструментов для развертывания, track и MLOps по сравнению с современными фреймворками.
  • Более низкая эффективность: Как правило, требует больше параметров и FLOPs для достижения сопоставимой точности с более новыми моделями, такими как YOLO11.

Узнайте больше о YOLOX

Ultralytics YOLO11: Новый стандарт для Vision AI

Ultralytics YOLO11 совершенствует наследие object detection в реальном времени, уделяя особое внимание эффективности, гибкости и простоте использования. Она разработана как оптимальное решение как для быстрого прототипирования, так и для крупномасштабных производственных развертываний.

Архитектура и преимущества экосистемы

YOLO11 использует высокооптимизированную архитектуру без привязки к якорям, которая улучшает извлечение признаков, минимизируя при этом вычислительные затраты. В отличие от YOLOX, YOLO11 — это не просто модель, а часть комплексной экосистемы. Она поддерживает широкий спектр задач компьютерного зрения—включая классификацию, segment, оценку позы и track—в рамках единого, удобного API.

Интегрированный MLOps

YOLO11 легко интегрируется с Ultralytics HUB и сторонними инструментами, такими как Weights & Biases и Comet, что позволяет вам визуализировать эксперименты и легко управлять наборами данных.

Почему стоит выбрать YOLO11?

  • Универсальность: Единый фреймворк для object detection, сегментации экземпляров, оценки позы и классификации изображений.
  • Простота использования: Оптимизированный Python API и CLI позволяют разработчикам обучать и развертывать модели всего в несколько строк кода.
  • Баланс производительности: Достигает превосходного mAP с более высокой скоростью инференса как на CPU, так и на GPU по сравнению с предшественниками и конкурентами.
  • Эффективность памяти: Разработан с более низкими требованиями к памяти во время обучения и инференса, что делает его более доступным, чем модели на основе трансформеров, такие как RT-DETR.
  • Готовность к развертыванию: Встроенная поддержка экспорта в такие форматы, как ONNX, TensorRT, CoreML и TFLite, обеспечивает совместимость с различным оборудованием, от NVIDIA Jetson до мобильных устройств.

Узнайте больше о YOLO11

Анализ производительности

В таблице ниже показаны различия в производительности между YOLOX и YOLO11. YOLO11 стабильно демонстрирует более высокую точность (mAP) с меньшим количеством параметров и FLOPs, что приводит к более высокой скорости вывода.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Основные выводы

  1. Превосходство в эффективности: Модели YOLO11 обеспечивают значительно лучший компромисс между скоростью и точностью. Например, YOLO11m достигает 51.5 mAP всего с 20.1M параметрами, превосходя массивную YOLOX-x (51.1 mAP, 99.1M параметров), будучи примерно в 5 раз меньше.
  2. Скорость инференса: На T4 GPU с использованием TensorRT, YOLO11n показывает 1,5 мс, что делает его исключительным выбором для приложений инференса в реальном времени, где задержка имеет решающее значение.
  3. Производительность CPU: Ultralytics предоставляет прозрачные тесты производительности CPU, демонстрируя пригодность YOLO11 для развертывания на устройствах без выделенных ускорителей.
  4. Эффективность обучения: Архитектура YOLO11 обеспечивает более быструю сходимость во время обучения, экономя ценное время вычислений и ресурсы.

Приложения в реальном мире

Где превосходит YOLO11

  • Умные города: Благодаря своей высокой скорости и точности, YOLO11 идеально подходит для систем управления трафиком и мониторинга безопасности пешеходов.
  • Производство: Возможность выполнять segmentation и obb detect делает его идеальным для контроля качества и обнаружения дефектов в ориентированных деталях на сборочных линиях.
  • Здравоохранение: Высокая точность при эффективном использовании ресурсов позволяет проводить анализ медицинских изображений на периферийных устройствах в клинических условиях.

Где используется YOLOX

  • Устаревшие системы: Проекты, созданные примерно в 2021-2022 годах, которые еще не перешли на новые архитектуры.
  • Академические исследования: Исследования, конкретно изучающие эффекты разделенных голов или механизмов без anchor в изоляции.

Пользовательский опыт и сравнение кода

Ultralytics уделяет первостепенное внимание оптимизации пользовательского опыта. В то время как YOLOX часто требует сложных файлов конфигурации и ручной настройки, YOLO11 можно использовать с минимальным количеством кода.

Использование Ultralytics YOLO11

Разработчики могут загрузить предварительно обученную модель, запустить вывод и даже обучить ее на пользовательских данных с помощью нескольких строк Python:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Простота обучения

Обучение модели YOLO11 на пользовательском наборе данных так же просто. Библиотека автоматически обрабатывает увеличение данных, настройку гиперпараметров и ведение журнала.

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Заключение

В то время как YOLOX сыграла ключевую роль в популяризации detectирования объектов без anchor, Ultralytics YOLO11 представляет собой превосходный выбор для современной разработки AI.

YOLO11 превосходит YOLOX по точности, скорости и эффективности, предлагая при этом надежную, хорошо поддерживаемую экосистему. Ее универсальность в решении различных задач компьютерного зрения, устраняющая необходимость использовать разные библиотеки для detect, segment и оценки позы, значительно снижает сложность разработки. Для разработчиков, ищущих перспективное, высокопроизводительное решение, поддерживаемое активным сообществом и всесторонней документацией, YOLO11 является рекомендуемым путем развития.

Узнать больше моделей

Узнайте, как YOLO11 сравнивается с другими ведущими архитектурами, чтобы найти лучший вариант для ваших конкретных потребностей:


Комментарии