YOLOX против YOLO11: подробный разбор высокопроизводительного детектирования объектов

Эволюция компьютерного зрения в значительной степени определяется стремлением к созданию фреймворков для обнаружения объектов в реальном времени, которые обеспечивают баланс между высокой точностью и скоростью логического вывода (inference). Среди наиболее значимых вех на этом пути — YOLOX и Ultralytics YOLO11. Хотя обе модели внесли существенный вклад в эту область, их базовые архитектуры, принципы проектирования и экосистемы для разработчиков существенно различаются.

В этом всестороннем техническом сравнении исследуются их архитектуры, показатели производительности, методологии обучения и оптимальные сценарии развертывания, чтобы помочь тебе принять обоснованное решение для твоего следующего проекта в области искусственного интеллекта.

Обзор YOLOX

Представленный исследователями Чжэн Гэ, Сунтао Лю, Фэн Ваном, Земином Ли и Цзянь Сунем в Megvii 18 июля 2021 года, YOLOX ознаменовал значительный сдвиг в серии YOLO. Он успешно преодолел разрыв между академическими исследованиями и промышленным применением, внедрив безъякорный (anchor-free) дизайн.

Более подробную техническую информацию можно найти в оригинальной статье YOLOX на Arxiv.

Ключевые архитектурные особенности

YOLOX отошел от традиционного детектирования на основе якорей (anchor-based), внедрив разделенную «голову» (decoupled head) и безъякорный механизм. Такой дизайн уменьшил количество параметров проектирования и улучшил производительность модели в различных бенчмарках. Кроме того, для ускорения процесса обучения и улучшения сходимости были внедрены передовые стратегии назначения меток, такие как SimOTA.

Хотя YOLOX обеспечивает отличную для своего времени точность, он в основном фокусируется на обнаружении объектов в ограничивающих рамках (bounding boxes) и не имеет встроенной поддержки других сложных задач компьютерного зрения «из коробки».

Узнай больше о YOLOX

Безъякорный (anchor-free) дизайн

За счет устранения предопределенных якорных рамок (anchor boxes), YOLOX радикально сократил необходимость в эвристической настройке для различных наборов данных, став мощной базовой моделью для исследований безъякорных методологий.

Обзор Ultralytics YOLO11

Выпущенная 27 сентября 2024 года Гленном Джочером и Цзин Цю в Ultralytics, YOLO11 является передовой моделью, переосмысливающей универсальность и простоту использования в компьютерном зрении. Построенная на основе многолетних фундаментальных исследований, она представляет собой высококлассное решение, готовое к промышленному внедрению и отлично справляющееся с множеством задач.

Преимущество Ultralytics

YOLO11 — это не просто детектор объектов; это унифицированный фреймворк, поддерживающий сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение с помощью ориентированных ограничивающих рамок (OBB). Модель обладает высокоэффективной архитектурой, в которой приоритет отдается плавному балансу между скоростью, количеством параметров и точностью.

Более того, YOLO11 полностью интегрирована в платформу Ultralytics, которая предоставляет оптимизированную экосистему для разметки данных, обучения моделей и развертывания.

Узнай больше о YOLO11

Сравнение производительности и метрик

При сравнении этих моделей баланс производительности становится очевидным. В большинстве категорий размеров YOLO11 достигает более высокой средней точности (mAP) при значительно меньшем количестве параметров и FLOPs по сравнению со своими аналогами из серии YOLOX.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Как показано, модели YOLO11 стабильно превосходят YOLOX по точности, сохраняя при этом меньший объем параметров. Например, YOLO11m достигает 51.5 mAP при всего лишь 20.1 млн параметров, в то время как YOLOXx достигает аналогичных 51.1 mAP, но требует огромных 99.1 млн параметров. Такая эффективность использования памяти во время обучения и вывода делает YOLO11 идеальным решением для развертывания на периферийных устройствах (edge AI), позволяя избежать высоких требований к памяти CUDA, типичных для устаревших или основанных на Transformer моделей, таких как RT-DETR.

Эффективное обучение

Модели Ultralytics требуют значительно меньше памяти GPU во время обучения по сравнению с YOLOX и архитектурами на базе Transformer, что позволяет исследователям обучать мощные модели на стандартном потребительском оборудовании.

Экосистема и простота использования

Одно из наиболее заметных различий между двумя фреймворками — это опыт разработчика.

YOLOX часто требует клонирования репозиториев, настройки сложных сред и выполнения громоздких командных аргументов для обучения и экспорта моделей в такие форматы, как ONNX или TensorRT.

В резком контрасте с этим, Ultralytics YOLO11 предлагает невероятно простой Python API и CLI. Библиотека Ultralytics автоматически обрабатывает аугментацию данных, настройку гиперпараметров и экспорт.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

Эта поддерживаемая экосистема подкреплена обширной документацией и бесшовной интеграцией с такими инструментами, как Weights & Biases для отслеживания экспериментов.

Идеальные сценарии использования

Выбор между этими моделями часто зависит от особенностей среды развертывания.

Когда использовать YOLOX

  • Устаревшие системы: Если у тебя есть отлаженный конвейер, явно построенный на фреймворке MegEngine или парадигмах обнаружения объектов начала 2021 года.
  • Академические базы: Когда ты проводишь исследования, требующие прямого сравнения производительности с фундаментальными безъякорными архитектурами эпохи 2021 года.

Когда использовать YOLO11

  • Производственное развертывание: Для коммерческих приложений в умной розничной торговле или системах охранной сигнализации, где надежный, поддерживаемый код и высокая точность являются обязательными требованиями.
  • Многозадачные конвейеры: Когда проекту требуется отслеживание объектов, оценка позы человека и сегментация экземпляров с использованием одного унифицированного фреймворка.
  • Периферийные устройства с ограниченными ресурсами: Благодаря низкому количеству параметров и высокой пропускной способности, YOLO11 идеально подходит для развертывания на Raspberry Pi или мобильных узлах через CoreML и NCNN.

Взгляд в будущее: преимущество YOLO26

Хотя YOLO11 представляет собой огромный скачок по сравнению с YOLOX, область компьютерного зрения быстро развивается. Разработчикам, начинающим новые проекты сегодня, мы однозначно рекомендуем Ultralytics YOLO26.

Выпущенная в январе 2026 года, YOLO26 берет архитектурные достижения YOLO11 и внедряет несколько революционных функций:

  • Сквозной (End-to-End) дизайн без NMS: YOLO26 исключает постпроцессинг NMS, обеспечивая потоковую передачу вывода для более быстрого и простого конвейера развертывания (концепция, впервые исследованная в YOLOv10).
  • До 43% быстрее вывод на CPU: За счет удаления функции Distribution Focal Loss (DFL), YOLO26 значительно эффективнее работает на CPU и маломощных периферийных устройствах.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM от Moonshot AI, оптимизатор MuSGD обеспечивает стабильность обучения и быструю сходимость.
  • Продвинутые функции потерь: Используя ProgLoss + STAL, YOLO26 достигает заметных улучшений в распознавании мелких объектов, что критически важно для съемки с дронов и автономной робототехники.

Для подавляющего большинства современных задач компьютерного зрения обновление твоего конвейера с использованием YOLO26 обеспечит наилучший баланс скорости, точности и простоты развертывания.

Комментарии