YOLOX против YOLO11: подробный разбор высокопроизводительного детектирования объектов
Эволюция компьютерного зрения в значительной степени определяется стремлением к созданию фреймворков для обнаружения объектов в реальном времени, которые обеспечивают баланс между высокой точностью и скоростью логического вывода (inference). Среди наиболее значимых вех на этом пути — YOLOX и Ultralytics YOLO11. Хотя обе модели внесли существенный вклад в эту область, их базовые архитектуры, принципы проектирования и экосистемы для разработчиков существенно различаются.
В этом всестороннем техническом сравнении исследуются их архитектуры, показатели производительности, методологии обучения и оптимальные сценарии развертывания, чтобы помочь тебе принять обоснованное решение для твоего следующего проекта в области искусственного интеллекта.
Обзор YOLOX
Представленный исследователями Чжэн Гэ, Сунтао Лю, Фэн Ваном, Земином Ли и Цзянь Сунем в Megvii 18 июля 2021 года, YOLOX ознаменовал значительный сдвиг в серии YOLO. Он успешно преодолел разрыв между академическими исследованиями и промышленным применением, внедрив безъякорный (anchor-free) дизайн.
Более подробную техническую информацию можно найти в оригинальной статье YOLOX на Arxiv.
Ключевые архитектурные особенности
YOLOX отошел от традиционного детектирования на основе якорей (anchor-based), внедрив разделенную «голову» (decoupled head) и безъякорный механизм. Такой дизайн уменьшил количество параметров проектирования и улучшил производительность модели в различных бенчмарках. Кроме того, для ускорения процесса обучения и улучшения сходимости были внедрены передовые стратегии назначения меток, такие как SimOTA.
Хотя YOLOX обеспечивает отличную для своего времени точность, он в основном фокусируется на обнаружении объектов в ограничивающих рамках (bounding boxes) и не имеет встроенной поддержки других сложных задач компьютерного зрения «из коробки».
За счет устранения предопределенных якорных рамок (anchor boxes), YOLOX радикально сократил необходимость в эвристической настройке для различных наборов данных, став мощной базовой моделью для исследований безъякорных методологий.
Обзор Ultralytics YOLO11
Выпущенная 27 сентября 2024 года Гленном Джочером и Цзин Цю в Ultralytics, YOLO11 является передовой моделью, переосмысливающей универсальность и простоту использования в компьютерном зрении. Построенная на основе многолетних фундаментальных исследований, она представляет собой высококлассное решение, готовое к промышленному внедрению и отлично справляющееся с множеством задач.
Преимущество Ultralytics
YOLO11 — это не просто детектор объектов; это унифицированный фреймворк, поддерживающий сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение с помощью ориентированных ограничивающих рамок (OBB). Модель обладает высокоэффективной архитектурой, в которой приоритет отдается плавному балансу между скоростью, количеством параметров и точностью.
Более того, YOLO11 полностью интегрирована в платформу Ultralytics, которая предоставляет оптимизированную экосистему для разметки данных, обучения моделей и развертывания.
Сравнение производительности и метрик
При сравнении этих моделей баланс производительности становится очевидным. В большинстве категорий размеров YOLO11 достигает более высокой средней точности (mAP) при значительно меньшем количестве параметров и FLOPs по сравнению со своими аналогами из серии YOLOX.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Как показано, модели YOLO11 стабильно превосходят YOLOX по точности, сохраняя при этом меньший объем параметров. Например, YOLO11m достигает 51.5 mAP при всего лишь 20.1 млн параметров, в то время как YOLOXx достигает аналогичных 51.1 mAP, но требует огромных 99.1 млн параметров. Такая эффективность использования памяти во время обучения и вывода делает YOLO11 идеальным решением для развертывания на периферийных устройствах (edge AI), позволяя избежать высоких требований к памяти CUDA, типичных для устаревших или основанных на Transformer моделей, таких как RT-DETR.
Модели Ultralytics требуют значительно меньше памяти GPU во время обучения по сравнению с YOLOX и архитектурами на базе Transformer, что позволяет исследователям обучать мощные модели на стандартном потребительском оборудовании.
Экосистема и простота использования
Одно из наиболее заметных различий между двумя фреймворками — это опыт разработчика.
YOLOX часто требует клонирования репозиториев, настройки сложных сред и выполнения громоздких командных аргументов для обучения и экспорта моделей в такие форматы, как ONNX или TensorRT.
В резком контрасте с этим, Ultralytics YOLO11 предлагает невероятно простой Python API и CLI. Библиотека Ultralytics автоматически обрабатывает аугментацию данных, настройку гиперпараметров и экспорт.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")Эта поддерживаемая экосистема подкреплена обширной документацией и бесшовной интеграцией с такими инструментами, как Weights & Biases для отслеживания экспериментов.
Идеальные сценарии использования
Выбор между этими моделями часто зависит от особенностей среды развертывания.
Когда использовать YOLOX
- Устаревшие системы: Если у тебя есть отлаженный конвейер, явно построенный на фреймворке MegEngine или парадигмах обнаружения объектов начала 2021 года.
- Академические базы: Когда ты проводишь исследования, требующие прямого сравнения производительности с фундаментальными безъякорными архитектурами эпохи 2021 года.
Когда использовать YOLO11
- Производственное развертывание: Для коммерческих приложений в умной розничной торговле или системах охранной сигнализации, где надежный, поддерживаемый код и высокая точность являются обязательными требованиями.
- Многозадачные конвейеры: Когда проекту требуется отслеживание объектов, оценка позы человека и сегментация экземпляров с использованием одного унифицированного фреймворка.
- Периферийные устройства с ограниченными ресурсами: Благодаря низкому количеству параметров и высокой пропускной способности, YOLO11 идеально подходит для развертывания на Raspberry Pi или мобильных узлах через CoreML и NCNN.
Взгляд в будущее: преимущество YOLO26
Хотя YOLO11 представляет собой огромный скачок по сравнению с YOLOX, область компьютерного зрения быстро развивается. Разработчикам, начинающим новые проекты сегодня, мы однозначно рекомендуем Ultralytics YOLO26.
Выпущенная в январе 2026 года, YOLO26 берет архитектурные достижения YOLO11 и внедряет несколько революционных функций:
- Сквозной (End-to-End) дизайн без NMS: YOLO26 исключает постпроцессинг NMS, обеспечивая потоковую передачу вывода для более быстрого и простого конвейера развертывания (концепция, впервые исследованная в YOLOv10).
- До 43% быстрее вывод на CPU: За счет удаления функции Distribution Focal Loss (DFL), YOLO26 значительно эффективнее работает на CPU и маломощных периферийных устройствах.
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM от Moonshot AI, оптимизатор MuSGD обеспечивает стабильность обучения и быструю сходимость.
- Продвинутые функции потерь: Используя ProgLoss + STAL, YOLO26 достигает заметных улучшений в распознавании мелких объектов, что критически важно для съемки с дронов и автономной робототехники.
Для подавляющего большинства современных задач компьютерного зрения обновление твоего конвейера с использованием YOLO26 обеспечит наилучший баланс скорости, точности и простоты развертывания.