YOLOX против YOLO11: Глубокое погружение в высокопроизводительное обнаружение объектов
Эволюция компьютерного зрения в значительной степени обусловлена поиском фреймворков для обнаружения объектов в реальном времени, которые сочетают высокую точность со скоростью инференса. Среди наиболее заметных вех на этом пути — YOLOX и Ultralytics YOLO11. Хотя обе модели внесли значительный вклад в эту область, их базовые архитектуры, философии проектирования и экосистемы разработчиков существенно различаются.
Этот всесторонний технический обзор исследует их архитектуры, метрики производительности, методологии обучения и идеальные сценарии развертывания, чтобы помочь вам принять обоснованное решение для вашего следующего проекта в области искусственного интеллекта.
Обзор YOLOX
Представленный исследователями Чжэн Гэ, Сунтао Лю, Фэн Ваном, Цзэмином Ли и Цзянь Сунем из Megvii 18 июля 2021 года, YOLOX ознаменовал значительный сдвиг в серии YOLO. Он успешно преодолел разрыв между академическими исследованиями и промышленными приложениями, представив безанкерную архитектуру.
Для более глубокого технического понимания вы можете ознакомиться с оригинальной статьей YOLOX на Arxiv.
Ключевые архитектурные особенности
YOLOX отошел от традиционного анкерного обнаружения, приняв разделенную головку и безанкерный механизм. Эта конструкция сократила количество проектных параметров и улучшила производительность модели на различных бенчмарках. Кроме того, он представил передовые стратегии назначения меток, такие как SimOTA, для ускорения процесса обучения и улучшения сходимости.
Хотя YOLOX предлагал отличную точность для своего времени, он в основном сосредоточен на обнаружении объектов с ограничивающими рамками и не имеет встроенной поддержки других сложных задач компьютерного зрения из коробки.
Дизайн без якорей
Устранение предопределённых якорных боксов в YOLOX значительно сократило эвристическую настройку, необходимую для различных наборов данных, что делает его надёжной основой для исследований в области безанкерных методологий.
Обзор Ultralytics YOLO11
Выпущенный 27 сентября 2024 года Гленном Джочером и Цзин Цю из Ultralytics, YOLO11 — это передовая модель, которая переосмысливает универсальность и простоту использования в компьютерном зрении. Основанная на многолетних фундаментальных исследованиях, она предлагает высококачественное, готовое к производству решение, превосходно справляющееся с множеством задач.
Преимущество Ultralytics
YOLO11 — это не просто детектор объектов; это унифицированный фреймворк, поддерживающий сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих рамок (OBB). Он может похвастаться высокоэффективной архитектурой, которая обеспечивает идеальный баланс между скоростью, количеством параметров и точностью.
Кроме того, YOLO11 полностью интегрирован в платформу Ultralytics, которая предоставляет оптимизированную экосистему для аннотации данных, обучения моделей и развертывания.
Сравнение производительности и метрик
При сравнении этих моделей становится очевиден баланс производительности. YOLO11 достигает более высокой средней точности (mAP) при значительно меньшем количестве параметров и FLOPs в большинстве категорий размеров по сравнению с его аналогами YOLOX.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Как показано, модели YOLO11 стабильно превосходят YOLOX по точности, при этом сохраняя более компактный объем параметров. Например, YOLO11m достигает 51.5 mAP всего с 20.1M параметров, в то время как YOLOXx достигает аналогичного 51.1 mAP, но требует огромных 99.1M параметров. Эта эффективность использования памяти во время обучения и инференции делает YOLO11 очень подходящим для развертывания на граничных устройствах ИИ, избегая высоких требований к памяти CUDA, характерных для старых или трансформерных моделей, таких как RT-DETR.
Эффективное обучение
Модели Ultralytics требуют значительно меньше памяти GPU во время обучения по сравнению с YOLOX и архитектурами на основе трансформеров, что позволяет исследователям обучать мощные модели на стандартном потребительском оборудовании.
Экосистема и простота использования
Одно из наиболее поразительных различий между двумя фреймворками — это опыт разработчика.
YOLOX часто требует клонирования репозиториев, настройки сложных сред и запуска подробных аргументов командной строки для обучения и экспорта моделей в форматы, такие как ONNX или TensorRT.
В отличие от этого, Ultralytics YOLO11 предлагает невероятно простой Python API и CLI. Библиотека Ultralytics автоматически выполняет аугментацию данных, настройку гиперпараметров и экспорт.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")
Эта хорошо поддерживаемая экосистема подкреплена обширной документацией и бесшовной интеграцией с такими инструментами, как Weights & Biases, для отслеживания экспериментов.
Идеальные варианты использования
Выбор между этими моделями часто зависит от специфики среды развертывания.
Когда использовать YOLOX.
- Устаревшие системы: Если у вас есть устоявшийся конвейер, явно построенный на базе фреймворка MegEngine или парадигм обнаружения объектов начала 2021 года.
- Academic Baselines: При проведении исследований, требующих прямого сравнения с фундаментальными безанкерными архитектурами эпохи 2021 года.
Когда использовать YOLO11
- Промышленные развертывания: Для коммерческих приложений в умной розничной торговле или системах охранной сигнализации, где надежный, поддерживаемый код и высокая точность являются не подлежащими обсуждению.
- Многозадачные конвейеры: Когда проект требует отслеживания объектов, оценки поз людей и сегментации экземпляров с использованием единого унифицированного фреймворка.
- Ограниченные по ресурсам периферийные устройства: Благодаря низкому количеству параметров и высокой пропускной способности, YOLO11 идеально подходит для развертывания на Raspberry Pi или мобильных периферийных узлах через CoreML и NCNN.
Взгляд в будущее: Преимущество YOLO26
Хотя YOLO11 представляет собой огромный скачок по сравнению с YOLOX, область компьютерного зрения быстро развивается. Для разработчиков, начинающих новые проекты сегодня, Ultralytics YOLO26 является окончательной рекомендацией.
Выпущенный в январе 2026 года, YOLO26 берет архитектурное великолепие YOLO11 и представляет несколько новаторских функций:
- Сквозная архитектура без NMS: YOLO26 исключает постобработку Non-Maximum Suppression (NMS), изначально обеспечивая потоковый инференс для более быстрых и простых конвейеров развертывания (концепция, впервые исследованная в YOLOv10).
- До 43% более быстрый инференс на CPU: Благодаря удалению Distribution Focal Loss (DFL) YOLO26 значительно более эффективен на CPU и маломощных периферийных устройствах.
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM от Moonshot AI, оптимизатор MuSGD обеспечивает высокостабильные циклы обучения и быструю сходимость.
- Расширенные функции потерь: Используя ProgLoss + STAL, YOLO26 достигает заметных улучшений в распознавании мелких объектов, что критически важно для съемки с дронов и автономной робототехники.
Для подавляющего большинства современных задач компьютерного зрения обновление вашего конвейера для использования YOLO26 обеспечит наилучший баланс скорости, точности и простоты развертывания.