Перейти к содержанию

YOLOX против YOLO11: Глубокое погружение в высокопроизводительное обнаружение объектов

Эволюция компьютерного зрения в значительной степени обусловлена поиском фреймворков для обнаружения объектов в реальном времени, которые сочетают высокую точность со скоростью инференса. Среди наиболее заметных вех на этом пути — YOLOX и Ultralytics YOLO11. Хотя обе модели внесли значительный вклад в эту область, их базовые архитектуры, философии проектирования и экосистемы разработчиков существенно различаются.

Этот всесторонний технический обзор исследует их архитектуры, метрики производительности, методологии обучения и идеальные сценарии развертывания, чтобы помочь вам принять обоснованное решение для вашего следующего проекта в области искусственного интеллекта.

Обзор YOLOX

Представленный исследователями Чжэн Гэ, Сунтао Лю, Фэн Ваном, Цзэмином Ли и Цзянь Сунем из Megvii 18 июля 2021 года, YOLOX ознаменовал значительный сдвиг в серии YOLO. Он успешно преодолел разрыв между академическими исследованиями и промышленными приложениями, представив безанкерную архитектуру.

Для более глубокого технического понимания вы можете ознакомиться с оригинальной статьей YOLOX на Arxiv.

Ключевые архитектурные особенности

YOLOX отошел от традиционного анкерного обнаружения, приняв разделенную головку и безанкерный механизм. Эта конструкция сократила количество проектных параметров и улучшила производительность модели на различных бенчмарках. Кроме того, он представил передовые стратегии назначения меток, такие как SimOTA, для ускорения процесса обучения и улучшения сходимости.

Хотя YOLOX предлагал отличную точность для своего времени, он в основном сосредоточен на обнаружении объектов с ограничивающими рамками и не имеет встроенной поддержки других сложных задач компьютерного зрения из коробки.

Узнайте больше о YOLOX

Дизайн без якорей

Устранение предопределённых якорных боксов в YOLOX значительно сократило эвристическую настройку, необходимую для различных наборов данных, что делает его надёжной основой для исследований в области безанкерных методологий.

Обзор Ultralytics YOLO11

Выпущенный 27 сентября 2024 года Гленном Джочером и Цзин Цю из Ultralytics, YOLO11 — это передовая модель, которая переосмысливает универсальность и простоту использования в компьютерном зрении. Основанная на многолетних фундаментальных исследованиях, она предлагает высококачественное, готовое к производству решение, превосходно справляющееся с множеством задач.

Преимущество Ultralytics

YOLO11 — это не просто детектор объектов; это унифицированный фреймворк, поддерживающий сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих рамок (OBB). Он может похвастаться высокоэффективной архитектурой, которая обеспечивает идеальный баланс между скоростью, количеством параметров и точностью.

Кроме того, YOLO11 полностью интегрирован в платформу Ultralytics, которая предоставляет оптимизированную экосистему для аннотации данных, обучения моделей и развертывания.

Узнайте больше о YOLO11

Сравнение производительности и метрик

При сравнении этих моделей становится очевиден баланс производительности. YOLO11 достигает более высокой средней точности (mAP) при значительно меньшем количестве параметров и FLOPs в большинстве категорий размеров по сравнению с его аналогами YOLOX.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Как показано, модели YOLO11 стабильно превосходят YOLOX по точности, при этом сохраняя более компактный объем параметров. Например, YOLO11m достигает 51.5 mAP всего с 20.1M параметров, в то время как YOLOXx достигает аналогичного 51.1 mAP, но требует огромных 99.1M параметров. Эта эффективность использования памяти во время обучения и инференции делает YOLO11 очень подходящим для развертывания на граничных устройствах ИИ, избегая высоких требований к памяти CUDA, характерных для старых или трансформерных моделей, таких как RT-DETR.

Эффективное обучение

Модели Ultralytics требуют значительно меньше памяти GPU во время обучения по сравнению с YOLOX и архитектурами на основе трансформеров, что позволяет исследователям обучать мощные модели на стандартном потребительском оборудовании.

Экосистема и простота использования

Одно из наиболее поразительных различий между двумя фреймворками — это опыт разработчика.

YOLOX часто требует клонирования репозиториев, настройки сложных сред и запуска подробных аргументов командной строки для обучения и экспорта моделей в форматы, такие как ONNX или TensorRT.

В отличие от этого, Ultralytics YOLO11 предлагает невероятно простой Python API и CLI. Библиотека Ultralytics автоматически выполняет аугментацию данных, настройку гиперпараметров и экспорт.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

Эта хорошо поддерживаемая экосистема подкреплена обширной документацией и бесшовной интеграцией с такими инструментами, как Weights & Biases, для отслеживания экспериментов.

Идеальные варианты использования

Выбор между этими моделями часто зависит от специфики среды развертывания.

Когда использовать YOLOX.

  • Устаревшие системы: Если у вас есть устоявшийся конвейер, явно построенный на базе фреймворка MegEngine или парадигм обнаружения объектов начала 2021 года.
  • Academic Baselines: При проведении исследований, требующих прямого сравнения с фундаментальными безанкерными архитектурами эпохи 2021 года.

Когда использовать YOLO11

  • Промышленные развертывания: Для коммерческих приложений в умной розничной торговле или системах охранной сигнализации, где надежный, поддерживаемый код и высокая точность являются не подлежащими обсуждению.
  • Многозадачные конвейеры: Когда проект требует отслеживания объектов, оценки поз людей и сегментации экземпляров с использованием единого унифицированного фреймворка.
  • Ограниченные по ресурсам периферийные устройства: Благодаря низкому количеству параметров и высокой пропускной способности, YOLO11 идеально подходит для развертывания на Raspberry Pi или мобильных периферийных узлах через CoreML и NCNN.

Взгляд в будущее: Преимущество YOLO26

Хотя YOLO11 представляет собой огромный скачок по сравнению с YOLOX, область компьютерного зрения быстро развивается. Для разработчиков, начинающих новые проекты сегодня, Ultralytics YOLO26 является окончательной рекомендацией.

Выпущенный в январе 2026 года, YOLO26 берет архитектурное великолепие YOLO11 и представляет несколько новаторских функций:

  • Сквозная архитектура без NMS: YOLO26 исключает постобработку Non-Maximum Suppression (NMS), изначально обеспечивая потоковый инференс для более быстрых и простых конвейеров развертывания (концепция, впервые исследованная в YOLOv10).
  • До 43% более быстрый инференс на CPU: Благодаря удалению Distribution Focal Loss (DFL) YOLO26 значительно более эффективен на CPU и маломощных периферийных устройствах.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM от Moonshot AI, оптимизатор MuSGD обеспечивает высокостабильные циклы обучения и быструю сходимость.
  • Расширенные функции потерь: Используя ProgLoss + STAL, YOLO26 достигает заметных улучшений в распознавании мелких объектов, что критически важно для съемки с дронов и автономной робототехники.

Для подавляющего большинства современных задач компьютерного зрения обновление вашего конвейера для использования YOLO26 обеспечит наилучший баланс скорости, точности и простоты развертывания.


Комментарии