YOLO11 против YOLOX: эволюция высокопроизводительного обнаружения объектов

Область компьютерного зрения за последние несколько лет претерпела стремительное развитие, и модели обнаружения объектов в режиме реального времени стали значительно сложнее. Выбирая архитектуру для производственной среды или академических исследований, разработчики часто взвешивают компромиссы между историческими вехами и новейшими инновациями. Это всестороннее сравнение изучает различия между Ultralytics YOLO11 и YOLOX от Megvii, предоставляя глубокий анализ их архитектур, показателей производительности и оптимальных сценариев развертывания.

Обзор архитектуры

Обе модели представляют собой значительные шаги вперед в обнаружении объектов, но они основаны на разных принципах проектирования и ориентированы на различный опыт разработчиков.

YOLO11: Универсальный многозадачный движок

Выпущенная в сентябре 2024 года Гленном Джочером и Цзин Цю в Ultralytics, YOLO11 спроектирована как унифицированная платформа, балансирующая между высокой точностью и исключительной эффективностью.

YOLO11 выходит за рамки стандартных ограничивающих рамок, нативно поддерживая сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение с помощью ориентированных ограничивающих рамок (OBB). Её усовершенствованная архитектура оптимизирует извлечение признаков, чтобы обеспечить лучшее их удержание в сложных пространственных иерархиях.

Узнай больше о YOLO11

YOLOX: Первопроходец без анкоров (anchor-free)

Разработанная исследователями Megvii, YOLOX привлекла значительное внимание в 2021 году, преодолев разрыв между исследованиями и промышленным применением благодаря чистому подходу без использования анкоров.

YOLOX представила декоплированную (разделенную) голову и парадигму без анкоров, что значительно сократило количество параметров проектирования и улучшило производительность на академических тестах на момент выпуска.

Узнай больше о YOLOX

Знаешь ли ты?

Дизайн без анкоров, популяризированный YOLOX, вдохновил многие последующие архитектуры. Ultralytics включила и существенно доработала эти концепции без анкоров в более поздних итерациях, таких как YOLOv8 и YOLO11, чтобы обеспечить превосходную точность и гибкость развертывания.

Производительность и метрики

При оценке моделей обнаружения критически важно для реального развертывания моделей учитывать баланс параметров, вычислительных затрат (FLOPs) и среднего значения точности (mAP).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Как видно из таблицы, YOLO11x значительно превосходит YOLOXx по абсолютной точности (54.7 mAP против 51.1 mAP), требуя при этом примерно в два раза меньше параметров (56.9M против 99.1M). Эта эффективность означает меньшие требования к памяти как во время обучения, так и при выводе, что является огромным преимуществом для производственных сред.

Экосистема и опыт разработчика

Преимущество Ultralytics

Одно из самых глубоких различий между YOLO11 и YOLOX заключается в удобстве использования. YOLOX работает в основном как исследовательская кодовая база, требующая сложной настройки среды, ручной компиляции операторов C++ и подробных аргументов командной строки для запуска обучения на собственных данных.

В резком контрасте с этим, YOLO11 полностью интегрирована в Python-пакет Ultralytics, предоставляя оптимизированный рабочий процесс «с нуля до результата». Платформа Ultralytics предлагает обширные инструменты для аннотирования данных, отслеживания экспериментов и облачного обучения, абстрагируясь от шаблонного кода, чтобы инженеры могли сосредоточиться на производительности модели.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly using the Ultralytics API
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Более того, экспорт модели Ultralytics в такие форматы, как TensorRT, CoreML или OpenVINO, требует всего одной команды, тогда как устаревшие репозитории часто требуют сложных сторонних инструментов или ручного вмешательства в граф.

Реальные сценарии использования

Когда стоит рассмотреть YOLOX

YOLOX остается подходящим вариантом для специализированных устаревших развертываний, где разработчики уже создали глубоко кастомизированные конвейеры вывода на C++ вокруг конкретных тензорных выходов её декоплированной головы. Кроме того, исследователи, проводящие сравнительные исследования с архитектурами, актуальными на 2021 год, по-прежнему будут использовать YOLOX в качестве эталона для набора данных для бенчмаркинга.

В чем YOLO11 превосходит

Почти для всех современных производственных сценариев YOLO11 обеспечивает гораздо лучший опыт:

  • Умные города и розничная торговля: Благодаря исключительному соотношению скорости и точности, YOLO11 легко справляется с переполненными сценами, обеспечивая работу автоматизированной розничной аналитики и систем управления трафиком без необходимости в массивных GPU-кластерах.
  • Edge Computing: The high memory efficiency and robust export options make YOLO11 perfect for edge AI deployments on devices like Raspberry Pi or NVIDIA Jetson platforms.
  • Сложные конвейеры: Если проект требует объединения обнаружения объектов с ключевыми точками позы (например, спортивная аналитика) или точной сегментацией экземпляров (например, медицинская визуализация), YOLO11 нативно справляется со всеми задачами через один унифицированный API.

Варианты использования и рекомендации

Выбор между YOLO11 и YOLOX зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в отношении экосистемы.

Когда выбирать YOLO11

YOLO11 — это отличный выбор для:

  • Развертывания на периферии (Edge): коммерческих приложений на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активная поддержка имеют первостепенное значение.
  • Многозадачных приложений компьютерного зрения: проектов, требующих обнаружения, сегментации, оценки позы и OBB в рамках единого унифицированного фреймворка.
  • Быстрого прототипирования и развертывания: команд, которым необходимо быстро перейти от сбора данных к продакшену, используя оптимизированный Python API Ultralytics.

Когда выбирать YOLOX

YOLOX рекомендуется для:

  • Исследований обнаружения без анкоров: Академических исследований, использующих чистую архитектуру YOLOX без анкоров в качестве базы для экспериментов с новыми головами обнаружения или функциями потерь.
  • Сверхлегких граничных устройств: Развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый размер варианта YOLOX-Nano (0.91 млн параметров).
  • Исследований назначения меток SimOTA: Исследовательских проектов, изучающих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Взгляд в будущее: Мощь YOLO26

Хотя YOLO11 является исключительным выбором, ландшафт ИИ постоянно ускоряется. Для команд, стремящихся к абсолютному пику эффективности и стабильности, YOLO26 (выпущенная в январе 2026 года) является окончательной рекомендацией для новых проектов компьютерного зрения.

YOLO26 представляет собой огромный шаг вперед, внедряя дизайн без NMS (End-to-End). Исключая пост-обработку с помощью немаксимального подавления (NMS), она полностью устраняет вариативность задержки, значительно упрощая логику развертывания — концепция, впервые предложенная в YOLOv10.

Кроме того, YOLO26 отличается удалением DFL (Distribution Focal Loss), оптимизируя архитектуру для достижения до 43% более быстрого вывода на CPU, что делает её бесспорным чемпионом для маломощных и граничных устройств. Стабильность обучения также усилена с помощью оптимизатора MuSGD — вдохновленного LLM гибрида SGD и Muon, который ускоряет сходимость. В сочетании с передовыми функциями потерь, такими как ProgLoss + STAL, YOLO26 превосходно обнаруживает мелкие объекты в сложных условиях, таких как снимки с дронов и датчики граничного IoT.

Дальнейшее изучение

Хочешь расширить свои знания об архитектурах обнаружения объектов? Исследуй возможности открытого словаря YOLO-World или погрузись в модель на основе трансформеров RT-DETR, задокументированную в экосистеме Ultralytics.

В заключение, хотя YOLOX представила важные архитектурные концепции в 2021 году, комплексный набор инструментов, эффективность памяти и передовая производительность YOLO11, а особенно революционная архитектура YOLO26, делают экосистему Ultralytics очевидным выбором для исследователей и корпоративных разработчиков сегодня.

Комментарии