YOLO11 против YOLOX: эволюция высокопроизводительного обнаружения объектов
Область компьютерного зрения за последние несколько лет претерпела стремительное развитие, и модели обнаружения объектов в режиме реального времени стали значительно сложнее. Выбирая архитектуру для производственной среды или академических исследований, разработчики часто взвешивают компромиссы между историческими вехами и новейшими инновациями. Это всестороннее сравнение изучает различия между Ultralytics YOLO11 и YOLOX от Megvii, предоставляя глубокий анализ их архитектур, показателей производительности и оптимальных сценариев развертывания.
Обзор архитектуры
Обе модели представляют собой значительные шаги вперед в обнаружении объектов, но они основаны на разных принципах проектирования и ориентированы на различный опыт разработчиков.
YOLO11: Универсальный многозадачный движок
Выпущенная в сентябре 2024 года Гленном Джочером и Цзин Цю в Ultralytics, YOLO11 спроектирована как унифицированная платформа, балансирующая между высокой точностью и исключительной эффективностью.
- Авторы: Гленн Джочер (Glenn Jocher) и Цзин Цю (Jing Qiu)
- Организация: Ultralytics
- Дата: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: https://docs.ultralytics.com/models/yolo11/
YOLO11 выходит за рамки стандартных ограничивающих рамок, нативно поддерживая сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение с помощью ориентированных ограничивающих рамок (OBB). Её усовершенствованная архитектура оптимизирует извлечение признаков, чтобы обеспечить лучшее их удержание в сложных пространственных иерархиях.
YOLOX: Первопроходец без анкоров (anchor-free)
Разработанная исследователями Megvii, YOLOX привлекла значительное внимание в 2021 году, преодолев разрыв между исследованиями и промышленным применением благодаря чистому подходу без использования анкоров.
- Авторы: Чжэн Гэ, Сун Тао Лю, Фэн Ван, Земин Ли и Цзянь Сунь
- Организация: Megvii
- Дата: 18.07.2021
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Документация: https://yolox.readthedocs.io/en/latest/
YOLOX представила декоплированную (разделенную) голову и парадигму без анкоров, что значительно сократило количество параметров проектирования и улучшило производительность на академических тестах на момент выпуска.
Дизайн без анкоров, популяризированный YOLOX, вдохновил многие последующие архитектуры. Ultralytics включила и существенно доработала эти концепции без анкоров в более поздних итерациях, таких как YOLOv8 и YOLO11, чтобы обеспечить превосходную точность и гибкость развертывания.
Производительность и метрики
При оценке моделей обнаружения критически важно для реального развертывания моделей учитывать баланс параметров, вычислительных затрат (FLOPs) и среднего значения точности (mAP).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Как видно из таблицы, YOLO11x значительно превосходит YOLOXx по абсолютной точности (54.7 mAP против 51.1 mAP), требуя при этом примерно в два раза меньше параметров (56.9M против 99.1M). Эта эффективность означает меньшие требования к памяти как во время обучения, так и при выводе, что является огромным преимуществом для производственных сред.
Экосистема и опыт разработчика
Преимущество Ultralytics
Одно из самых глубоких различий между YOLO11 и YOLOX заключается в удобстве использования. YOLOX работает в основном как исследовательская кодовая база, требующая сложной настройки среды, ручной компиляции операторов C++ и подробных аргументов командной строки для запуска обучения на собственных данных.
В резком контрасте с этим, YOLO11 полностью интегрирована в Python-пакет Ultralytics, предоставляя оптимизированный рабочий процесс «с нуля до результата». Платформа Ultralytics предлагает обширные инструменты для аннотирования данных, отслеживания экспериментов и облачного обучения, абстрагируясь от шаблонного кода, чтобы инженеры могли сосредоточиться на производительности модели.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly using the Ultralytics API
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")Более того, экспорт модели Ultralytics в такие форматы, как TensorRT, CoreML или OpenVINO, требует всего одной команды, тогда как устаревшие репозитории часто требуют сложных сторонних инструментов или ручного вмешательства в граф.
Реальные сценарии использования
Когда стоит рассмотреть YOLOX
YOLOX остается подходящим вариантом для специализированных устаревших развертываний, где разработчики уже создали глубоко кастомизированные конвейеры вывода на C++ вокруг конкретных тензорных выходов её декоплированной головы. Кроме того, исследователи, проводящие сравнительные исследования с архитектурами, актуальными на 2021 год, по-прежнему будут использовать YOLOX в качестве эталона для набора данных для бенчмаркинга.
В чем YOLO11 превосходит
Почти для всех современных производственных сценариев YOLO11 обеспечивает гораздо лучший опыт:
- Умные города и розничная торговля: Благодаря исключительному соотношению скорости и точности, YOLO11 легко справляется с переполненными сценами, обеспечивая работу автоматизированной розничной аналитики и систем управления трафиком без необходимости в массивных GPU-кластерах.
- Edge Computing: The high memory efficiency and robust export options make YOLO11 perfect for edge AI deployments on devices like Raspberry Pi or NVIDIA Jetson platforms.
- Сложные конвейеры: Если проект требует объединения обнаружения объектов с ключевыми точками позы (например, спортивная аналитика) или точной сегментацией экземпляров (например, медицинская визуализация), YOLO11 нативно справляется со всеми задачами через один унифицированный API.
Варианты использования и рекомендации
Выбор между YOLO11 и YOLOX зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в отношении экосистемы.
Когда выбирать YOLO11
YOLO11 — это отличный выбор для:
- Развертывания на периферии (Edge): коммерческих приложений на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активная поддержка имеют первостепенное значение.
- Многозадачных приложений компьютерного зрения: проектов, требующих обнаружения, сегментации, оценки позы и OBB в рамках единого унифицированного фреймворка.
- Быстрого прототипирования и развертывания: команд, которым необходимо быстро перейти от сбора данных к продакшену, используя оптимизированный Python API Ultralytics.
Когда выбирать YOLOX
YOLOX рекомендуется для:
- Исследований обнаружения без анкоров: Академических исследований, использующих чистую архитектуру YOLOX без анкоров в качестве базы для экспериментов с новыми головами обнаружения или функциями потерь.
- Сверхлегких граничных устройств: Развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый размер варианта YOLOX-Nano (0.91 млн параметров).
- Исследований назначения меток SimOTA: Исследовательских проектов, изучающих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Взгляд в будущее: Мощь YOLO26
Хотя YOLO11 является исключительным выбором, ландшафт ИИ постоянно ускоряется. Для команд, стремящихся к абсолютному пику эффективности и стабильности, YOLO26 (выпущенная в январе 2026 года) является окончательной рекомендацией для новых проектов компьютерного зрения.
YOLO26 представляет собой огромный шаг вперед, внедряя дизайн без NMS (End-to-End). Исключая пост-обработку с помощью немаксимального подавления (NMS), она полностью устраняет вариативность задержки, значительно упрощая логику развертывания — концепция, впервые предложенная в YOLOv10.
Кроме того, YOLO26 отличается удалением DFL (Distribution Focal Loss), оптимизируя архитектуру для достижения до 43% более быстрого вывода на CPU, что делает её бесспорным чемпионом для маломощных и граничных устройств. Стабильность обучения также усилена с помощью оптимизатора MuSGD — вдохновленного LLM гибрида SGD и Muon, который ускоряет сходимость. В сочетании с передовыми функциями потерь, такими как ProgLoss + STAL, YOLO26 превосходно обнаруживает мелкие объекты в сложных условиях, таких как снимки с дронов и датчики граничного IoT.
Хочешь расширить свои знания об архитектурах обнаружения объектов? Исследуй возможности открытого словаря YOLO-World или погрузись в модель на основе трансформеров RT-DETR, задокументированную в экосистеме Ultralytics.
В заключение, хотя YOLOX представила важные архитектурные концепции в 2021 году, комплексный набор инструментов, эффективность памяти и передовая производительность YOLO11, а особенно революционная архитектура YOLO26, делают экосистему Ultralytics очевидным выбором для исследователей и корпоративных разработчиков сегодня.