YOLO26 против YOLOX: новая эра обнаружения объектов без анкоров

Эволюция компьютерного зрения была отмечена значительными архитектурными прорывами. В 2021 году YOLOX представил крайне влиятельную парадигму без анкоров, которая сократила разрыв между академическими исследованиями и промышленным применением. Перенесемся в 2026 год: ландшафт был переосмыслен Ultralytics YOLO, в частности, с выпуском YOLO26. Это всестороннее сравнение исследует, как YOLO26 опирается на исторические инновации для достижения непревзойденной производительности, универсальности и простоты использования.

Обзор моделей

Понимание происхождения и основных концепций этих моделей необходимо для принятия обоснованных решений при развертывании.

Подробности о YOLO26

Узнай больше о YOLO26

YOLO26 представляет собой вершину современной AI-инженерии, предлагая полностью сквозной (end-to-end) дизайн, который устраняет сложные узкие места при постобработке. Модель оптимизирована как для облачных, так и для периферийных (edge) развертываний, а экосистема поддерживает выполнение различных задач без лишних усилий.

Подробности о YOLOX

Узнай больше о YOLOX

YOLOX стал значительным шагом вперед, представив разделенную «голову» (decoupled head) и архитектуру без анкоров наряду со стратегией назначения меток SimOTA. На момент выхода модель предлагала отличный баланс скорости и точности, что сделало ее популярным выбором для многих устаревших систем.

Архитектурные инновации

Различия между YOLO26 и YOLOX подчеркивают пять лет непрерывных инноваций в проектировании глубокого обучения.

Хотя YOLOX отстаивал подход без анкоров, он все еще сильно зависел от традиционного не-максимального подавления (NMS) для фильтрации избыточных ограничивающих рамок (BBox). YOLO26 представляет сквозной (end-to-end) дизайн без NMS. Это достижение, впервые примененное в YOLOv10, полностью исключает постобработку NMS, что приводит к созданию более быстрых и простых конвейеров развертывания с существенно меньшим разбросом задержек.

Более того, YOLO26 поддерживает удаление DFL. Благодаря удалению функции Distribution Focal Loss процесс экспорта модели кардинально упрощается, обеспечивая исключительную совместимость с периферийными устройствами и оборудованием с низким энергопотреблением. В сочетании с архитектурными оптимизациями модели, YOLO26 достигает ускорения CPU-инференса до 43% по сравнению с предшественниками, что делает ее мощным инструментом для сред, где отсутствуют выделенные GPU.

Стабильность обучения — еще один критический фактор отличия. YOLO26 использует новый оптимизатор MuSGD, гибрид SGD и Muon, вдохновленный инновациями в обучении LLM от Moonshot AI. Этот оптимизатор привносит стабильность обучения больших языковых моделей в компьютерное зрение, способствуя более быстрой сходимости.

Продвинутые функции потерь

YOLO26 использует ProgLoss + STAL — специализированные функции потерь, которые обеспечивают заметные улучшения в распознавании мелких объектов. Это критически важно для сложных задач, таких как обработка аэрофотоснимков и анализ плотных сред.

Производительность и бенчмарки

При прямом сравнении этих моделей на датасете COCO превосходство YOLO26 как в точности, так и в эффективности становится очевидным. Модели Ultralytics стабильно предлагают меньшие требования к памяти во время обучения и более высокую скорость инференса.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Примечание: модель YOLO26x достигает впечатляющих 57.5 mAP, требуя при этом значительно меньше параметров (55.7M), чем модель YOLOXx (99.1M), что подчеркивает невероятную эффективность параметров архитектуры Ultralytics.

Экосистема и простота использования

Одним из самых значительных преимуществ выбора YOLO26 является хорошо поддерживаемая экосистема от Ultralytics. В то время как YOLOX требует работы со сложными исследовательскими кодовыми базами и ручной настройки окружения, Ultralytics предлагает оптимизированный опыт для разработчиков «от нуля до героя».

Используя унифицированный Python API, ты можешь легко переключаться между задачами, такими как обнаружение объектов, сегментация экземпляров, классификация изображений и оценка позы. YOLOX, напротив, строго ограничен обнаружением ограничивающих рамок.

Пример обучения

Обучение модели на твоем пользовательском датасете с Ultralytics невероятно эффективно. Конвейер обучения минимизирует использование памяти CUDA, позволяя использовать большие размеры пакетов (batch sizes) даже на потребительском оборудовании, что является резким контрастом с более старыми архитектурами или тяжелыми моделями на базе Transformer.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Платформа Ultralytics еще больше улучшает этот рабочий процесс, предоставляя облачное обучение, автоматическую аннотацию датасетов и возможности развертывания в один клик. Это незаменимый инструмент для команд, стремящихся быстро перейти от прототипирования к производству.

Идеальные варианты использования и реальные приложения

Выбор правильной модели определяет успех твоего развертывания в реальных условиях.

Периферийный ИИ и IoT

Для приложений, требующих локальной обработки на ограниченном оборудовании, таких как интеллектуальные системы охранной сигнализации или удаленные экологические датчики, YOLO26 является окончательным выбором. Архитектура без NMS и ускорение CPU на 43% означают, что модель плавно работает на таких устройствах, как Raspberry Pi, без сложных обходных путей с квантованием.

Автономная робототехника

Робототехника требует высокой точности и низкой задержки. Возможности оценки позы YOLO26, усиленные Residual Log-Likelihood Estimation (RLE), позволяют роботам понимать кинематику человека в реальном времени. Отсутствие в YOLOX встроенного обнаружения ключевых точек делает его непригодным для таких продвинутых задач взаимодействия человека и робота.

Высотная и аэрофотосъемка

При инспекции инфраструктуры с помощью дронов обнаружение мельчайших дефектов имеет первостепенное значение. Функции ProgLoss и STAL в YOLO26 значительно улучшают полноту (recall) при работе с крошечными объектами. Кроме того, YOLO26 поддерживает ориентированные ограничивающие рамки (OBB), в комплекте со специализированной функцией потерь по углу для решения граничных проблем, что делает её идеальной для спутниковых и аэрофотоснимков, где объекты произвольно повернуты.

Устаревшие развертывания

YOLOX все еще может найти применение в устаревших средах, где существующие конвейеры развертывания C++ были явно построены вокруг его специфических выходов разделенной «головы» в 2021 году. Однако для любого нового проекта настоятельно рекомендуется переход на экосистему Ultralytics, чтобы использовать современные приросты производительности и постоянную поддержку сообщества.

Изучение других моделей

Хотя YOLO26 представляет собой текущее состояние технологий, экосистема Ultralytics предлагает множество моделей, адаптированных под конкретные нужды. Для разработчиков, интересующихся архитектурами на базе Transformer, RT-DETR предоставляет альтернативный подход к сквозному обнаружению. Кроме того, YOLO11 остается надежным, тщательно протестированным вариантом для производственных сред, требующих обширного исторического бенчмаркинга.

Подводя итог, переход от YOLOX к YOLO26 иллюстрирует быстрое развитие области. Объединяя интуитивно понятный API, универсальный набор функций и непревзойденную эффективность, YOLO26 является лучшим выбором для исследователей и разработчиков по всему миру.

Комментарии