YOLO26 против YOLOX: эволюция обнаружения объектов в реальном времени

За последние пять лет область компьютерного зрения претерпела стремительные изменения, перейдя от сложных архитектур на основе якорей к оптимизированным высокопроизводительным моделям. В этом сравнении рассматриваются две ключевые модели в этой временной шкале: YOLOX, революционный детектор без анкоров, выпущенный в 2021 году, и YOLO26, современная модель компьютерного зрения, выпущенная Ultralytics январе 2026 года. В то время как YOLOX проложил путь для многих современных архитектурных решений, YOLO26 представляет собой кульминацию этих достижений, предлагая превосходную скорость, точность и простоту развертывания.

Обзор модели

Ultralytics YOLO26

Выпущенный в январе 2026 года, YOLO26 разработан для следующего поколения Edge AI. Он представляет собой нативную сквозную (NMS) архитектуру, устраняющую необходимость в этапах постобработки, которые часто создают узкие места при развертывании. Благодаря устранению Distribution Focal Loss (DFL) и внедрению оптимизатора MuSGD, вдохновленного обучением больших языковых моделей, YOLO26 достигает скорости CPU , на 43% превышающей скорость предыдущих поколений, что делает его лучшим выбором для приложений IoT и робототехники.

Гленн Джочер и Цзин Цю
Ultralytics
14 января 2026 г.
GitHub | Документация

Узнайте больше о YOLO26

YOLOX

YOLOX, выпущенный Megvii в 2021 году, был одним из первых высокопроизводительных «бесшаговых» детекторов, перешедших на развязанную головку и присвоение меток SimOTA. Он успешно преодолел разрыв между академическими исследованиями и промышленным применением в то время, предлагая более чистый дизайн, чем его предшественники (такие как YOLOv4 и YOLOv5), за счет удаления анкерных рамок и NMS для стабильности обучения, хотя NMS вывода он по-прежнему требовал NMS .

Чжэн Гэ, Сунтао Лю и др. «
» (Улучшение распознавания лиц с помощью глубокой сети) Megvii «
» (Улучшение распознавания лиц с помощью глубокой сети) 18 июля 2021 г.
ArXiv | GitHub

Сравнение технических характеристик

В следующей таблице показаны различия в производительности двух моделей. YOLO26 демонстрирует значительное превосходство как по точности (mAP), так и по эффективности, особенно в CPU , где его архитектура оптимизирована для выполнения с низкой задержкой.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Контекст производительности

Хотя YOLOXnano имеет более низкие параметры и FLOP, он работает с значительно более низким разрешением (416px) и точностью (25,8 mAP) по сравнению с YOLO26n (40,9 mAP 640px). При нормализации по эффективной точности YOLO26 предлагает гораздо более высокую задержку вывода.

Архитектурные инновации

Сквозная обработка против постобработки

Наиболее существенное отличие заключается в конвейере развертывания. YOLOX не использует анкеры, но по-прежнему полагается на Non-Maximum Suppression (NMS) для фильтрации дублирующихся ограничительных рамок. NMS больших вычислительных ресурсов и сложно оптимизировать на периферийном оборудовании (таком как FPGA или NPU), поскольку включает в себя сортировку и последовательные операции.

YOLO26 использует нативную сквозную архитектуру, концепция которой была впервые реализована в YOLOv10. Такая конструкция позволяет получать окончательные результаты обнаружения непосредственно из сети без NMS. Это приводит к следующим результатам:

Меньшая задержка: отсутствие накладных расходов на постобработку.
Детерминированная задержка: время вывода остается постоянным независимо от плотности объектов.
Упрощенное развертывание: экспорт в ONNX или TensorRT просто, так как не требуются специальные NMS .

Стабильность обучения: MuSGD против SGD

YOLOX использует стандартный стохастический градиентный спуск (SGD) с развязанными головками, который был усовершенствован в 2021 году. Однако YOLO26 представляет оптимизатор MuSGD, гибрид SGD оптимизатора Muon (вдохновленный Kimi K2 от Moonshot AI). Это нововведение привносит характеристики стабильности из обучения больших языковых моделей (LLM) в компьютерное зрение, позволяя быстрее достигать сходимости и более надежно извлекать особенности в процессе обучения.

Функции потерь

YOLOX использует IoU и стратегию развязки головы. YOLO26 усовершенствует это с помощью ProgLoss + STAL (Soft Target Assignment Loss). Эта комбинация специально решает проблему обнаружения мелких объектов, которая традиционно является слабым местом одноступенчатых детекторов. ProgLoss динамически корректирует вес потери во время обучения, позволяя модели сосредоточиться на более сложных примерах (часто мелких или закрытых объектах) по мере продвижения обучения.

Экосистема и простота использования

Одним из определяющих отличий между этими двумя концептуальными рамками является окружающая их экосистема.

Преимущество Ultralytics

Использование YOLO26 предоставляет доступ к Ultralytics — комплексному набору инструментов для управления данными, аннотирования и обучения моделей.

Единый API: независимо от того, занимаетесь ли вы обнаружением объектов, сегментацией экземпляров, оценкой позы или обнаружением ориентированных ограничительных рамок (OBB), API остается неизменным.
Zero-to-Hero: Вы можете перейти от установки к обучению на настраиваемом наборе данных менее чем за 5 строк python .
Гибкость экспорта: беспрепятственный экспорт моделей в CoreML, OpenVINO, TFLite и многие другие с помощью одной команды.

from ultralytics import YOLO

# Load the model
model = YOLO("yolo26n.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export for deployment
model.export(format="onnx")

Сложность YOLOX

YOLOX — это в первую очередь хранилище исследований. Несмотря на свою мощность, оно требует более тщательной ручной настройки для наборов данных и конвейеров обучения. В нем отсутствует встроенная поддержка задач, выходящих за рамки стандартного обнаружения (таких как поза или сегментация) в рамках одного хранилища, а для экспорта в форматы edge часто требуются внешние скрипты или сторонние инструменты (такие как onnx-simplifier).

Приложения в реальном мире

Умная розничная торговля и инвентаризация

Для розничных сред, требующих управления запасами, YOLO26 является лучшим выбором. Устранение DFL (Distribution Focal Loss) и сквозная архитектура позволяют ему эффективно работать на маломощных процессорах ARM, которые используются в камерах для умных полок. Повышенная точность YOLO26s (48,6 mAP) по сравнению с YOLOX-s (40,5 mAP) обеспечивает более точный учет запасов с меньшим количеством ложных отрицательных результатов.

Дроны требуют обработки изображений высокого разрешения с минимальной задержкой. YOLO26 превосходит другие системы благодаря ProgLoss, который улучшает обнаружение небольших объектов, таких как удаленные транспортные средства или линии электропередач, с воздушных снимков. Выход NMS гарантирует, что контур управления дроном получает данные с постоянной скоростью, что критически важно для систем предотвращения столкновений. И наоборот, зависимость YOLOX от NMS вызывать всплески задержки в запутанных средах (например, при полете над лесом или толпой), что может поставить под угрозу стабильность полета.

Промышленная робототехника

В производстве роботизированные манипуляторы часто используют зрительное восприятие для выполнения задач по захвату и размещению. Экосистема YOLO26 поддерживает OBB (Oriented Bounding Boxes), которая предоставляет угол наклона объектов, что имеет решающее значение для захвата предметов, не выровненных по оси. YOLOX требует значительных модификаций для поддержки OBB, тогда как YOLO26 поддерживает его из коробки.

Заключение

В то время как YOLOX стал важной вехой, популяризировавшей обнаружение без анкоров, YOLO26 представляет собой будущее эффективного компьютерного зрения. Благодаря своей сквозной архитектуре, превосходному соотношению точности и задержки, а также надежной поддержке Ultralytics , YOLO26 является рекомендуемым выбором как для академических исследований, так и для коммерческого внедрения в 2026 году.

Для разработчиков, которым требуются различные архитектурные компромиссы, YOLO11 предлагает проверенную альтернативу, а модели на основе трансформеров, такие как RT-DETR , обеспечивают высокую точность для сред GPU