Перейти к содержанию

YOLOX против YOLO26: эволюция от обнаружения объектов без якорей до сквозного обнаружения объектов

За последние пять лет область компьютерного зрения претерпела быстрые изменения, перейдя от сложных архитектур на основе якорей к оптимизированным конструкциям без якорей и, наконец, к нативным системам «из конца в конец». В этом сравнении подробно рассматриваются технические различия между YOLOX, ключевой моделью без анкоров, выпущенной в 2021 году, и YOLO26, передовым (SOTA) детектором от начала до конца, запущенным Ultralytics 2026 году.

В то время как YOLOX установил высокую планку для исследований и производительности в свое время, YOLO26 представляет революционные оптимизации, такие как выводNMS и оптимизатор MuSGD, что делает его лучшим выбором для современных производственных сред, требующих низкой задержки и высокой точности.

YOLOX: пионер Anchor-Free

Выпущенный в июле 2021 года исследователями из Megvii, YOLOX ознаменовал значительный отход от логики на основе якорей, которая доминировала YOLO предыдущих YOLO (таких как YOLOv4 и YOLOv5). Устранив якорные рамки, авторы стремились упростить процесс проектирования и снизить нагрузку на настройку гиперпараметров, связанную с кластеризацией якорей.

Основные технические особенности:

  • Механизм без анкеров: устраняет необходимость в заранее определенных анкерных блоках, рассматривая обнаружение объектов как задачу точечной регрессии.
  • Разделенная головка: разделяет задачи классификации и локализации на разные ветви головки сети, что помогло улучшить скорость и точность сходимости.
  • SimOTA: передовая стратегия присвоения меток, называемая «упрощенным оптимальным транспортным присвоением», которая динамически присваивает положительные образцы к реальным данным.

Несмотря на свою инновационность, YOLOX использует традиционное подавление не максимальных значений (NMS) для постобработки. Этот шаг удаляет дубликаты ограничительных рамок, но вносит изменчивость задержки и вычислительные накладные расходы, что может стать препятствием в приложениях, работающих в режиме строгого реального времени.

Детали модели:

  • Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
  • Организация: Megvii
  • Дата: 2021-07-18
  • Ссылки:YOLOX Arxiv | YOLOX GitHub

Узнайте больше о YOLOX

YOLO26: Стандарт «от конца до конца»

Запущен в январе 2026 года компанией Ultralytics, представляет собой вершину эффективности в области компьютерного зрения. Он полностью отказывается от традиционной NMS , используя изначально сквозную конструкцию NMS. Такая архитектура позволяет модели напрямую выводить окончательный набор обнаруженных объектов, что значительно сокращает задержку и упрощает логику развертывания.

Основные технические особенности:

  • АрхитектураNMS: устраняет вычислительные затраты на сортировку и фильтрацию тысяч потенциальных ячеек, что обеспечивает стабильное и предсказуемое время вывода.
  • MuSGD Optimizer: гибридный оптимизатор, сочетающий SGD Muon (вдохновленный инновациями в области обучения больших языковых моделей, такими как Kimi K2 от Moonshot AI). Это обеспечивает более стабильную динамику обучения и более быструю конвергенцию.
  • Удаление DFL: удаление Distribution Focal Loss (DFL) упрощает головку модели, делая ее более совместимой с периферийными устройствами и инструментами квантования.
  • ProgLoss + STAL: усовершенствованные функции потери (программная потеря и потеря выравнивания по теории масштабов), которые значительно улучшают распознавание мелких объектов— важную функцию для съемки с дронов и промышленного контроля.

Детали модели:

Узнайте больше о YOLO26

Почему сквозной подход важен

Устаревшие модели, такие как YOLOX, выдают тысячи избыточных ячеек, которые необходимо отфильтровать с помощью метода Non-Maximum Suppression (NMS). Этот процесс требует CPU и его сложно оптимизировать на аппаратных ускорителях, таких как TPU или NPU. Комплексная конструкция YOLO26 устраняет этот этап, позволяя нейронной сети напрямую выдавать окончательный ответ. Это обеспечивает ускорение вывода на CPU до 43 % по сравнению с предыдущими поколениями.

Сравнение производительности

В следующей таблице показана разница в производительности между двумя архитектурами. YOLO26 демонстрирует превосходную точность (mAP) и эффективность, особенно в вариантах Nano и Small, используемых для приложений искусственного интеллекта на периферии.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Примечание: скорость YOLOX обычно ниже на современном оборудовании из-за NMS , тогда как метрики YOLO26 включают все время постобработки.

Архитектурное Глубокое Погружение

Позвоночник и голова

YOLOX использует модифицированную магистраль CSPDarknet с акцентом на развязку головки обнаружения. Несмотря на свою эффективность, эта развязка значительно увеличивает количество параметров по сравнению с конструкциями с общей головкой, использовавшимися в более ранних моделях.

В отличие от этого, YOLO26 использует высокооптимизированную базовую структуру, разработанную с помощью концепций Neural Architecture Search (NAS). Его головная структура оптимизирована за счет удаления DFL, что не только уменьшает размер модели, но и идеально согласуется с аппаратными ускорителями, которые испытывают трудности с сложными выходными слоями. Это упрощает экспорт в TensorRT или ONNX беспроблемным.

Функции потерь и обучение

YOLOX представил SimOTA для динамического решения проблемы присвоения меток. Однако он по-прежнему полагается на стандартные функции потерь. YOLO26 усовершенствовал эту технологию, включив в нее ProgLoss (программные потери) и STAL (потери выравнивания по теории масштабов). Эти потери динамически корректируют штраф за ошибки ограничивающей рамки в зависимости от размера объекта и этапа обучения, устраняя историческую слабость YOLO в обнаружении небольших объектов, таких как удаленные пешеходы или производственные дефекты.

Кроме того, оптимизатор MuSGD в YOLO26 привносит в область зрения методы стабилизации из мира LLM. Благодаря более эффективной нормализации обновлений по слоям по сравнению со стандартным SGD, YOLO26 достигает более высокой точности с меньшим количеством эпох обучения.

Идеальные варианты использования

Когда использовать YOLOX

YOLOX остается ценным ориентиром в академических кругах.

  • Исследовательские базовые показатели: его четкая структура без якорей делает его отличным базовым показателем для исследователей, изучающих стратегии присвоения меток.
  • Устаревшие проекты: Системы, уже тесно интегрированные с MegEngine или конкретными форками YOLOX, могут столкнуться с высокими затратами при немедленной миграции.

Когда использовать YOLO26

YOLO26 — рекомендуемый выбор практически для всех новых коммерческих и промышленных применений.

  • Edge Computing: благодаря ускоренной на 43% CPU , YOLO26 идеально подходит для Raspberry Pi, Jetson Nano и мобильных устройств, где нет графических процессоров.
  • Робототехника и автономные системы: конструкцияNMS устраняет всплески задержки, вызванные загроможденными сценами (например, робот, перемещающийся по переполненному складу), обеспечивая детерминированное время отклика.
  • Высокоточная проверка: комбинация ProgLoss + STAL делает YOLO26 превосходным инструментом для задач контроля качества, связанных с обнаружением мельчайших дефектов.
  • Многозадачные приложения: в отличие от YOLOX, который в первую очередь является детектором, Ultralytics поддерживает YOLO26 для сегментации экземпляров, оценки позы и ориентированных ограничительных рамок (OBB).

Преимущество Ultralytics

Выбор YOLO26 также означает получение доступа к комплексной Ultralytics . В то время как YOLOX предоставляет автономный репозиторий, Ultralytics унифицированную среду, которая упрощает весь жизненный цикл ИИ.

  1. Простота использования: единый Python позволяет переключаться между задачами (detect, segment, поза) и моделями (YOLO26, YOLO11, RT-DETR) путем изменения одной строки кода.
  2. Эффективность обучения: Ultralytics оптимизированы для эффективного использования памяти во время обучения. По сравнению со старыми архитектурами или тяжелыми трансформаторами, вы можете обучать более крупные партии на потребительских графических процессорах.
  3. Ultralytics : Ultralytics предлагает веб-интерфейс для управления наборами данных, автоматической аннотации и обучения моделей в один клик, что оптимизирует совместную работу команд.
  4. Хорошо поддерживаемая экосистема: благодаря частым обновлениям, обширной документации и активной поддержке сообщества разработчики никогда не остаются один на один с отладкой.

Пример кода

Запуск YOLO26 не представляет сложности с помощью ultralytics пакет. В следующем примере показана загрузка предварительно обученной модели и выполнение инференции по изображению.

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

Заключение

Как YOLOX, так и YOLO26 представляют собой важные вехи в истории обнаружения объектов. YOLOX успешно бросил вызов парадигме, основанной на якорях, в 2021 году, доказав, что модели без якорей могут достигать высочайшей производительности. Однако YOLO26 переопределяет стандарт на 2026 год, решая проблему «последней мили» инференса: NMS .

Благодаря своей сквозной архитектуре, оптимизатору MuSGD и специализированным функциям потери, YOLO26 обеспечивает непревзойденный баланс скорости, точности и простоты использования. Для разработчиков, стремящихся внедрить надежные решения в области компьютерного зрения — будь то на мощных облачных серверах или на периферийных устройствах с ограниченными ресурсами —YOLO26 является оптимальным выбором.

Если вы заинтересованы в изучении других современных архитектур, рекомендуем ознакомиться со статьей YOLO11 для общего обнаружения или RT-DETR для приложений на основе трансформаторов.


Комментарии