Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 против YOLOX#

Сфера компьютерного зрения стремительно развивается, предлагая разработчикам и исследователям широкий спектр архитектур на выбор при создании систем на основе зрения. Двумя заметными вехами на этом пути стали RTDETRv2 на базе Transformer и YOLOX на базе CNN. Хотя обе модели внесли значительный вклад в область обнаружения объектов в реальном времени, они представляют принципиально разные подходы к решению задач визуального распознавания.

В этом подробном руководстве рассматриваются архитектурные нюансы, показатели производительности и идеальные сценарии развертывания для обеих моделей. Кроме того, мы рассмотрим, как современные альтернативы, такие как передовая Ultralytics YOLO26, развивают эти основы, обеспечивая превосходную точность, эффективность и простоту использования.

Link to this sectionRTDETRv2: Трансформеры для детектирования в реальном времени#

Представленная как преемник оригинальной RT-DETR, модель RTDETRv2 использует архитектуру Transformer для достижения высокопроизводительного обнаружения объектов в реальном времени. Устраняя необходимость в Non-Maximum Suppression (NMS), она упрощает конвейер вывода.

Link to this sectionАрхитектура и дизайн#

RTDETRv2 в значительной степени полагается на механизмы self-attention, присущие трансформерам, что позволяет модели охватывать глобальный контекст всего изображения. Такое целостное понимание позволяет ей предсказывать BBox и вероятности классов напрямую. Она представляет функции обнаружения в нескольких масштабах, которые повышают способность распознавать мелкие объекты в сложных условиях.

Узкие места Transformer

Хотя трансформеры превосходно справляются с захватом глобального контекста, их механизмы self-attention масштабируются квадратично относительно длины последовательности, что часто приводит к значительно более высокому потреблению памяти CUDA во время обучения по сравнению с традиционными CNN.

Link to this sectionСильные и слабые стороны#

Основное преимущество RTDETRv2 заключается в ее нативном дизайне end-to-end. Пропуская NMS, она избегает скачков задержки, часто связанных с плотными перекрывающимися предсказаниями. Однако высокий вычислительный вес ее блоков Transformer означает, что она требует значительных ресурсов GPU как для обучения, так и для развертывания. Это делает ее менее подходящей для граничных устройств с ограниченными ресурсами или устаревшего мобильного оборудования.

Узнай больше о RTDETRv2

Link to this sectionYOLOX: развитие CNN без якорей (Anchor-Free)#

Разработанная для преодоления разрыва между академическими исследованиями и промышленным применением, YOLOX представила разделенную голову (decoupled head) и дизайн без якорей (anchor-free) для популярного семейства моделей YOLO.

Link to this sectionАрхитектура и дизайн#

YOLOX отходит от традиционных детекторов на основе якорей, предсказывая местоположения объектов напрямую без предопределенных якорных рамок. Это упрощает дизайн сети и сокращает количество эвристических параметров настройки, необходимых для достижения оптимальной производительности. Кроме того, YOLOX использует разделенную голову, отделяя задачи классификации и регрессии, что повышает скорость сходимости во время обучения.

Link to this sectionСильные и слабые стороны#

Природа YOLOX без якорей делает ее легко адаптируемой к различным задачам computer vision и более простой для обучения на пользовательских наборах данных. Ее более легкие варианты, такие как YOLOX-Nano, хорошо подходят для развертывания на микроконтроллерах и IoT-устройствах с низким энергопотреблением. Однако, поскольку YOLOX появилась до революции без NMS, она все еще полагается на традиционную постобработку, что может привести к сложностям при развертывании и увеличению задержки в плотных сценах.

Узнай больше о YOLOX

Link to this sectionСравнение производительности и метрик#

При сравнении этих моделей оценка их скорости, точности и эффективности параметров имеет решающее значение для определения того, какая из них лучше всего подходит для твоего конкретного случая использования. В таблице ниже приведена производительность различных размеров моделей на стандартном наборе данных COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Как видно из данных, RTDETRv2 достигает более высокой максимальной точности (54.3 mAP) в своем самом большом варианте по сравнению с YOLOXx. Однако YOLOX предлагает значительно меньшие и более быстрые варианты, такие как YOLOXs, которые могут похвастаться меньшим количеством параметров и более высокой скоростью вывода на GPU NVIDIA T4.

Link to this sectionПреимущество Ultralytics: знакомься с YOLO26#

Хотя и RTDETRv2, и YOLOX предлагают уникальные преимущества, современным разработчикам часто требуется единое решение, объединяющее лучшее из обоих миров — высокую точность, невероятно быстрый вывод и доступную экосистему. Недавно выпущенная Ultralytics YOLO26 представляет собой вершину этой эволюции.

Link to this sectionКлючевые инновации YOLO26#

  • Дизайн End-to-End без NMS: Основываясь на концепциях, впервые предложенных в YOLOv10, YOLO26 работает нативно без NMS. Это обеспечивает бесшовный вывод, как у RTDETRv2, без огромных требований к памяти, характерных для трансформеров.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей, гибридный оптимизатор MuSGD (смешивающий SGD и Muon) стабилизирует процесс обучения и радикально ускоряет сходимость.
  • До 43% быстрее вывод на CPU: Благодаря стратегическому удалению модуля Distribution Focal Loss (DFL), YOLO26 специально оптимизирована для граничных вычислений и устройств с низким энергопотреблением, что делает ее существенно быстрее на CPU, чем предыдущие итерации, такие как YOLO11.
  • ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов, решая общую проблему в аэрофотосъемке и робототехнике.

Link to this sectionНепревзойденная универсальность и экосистема#

Помимо базовой производительности, Ultralytics Platform предлагает комплексную экосистему от нуля до продакшена. В отличие от статических академических репозиториев, модели Ultralytics активно поддерживаются и легко поддерживают множество задач через единый, интуитивно понятный API. Независимо от того, выполняешь ли ты Instance Segmentation, отслеживаешь позы с помощью Pose Estimation или работаешь с повернутыми объектами с помощью Oriented Bounding Boxes (OBB), рабочий процесс остается идентичным.

Более того, модели Ultralytics славятся своими низкими требованиями к памяти как во время обучения, так и во время вывода, что позволяет исследователям запускать пакеты большего размера на потребительском оборудовании — резкий контраст с тяжелым весом архитектур на базе Transformer.

Link to this sectionПример кода обучения#

Сила экосистемы Ultralytics лучше всего демонстрируется через ее простоту. Обучение современной модели YOLO26 требует всего нескольких строк кода, полностью абстрагируясь от сложностей загрузки данных и настройки гиперпараметров.

from ultralytics import YOLO

# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")

# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)

Link to this sectionРеальные применения и идеальные сценарии использования#

Выбор правильной архитектуры полностью зависит от твоих ограничений при развертывании и доступности оборудования.

Link to this sectionВысокоточная облачная обработка#

Если твое приложение работает на высокопроизводительных серверных GPU и отдает приоритет максимальной точности — например, при анализе плотных сцен скопления людей или обработке медицинских изображений высокого разрешения, — надежные механизмы внимания RTDETRv2 могут быть очень эффективны.

Link to this sectionРазвертывание на устаревшем граничном оборудовании#

Для развертывания на старых мобильных телефонах или сильно ограниченных микроконтроллерах, где минимальное количество FLOP является строгой необходимостью, сверхлегкая YOLOX-Nano все еще служит жизнеспособным запасным вариантом благодаря своей простой архитектуре CNN.

Link to this sectionСовременный стандарт: AIoT и робототехника#

Для подавляющего большинства современных вариантов использования — от инфраструктуры умных городов и розничной аналитики до автономной навигации — Ultralytics YOLO26 является окончательным выбором. Ее вывод на CPU, который на 43% быстрее, делает ее непревзойденной для граничных вычислений, а дизайн без NMS гарантирует низкую и стабильную задержку. В сочетании с исчерпывающей документацией и поддержкой активного сообщества экосистемы Ultralytics, она позволяет командам переходить от аннотирования данных к глобальному развертыванию быстрее, чем когда-либо прежде.

Оптимизируй свой рабочий процесс

Готов улучшить свои проекты по компьютерному зрению? Исследуй широкие возможности Ultralytics Platform, чтобы легко управлять данными, обучать модели в облаке и развертывать интеллектуальные приложения в масштабе.

Для разработчиков, желающих изучить другие архитектуры в экосистеме Ultralytics, ты также можешь рассмотреть YOLOv8 для глубоко проработанных интеграций с сообществом или YOLOv5 для непревзойденной стабильности в устаревших конвейерах. Однако для расширения границ возможного в 2026 году YOLO26 остается отраслевым стандартом.

Комментарии