Перейти к содержанию

RTDETRv2 против YOLOX: Углубленное техническое сравнение современных детекторов объектов

Ландшафт компьютерного зрения быстро развивался, предлагая разработчикам и исследователям множество архитектур для выбора при создании систем на основе зрения. Двумя заметными вехами на этом пути являются трансформер-основанный RTDETRv2 и CNN-основанный YOLOX. Хотя обе модели внесли значительный вклад в область обнаружения объектов в реальном времени, они представляют принципиально разные подходы к решению задач визуального распознавания.

Это всеобъемлющее руководство исследует архитектурные нюансы, метрики производительности и идеальные сценарии развертывания для обеих моделей. Кроме того, мы рассмотрим, как современные альтернативы, такие как передовой Ultralytics YOLO26, развивают эти основы для обеспечения превосходной точности, эффективности и простоты использования.

RTDETRv2: Трансформеры обнаружения в реальном времени

Представленный как преемник оригинального RT-DETR, RTDETRv2 использует архитектуру трансформера для достижения высокопроизводительного обнаружения объектов в реальном времени. Устраняя необходимость в Non-Maximum Suppression (NMS), он упрощает конвейер вывода.

Архитектура и Дизайн

RTDETRv2 в значительной степени полагается на механизмы самовнимания, присущие трансформерам, что позволяет модели захватывать глобальный контекст по всему изображению. Такое целостное понимание позволяет ей напрямую предсказывать ограничивающие рамки и вероятности классов. Модель внедряет многомасштабные функции обнаружения, которые улучшают ее способность распознавать мелкие объекты в загроможденных средах.

Узкие места трансформеров

Хотя трансформеры превосходно справляются с захватом глобального контекста, их механизмы самовнимания масштабируются квадратично с длиной последовательности, что часто приводит к значительно более высокому потреблению памяти CUDA во время обучения по сравнению с традиционными CNN.

Сильные и слабые стороны

Основная сила RTDETRv2 заключается в его нативной сквозной архитектуре. Пропуская NMS, он избегает скачков задержки, часто связанных с плотными перекрывающимися предсказаниями. Однако значительные вычислительные затраты его трансформерных блоков означают, что он требует существенных ресурсов GPU как для обучения, так и для развертывания. Это делает его менее идеальным для периферийных устройств с ограниченными ресурсами или устаревшего мобильного оборудования.

Узнайте больше о RTDETRv2

YOLOX: Развитие безякорных CNN

Разработанный для преодоления разрыва между академическими исследованиями и промышленным применением, YOLOX представил разделенную голову (decoupled head) и безанкерную архитектуру (anchor-free design) для популярного семейства моделей YOLO.

Архитектура и Дизайн

YOLOX отличается от традиционных детекторов на основе якорей, предсказывая местоположения объектов напрямую, без предопределенных якорных боксов. Это упрощает дизайн сети и уменьшает количество эвристических параметров настройки, необходимых для оптимальной производительности. Кроме того, YOLOX использует разделенную голову (decoupled head), разделяющую задачи classify и регрессии, что улучшает скорость сходимости во время обучения.

Сильные и слабые стороны

Безанкерная природа YOLOX делает его легко адаптируемым к различным задачам компьютерного зрения и более простым для обучения на пользовательских наборах данных. Его более легкие варианты, такие как YOLOX-Nano, хорошо подходят для развертывания на микроконтроллерах и маломощных IoT-устройствах. Однако, поскольку YOLOX предшествует революции NMS-free, он все еще полагается на традиционную постобработку, что может создавать трудности при развертывании и увеличивать задержку в плотных сценах.

Узнайте больше о YOLOX

Сравнение производительности и метрик

При сравнении этих моделей оценка их скорости, точности и эффективности параметров имеет решающее значение для определения наилучшего соответствия вашему конкретному варианту использования. В таблице ниже представлена производительность моделей различных размеров на стандартном наборе данных COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Как видно из данных, RTDETRv2 достигает более высокой максимальной точности (54,3 mAP) в своем самом крупном варианте по сравнению с YOLOXx. Однако YOLOX предлагает значительно меньшие и более быстрые варианты, такие как YOLOXs, который отличается меньшим количеством параметров и более высокой скоростью инференса на GPU NVIDIA T4.

Преимущество Ultralytics: Представляем YOLO26

Хотя RTDETRv2 и YOLOX предлагают уникальные преимущества, современным разработчикам часто требуется унифицированное решение, которое сочетает в себе лучшее из обоих миров — высокую точность, невероятно быстрый вывод и доступную экосистему. Недавно выпущенная Ultralytics YOLO26 представляет собой вершину этой эволюции.

Ключевые нововведения YOLO26

  • Сквозная архитектура без NMS: Основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 изначально работает без NMS. Это обеспечивает бесшовный вывод RTDETRv2 без огромных требований к памяти, характерных для трансформеров.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей, гибридный оптимизатор MuSGD (сочетающий SGD и Muon) стабилизирует процесс обучения и значительно ускоряет сходимость.
  • До 43% более быстрая инференция на CPU: За счет стратегического удаления модуля Distribution Focal Loss (DFL), YOLO26 специально оптимизирован для периферийных вычислений и маломощных устройств, что делает его значительно быстрее на CPU, чем предыдущие итерации, такие как YOLO11.
  • ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, решая распространённую проблему в аэроснимках и робототехнических приложениях.

Непревзойденная универсальность и экосистема

Помимо чистой производительности, Платформа Ultralytics предлагает комплексную экосистему от нуля до производства. В отличие от статических академических репозиториев, модели Ultralytics активно поддерживаются и бесшовно поддерживают множество задач через единый, интуитивно понятный API. Будь то выполнение сегментации экземпляров, отслеживание поз с помощью оценки позы или обработка повернутых объектов с помощью ориентированных ограничивающих рамок (OBB), рабочий процесс остается идентичным.

Кроме того, модели Ultralytics известны своими низкими требованиями к памяти как во время обучения, так и во время инференса, что позволяет исследователям запускать большие размеры пакетов на потребительском оборудовании — резкий контраст с большим объемом памяти, требуемым архитектурами на основе трансформеров.

Пример кода для обучения

Мощь экосистемы Ultralytics лучше всего демонстрируется ее простотой. Обучение современной модели YOLO26 требует всего нескольких строк кода, полностью абстрагируя сложности загрузки данных и настройки гиперпараметров.

from ultralytics import YOLO

# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")

# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)

Реальные приложения и идеальные сценарии использования

Выбор правильной архитектуры полностью зависит от ваших ограничений развертывания и доступности оборудования.

Высококачественная облачная обработка

Если ваше приложение работает на высокопроизводительных серверных GPU и приоритетом является максимальная точность— например, при анализе плотных скоплений людей или обработке медицинских изображений высокого разрешения— надежные механизмы внимания RTDETRv2 могут быть очень эффективными.

Устаревшее периферийное развертывание

Для развертываний на старых мобильных телефонах или сильно ограниченных микроконтроллерах, где минимальное количество операций с плавающей запятой (FLOPs) является строгой необходимостью, сверхлегкий YOLOX-Nano по-прежнему служит жизнеспособным запасным вариантом благодаря своей простой архитектуре CNN.

Современный стандарт: AIoT и робототехника

Для подавляющего большинства современных сценариев использования — охватывающих инфраструктуру умного города, розничную аналитику и автономную навигацию — Ultralytics YOLO26 является окончательным выбором. Его на 43% более быстрый вывод на CPU делает его непревзойденным для периферийных вычислений, а его NMS-free дизайн гарантирует низкую и стабильную задержку. В сочетании с исчерпывающей документацией и активной поддержкой сообщества экосистемы Ultralytics, он позволяет командам переходить от аннотирования наборов данных к глобальному развертыванию быстрее, чем когда-либо прежде.

Оптимизируйте свой рабочий процесс

Готовы вывести ваши проекты компьютерного зрения на новый уровень? Изучите комплексные возможности платформы Ultralytics для легкого управления данными, обучения моделей в облаке и масштабируемого развертывания интеллектуальных приложений.

Для разработчиков, желающих изучить другие архитектуры в экосистеме Ultralytics, вы также можете рассмотреть YOLOv8 для глубоко укоренившихся интеграций сообщества или YOLOv5 для беспрецедентной стабильности в устаревших конвейерах. Однако, чтобы расширить границы возможного в 2026 году, YOLO26 остается отраслевым стандартом.


Комментарии