Перейти к содержанию

YOLOX против RTDETRv2: Оценка эволюции моделей обнаружения объектов в реальном времени

Выбор оптимальной архитектуры для приложений компьютерного зрения требует тщательного баланса между точностью, скоростью инференса и возможностью развертывания. В этом всестороннем техническом анализе мы исследуем фундаментальные различия между YOLOX, весьма успешной безанкерной архитектурой CNN, и RTDETRv2, современным трансформером для обнаружения объектов в реальном времени.

Хотя обе модели внесли значительный вклад в область обнаружения объектов, разработчики, создающие готовые к производству приложения, часто обнаруживают, что современные альтернативы, такие как Ultralytics YOLO26, обеспечивают превосходную эффективность обучения, более низкие требования к памяти и более надежную экосистему развертывания.

YOLOX: Преодоление разрыва между исследованиями и промышленностью

YOLOX появился как очень популярная безанкерная адаптация серии YOLO, представив упрощенную конструкцию, которая обеспечила впечатляющие улучшения производительности на момент ее выпуска.

  • Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
  • Организация:Megvii
  • Дата: 18 июля 2021 г.
  • Ссылки:Arxiv, GitHub, Документация

Архитектурные инновации

YOLOX перевел семейство YOLO на безанкерную парадигму, интегрировав разделенную голову (decoupled head) и передовую стратегию назначения меток SimOTA. За счет исключения анкерных боксов архитектура значительно сократила количество проектных параметров и улучшила обобщающую способность на различных эталонных наборах данных. Его облегченные версии, YOLOX-Nano и YOLOX-Tiny, стали популярным выбором для развертывания приложений компьютерного зрения на базе ИИ на периферийных устройствах.

Соображения по устаревшим системам

Хотя YOLOX принес заметные достижения, его зависимость от сложных конвейеров аугментации и старых процедур постобработки (таких как традиционная NMS) может приводить к более высокой задержке по сравнению с нативными сквозными моделями.

Узнайте больше о YOLOX

RTDETRv2: Развитие трансформеров компьютерного зрения реального времени

Опираясь на основу своего предшественника, RTDETRv2 использует мощь Vision Transformers (ViTs) для достижения высококонкурентной точности без ущерба для скорости инференса в реальном времени.

  • Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
  • Организация:Baidu
  • Дата: 2024-07-24
  • Ссылки:Arxiv, GitHub

Архитектурные инновации

RTDETRv2 фундаментально переосмысливает конвейер обнаружения, используя архитектуру на основе трансформеров, которая нативно обходит Non-Maximum Suppression (NMS). Это достигается за счет гибридного кодировщика и выбора запросов с учетом IoU, что улучшает инициализацию объектных запросов. Модель эффективно обрабатывает многомасштабные признаки, позволяя ей захватывать сложные детали в комплексных средах, таких как обнаружение объектов на ночных видеозаписях дорожного движения.

Однако трансформеры по своей природе ресурсоемки. Обучение RTDETRv2 обычно требует значительно больше памяти GPU и вычислительных циклов, чем альтернативы на основе CNN, что может стать препятствием для команд, работающих в условиях строгих бюджетных ограничений или требующих частой настройки модели.

Узнайте больше о RTDETR

Таблица сравнения производительности

Для объективной оценки этих архитектур мы исследуем их производительность на наборе данных COCO. В таблице ниже показаны компромиссы между точностью (mAP), количеством параметров и вычислительной сложностью.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Хотя RTDETRv2 достигает впечатляющей точности, YOLOX сохраняет преимущество в легковесных профилях параметров, особенно с его вариантами Nano и Tiny.

Сценарии использования и рекомендации

Выбор между YOLOX и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда следует выбирать YOLOX

YOLOX является отличным выбором для:

  • Исследования безъякорного detect: Академические исследования, использующие чистую, безъякорную архитектуру YOLOX в качестве основы для экспериментов с новыми головами detect или функциями потерь.
  • Сверхлегкие граничные устройства: Развертывание на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый объем (0,91 млн параметров) варианта YOLOX-Nano.
  • Исследования по назначению меток SimOTA: Исследовательские проекты, изучающие стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда выбрать RT-DETR

RT-DETR рекомендуется для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Преимущество Ultralytics: YOLO26

Хотя YOLOX и RTDETRv2 обладают явными преимуществами, недавно выпущенная Ultralytics YOLO26 переопределяет современный уровень для ИИ-зрения, разрешая исторические компромиссы между скоростью, точностью и простотой развертывания.

1. Сквозная архитектура без NMS

Вдохновляясь трансформерными моделями при сохранении эффективности CNN, YOLO26 обладает нативно сквозной NMS-free архитектурой. Устраняя Non-Maximum Suppression (NMS) как этап постобработки, YOLO26 значительно упрощает конвейеры развертывания, обеспечивая стабильную задержку инференса на различных периферийных устройствах без накладных расходов на сложную настройку порогов.

2. До 43% быстрее инференс на CPU

В отличие от трансформерных архитектур, таких как RTDETRv2, которые сильно зависят от высокопроизводительных GPU, YOLO26 специально оптимизирован для сред граничных вычислений. Благодаря удалению Distribution Focal Loss (DFL), YOLO26 упрощает экспорт моделей и достигает до 43% более быстрого вывода на CPU, что делает его идеальным выбором для интеграции в такое оборудование, как Raspberry Pi или стандартные мобильные устройства.

3. Эффективность обучения с MuSGD

Обучение трансформерных моделей часто приводит к чрезмерному потреблению памяти CUDA и увеличению времени обучения. YOLO26 представляет новый оптимизатор MuSGD — гибрид стохастического градиентного спуска и вдохновленного LLM оптимизатора Muon. Это нововведение обеспечивает исключительно стабильное обучение и более быструю сходимость, значительно снижая требования к аппаратному обеспечению по сравнению с RTDETRv2.

4. Непревзойденная экосистема и универсальность

The Экосистема Ultralytics обеспечивает интуитивно понятный, оптимизированный опыт разработчика. Благодаря обширной документации, активной поддержке сообщества и облачной платформе Ultralytics, управление полным жизненным циклом ИИ никогда не было таким простым. Кроме того, YOLO26 очень универсален. В то время как RTDETRv2 фокусируется на обнаружении объектов, YOLO26 беспрепятственно поддерживает задачи сегментации экземпляров, оценки позы, классификации изображений и ориентированных ограничивающих рамок (OBB). Усовершенствованный новыми функциями потерь ProgLoss + STAL, YOLO26 также превосходно справляется с распознаванием мелких объектов, что является критически важной функцией для аэрофотосъемки и обнаружения промышленных дефектов.

Другие поддерживаемые модели

Фреймворк Ultralytics также поддерживает предыдущие поколения YOLO11 и YOLOv8, что позволяет пользователям легко проводить бенчмаркинг и переводить устаревшие конвейеры.

Бесшовная интеграция с Ultralytics

Развертывание моделей не должно требовать борьбы со сложными, фрагментированными кодовыми базами. Python API Ultralytics позволяет загружать, обучать и экспортировать передовые модели всего за несколько строк кода.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Используя Ultralytics, вы обходите сложные конфигурации среды, обычно связанные с исследовательскими репозиториями, ускоряя выход на рынок.

Заключение

YOLOX и RTDETRv2 представляют собой важные вехи в развитии обнаружения объектов в реальном времени. YOLOX доказал жизнеспособность высокоэффективных безанкерных сверточных нейронных сетей (CNN), в то время как RTDETRv2 успешно адаптировал трансформеры для работы в реальном времени.

Однако для современных приложений, от аналитики умной розничной торговли до встроенной робототехники, Ultralytics YOLO26 предлагает окончательное решение. Объединяя NMS-free инференс с беспрецедентной скоростью CPU, уменьшенным объемом памяти и надежной поддержкой платформы Ultralytics, YOLO26 позволяет разработчикам создавать следующее поколение надежных, высокопроизводительных систем компьютерного зрения.


Комментарии