YOLOX против RTDETRv2: оценка эволюции моделей обнаружения объектов в реальном времени

Выбор оптимальной архитектуры для приложений компьютерного зрения требует тщательного баланса между точностью, скоростью логического вывода и простотой развертывания. В этом всестороннем техническом анализе мы исследуем фундаментальные различия между YOLOX, высокоэффективной архитектурой CNN без якорей (anchor-free), и RTDETRv2, современным трансформером для обнаружения объектов в реальном времени.

Хотя обе модели внесли значительный вклад в область обнаружения объектов, разработчики, создающие промышленные приложения, часто обнаруживают, что современные альтернативы, такие как Ultralytics YOLO26, обеспечивают превосходную эффективность обучения, меньшие требования к памяти и более надежную экосистему развертывания.

YOLOX: преодоление разрыва между наукой и промышленностью

YOLOX стал чрезвычайно популярной адаптацией серии YOLO без использования якорей, представив упрощенный дизайн, который обеспечил впечатляющее улучшение производительности на момент своего выпуска.

  • Авторы: Чжэн Гэ, Сун Тао Лю, Фэн Ван, Земин Ли и Цзянь Сунь
  • Организация: Megvii
  • Дата: 18 июля 2021 г.
  • Ссылки: Arxiv, GitHub, Документация

Архитектурные инновации

YOLOX перевел семейство YOLO на парадигму без якорей, интегрировав разделенную голову (decoupled head) и передовую стратегию назначения меток SimOTA. Устранение якорных рамок позволило архитектуре значительно сократить количество параметров проектирования и улучшить обобщение на различных эталонных наборах данных. Его облегченные версии, YOLOX-Nano и YOLOX-Tiny, стали популярным выбором для развертывания приложений ИИ машинного зрения на периферийных устройствах.

Наследие и ограничения

Хотя YOLOX принес заметные достижения, его зависимость от тяжелых конвейеров аугментации и устаревших процедур постобработки (таких как традиционный NMS) может приводить к более высокой задержке по сравнению с нативно сквозными (end-to-end) моделями.

Узнай больше о YOLOX

RTDETRv2: продвижение трансформеров зрения реального времени

Опираясь на фундамент своего предшественника, RTDETRv2 использует мощь трансформеров зрения (ViTs) для достижения высокой точности без ущерба для скорости логического вывода в реальном времени.

  • Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
  • Организация: Baidu
  • Дата: 2024-07-24
  • Ссылки: Arxiv, GitHub

Архитектурные инновации

RTDETRv2 фундаментально переосмысливает конвейер обнаружения, используя архитектуру на основе трансформера, которая нативно обходит подавление немаксимумов (NMS). Это достигается за счет гибридного энкодера и выбора запросов (queries) с учетом IoU, что улучшает инициализацию запросов объектов. Модель эффективно обрабатывает многомасштабные признаки, позволяя фиксировать мельчайшие детали в сложных условиях, например при обнаружении на дорожном видео в ночное время.

Однако трансформеры по своей природе ресурсоемки. Обучение RTDETRv2 обычно требует значительно больше памяти GPU и вычислительных циклов, чем CNN-альтернативы, что может стать препятствием для команд, работающих в рамках жестких бюджетных ограничений, или тех, кому требуется частая настройка модели.

Узнай больше о RTDETR

Таблица сравнения производительности

Чтобы объективно оценить эти архитектуры, мы изучили их производительность на наборе данных COCO. Таблица ниже иллюстрирует компромиссы между точностью (mAP), количеством параметров и вычислительной сложностью.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Хотя RTDETRv2 достигает впечатляющей точности, YOLOX сохраняет преимущество в легковесных профилях параметров, особенно с вариантами Nano и Tiny.

Варианты использования и рекомендации

Выбор между YOLOX и RT-DETR зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOX

YOLOX — сильный выбор, если:

  • Исследований обнаружения без анкоров: Академических исследований, использующих чистую архитектуру YOLOX без анкоров в качестве базы для экспериментов с новыми головами обнаружения или функциями потерь.
  • Сверхлегких граничных устройств: Развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый размер варианта YOLOX-Nano (0.91 млн параметров).
  • Исследований назначения меток SimOTA: Исследовательских проектов, изучающих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: YOLO26

Хотя и YOLOX, и RTDETRv2 обладают своими уникальными сильными сторонами, недавно выпущенный Ultralytics YOLO26 переопределяет современное состояние технологий ИИ компьютерного зрения, решая исторические компромиссы между скоростью, точностью и простотой развертывания.

Сквозная (end-to-end) архитектура без NMS

Вдохновляясь трансформерными моделями и сохраняя эффективность CNN, YOLO26 обладает нативным дизайном end-to-end без NMS. Исключая подавление немаксимумов как шаг постобработки, YOLO26 радикально упрощает конвейеры развертывания, обеспечивая стабильную задержку вывода на различных периферийных устройствах без накладных расходов на сложную настройку пороговых значений.

До 43% более быстрый вывод на CPU

В отличие от архитектур трансформеров, таких как RTDETRv2, которые сильно зависят от высокопроизводительных GPU, YOLO26 специально оптимизирован для периферийных вычислительных сред. Благодаря удалению функции потерь Distribution Focal Loss (DFL), YOLO26 упрощает экспорт моделей и достигает до 43% более быстрого вывода на CPU, что делает его идеальным выбором для интеграции в такое оборудование, как Raspberry Pi, или обычные мобильные устройства.

Эффективность обучения с MuSGD

Обучение моделей-трансформеров часто приводит к чрезмерному потреблению памяти CUDA и увеличению времени обучения. YOLO26 представляет инновационный оптимизатор MuSGD — гибрид стохастического градиентного спуска (SGD) и вдохновленного LLM оптимизатора Muon. Это новшество обеспечивает исключительно стабильное обучение и более быструю сходимость, значительно снижая требования к аппаратному обеспечению по сравнению с RTDETRv2.

Непревзойденная экосистема и универсальность

Экосистема Ultralytics предоставляет интуитивно понятный и оптимизированный опыт для разработчика. Благодаря обширной документации, активной поддержке сообщества и облачной платформе Ultralytics Platform, управление полным жизненным циклом ИИ стало проще, чем когда-либо. Более того, YOLO26 обладает высокой универсальностью. В то время как RTDETRv2 фокусируется на обнаружении объектов, YOLO26 нативно поддерживает сегментацию экземпляров, оценку позы, классификацию изображений и задачи ориентированных ограничивающих рамок (OBB). Улучшенный новыми функциями потерь ProgLoss + STAL, YOLO26 также превосходно справляется с распознаванием мелких объектов, что является критически важной функцией для аэрофотосъемки и обнаружения промышленных дефектов.

Другие поддерживаемые модели

Фреймворк Ultralytics также поддерживает предыдущее поколение YOLO11 и YOLOv8, позволяя пользователям легко проводить бенчмаркинг и переносить устаревшие конвейеры.

Бесшовная интеграция с Ultralytics

Развертывание моделей не должно требовать борьбы со сложными, фрагментированными кодовыми базами. Python API от Ultralytics позволяет тебе загружать, обучать и экспортировать современные модели всего за несколько строк кода.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Используя Ultralytics, ты обходишь сложные конфигурации окружения, обычно связанные с исследовательскими репозиториями, что ускоряет выход твоего продукта на рынок.

Заключение

YOLOX и RTDETRv2 представляют собой важные вехи в развитии обнаружения объектов в реальном времени. YOLOX доказал жизнеспособность высокоэффективных CNN без якорей, в то время как RTDETRv2 успешно адаптировал трансформеры под ограничения реального времени.

Однако для современных приложений, начиная от умной ритейл-аналитики до встроенной робототехники, Ultralytics YOLO26 является окончательным решением. Объединяя вывод без NMS с непревзойденной скоростью CPU, уменьшенными требованиями к памяти и надежной поддержкой платформы Ultralytics Platform, YOLO26 позволяет тебе создавать следующее поколение надежных и высокопроизводительных систем компьютерного зрения.

Комментарии