Перейти к содержанию

YOLO RTDETRv2: архитектуры для обнаружения в реальном времени

Выбор оптимальной архитектуры обнаружения объектов — это ключевое решение, которое влияет на все: от задержки вывода до затрат на внедрение. Две инновационные модели, которые бросили вызов существующему положению вещей, — это YOLO от Alibaba и RTDETRv2 от Baidu. В то время какYOLO на поиске нейронной архитектуры (NAS) и эффективной перепараметризации, RTDETRv2 расширяет границы трансформаторов реального времени, усовершенствуя парадигму DETR.

В этом руководстве представлен подробный технический анализ их архитектуры, показателей производительности и методологий обучения, который поможет вам определить, какая модель соответствует вашим конкретным требованиям в области компьютерного зрения. Мы также рассмотрим, как следующее поколение Ultralytics объединяет лучшие черты этих подходов в единую, простую в использовании платформу.

Обзор DAMO-YOLO

YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) был разработан Alibaba Group для удовлетворения специфических потребностей промышленных приложений, где низкая задержка и высокая точность являются обязательными условиями. Он представляет собой набор технологий, предназначенных для сжатия модели без потери производительности.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 23 ноября 2022 г.
Arxiv:Статья DAMO-YOLO
GitHub:tinyvision/DAMO-YOLO

Узнайте больше о YOLO26

Ключевые архитектурные инновации

YOLO несколькими «бонусами», разработанными для повышения эффективности:

  • Поиск нейронной архитектуры (NAS): в отличие от моделей с вручную разработанными базовыми структурами,YOLO NAS для автоматического поиска наиболее эффективной структуры для базовой структуры (MAE-NAS), оптимизируя компромисс между операциями с плавающей запятой (FLOP) и точностью.
  • Эффективная RepGFPN: она использует обобщенную сеть Feature Pyramid Network (RepGFPN), которая использует перепараметризацию. Это позволяет объединять сложные структуры, используемые во время обучения, в более простые и быстрые свертки во время вывода.
  • ZeroHead: Легкая головка обнаружения, которая минимизирует вычислительную нагрузку, обычно связанную с конечными слоями прогнозирования.
  • AlignedOTA: оптимизированная стратегия присвоения меток, которая решает проблемы несоответствия между задачами классификации и регрессии во время обучения.

Обзор RTDETRv2

RTDETRv2 (Real-Time Detection Transformer v2) основан на успехе оригинального RT-DETR, первого детектора на основе трансформатора, который по скорости работы действительно может составить конкуренцию YOLO . Разработанный компанией Baidu, он призван устранить необходимость в постобработке с помощью алгоритма Non-Maximum Suppression (NMS), одновременно повышая скорость сходимости и гибкость.

Авторы: Вэнью Лв, Янь Чжао, Циньяо Чан, Куй Хуан, Гуанчжун Ван и И Лю
Организация: Baidu
Дата: 17 апреля 2023 г. (v1), июль 2024 г. (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR

Узнайте больше о RT-DETR

Ключевые архитектурные инновации

RTDETRv2 усовершенствует архитектуру трансформатора для практических задач машинного зрения:

  • Гибридный кодер: он сочетает в себе базовую структуру CNN с эффективным гибридным кодером, который развязывает взаимодействие внутри масштаба и межмасштабное слияние, решая проблему высокой вычислительной стоимости стандартных механизмов самовнимания.
  • Выбор запросовIoU: этот механизм выбирает высококачественные начальные запросы объектов на основе оценок пересечения над объединением (IoU), что приводит к более быстрой конвергенции обучения.
  • Гибкое развертывание: в отличие от своей предшественницы, RTDETRv2 поддерживает гибкие формы ввода и улучшенную оптимизацию для TensorRT, что делает его более пригодным для использования с различными аппаратными бэкэндами.
  • NMS: благодаря непосредственному прогнозированию набора объектов устраняется разброс задержек, вызванный NMS, что является важным преимуществом для аналитики видео в реальном времени.

Сравнение производительности

При сравнении этих архитектур очень важно учитывать баланс между средней точностью (mAP) и скоростью вывода на различных аппаратных конфигурациях.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Анализ

  • Точность: RTDETRv2 обычно достигает более высоких mAP , особенно в средних и крупных вариантах. Модель «X» достигает впечатляющих 54,3 % mAP, превосходя самый крупныйYOLO . Это делает ее подходящей для приложений, требующих высокоточного обнаружения, таких как медицинская визуализация или обнаружение дефектов.
  • Скорость:YOLO по сырой пропускной способности на TensorRT . Его перепараметризованная архитектура CNN по своей сути более удобна для аппаратного обеспечения, чем блоки трансформатора в RTDETRv2, что приводит к более низкой задержке для вариантов «Tiny» и «Small».
  • Эффективность параметров:YOLO , имеет меньше параметров для аналогичных уровней производительности, что может быть выгодно для периферийных устройств с ограниченным объемом памяти.

Преимущества Ultralytics: Почему стоит выбрать YOLO26?

ХотяYOLO RTDETRv2 обладают особыми преимуществами, разработчики часто сталкиваются с проблемами, связанными со сложными процессами обучения, ограниченной поддержкой платформ и фрагментированной документацией. Ultralytics решает эти проблемы, интегрируя передовые инновации в единую, ориентированную на пользователя экосистему.

Интегрированное совершенство

YOLO26 объединяет скорость CNN с простотой трансформаторов, предлагая конструкцию NMS, которая упрощает развертывание и превосходит предшественников как в GPU CPU в GPU .

1. Превосходный пользовательский опыт и экосистема

Отличительной чертой Ultralytics является простота использования. В то время как исследовательские репозитории часто требуют сложной настройки среды, YOLO26 можно установить и запустить за считанные секунды с помощью ultralytics пакет. Ultralytics Platform еще больше усиливает это, предоставляя управление наборами данных через Интернет, обучение в один клик и автоматическое развертывание.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

2. Архитектура NMS от начала до конца

YOLO26 использует нативную сквозную конструкцию NMS, которую он имеет в общем с RTDETRv2, но реализует в рамках высокооптимизированной структуры CNN. Этот прорыв устраняет необходимость в немаксимальном подавлении (NMS), которое часто является узким местом в конвейерах развертывания. Устраняя NMS, YOLO26 обеспечивает стабильное время вывода и упрощает интеграцию с такими инструментами, как OpenVINO и CoreML.

3. Эффективность и стабильность тренировок

YOLO26 представляет MuSGD Optimizer, гибрид SGD Muon (вдохновленный обучением LLM), который обеспечивает беспрецедентную стабильность при выполнении задач зрительного восприятия. Это позволяет ускорить сходимость и сократить настройку гиперпараметров по сравнению со сложными графиками, которые часто требуются для моделей на основе трансформаторов, таких как RTDETRv2.

4. Оптимизация с приоритетом краев

Для разработчиков, развертывающих приложения на периферийных устройствах, таких как Raspberry Pi или NVIDIA , YOLO26 предлагает до 43% более быстрое CPU . Удаление Distribution Focal Loss (DFL) еще больше упрощает граф модели для экспорта, обеспечивая лучшую совместимость с маломощными ускорителями по сравнению с вычислительно-емкими механизмами внимания в трансформерах.

5. Универсальность при выполнении различных задач

В отличие от многих специализированных детекторов, YOLO26 является настоящим многозадачным обучаемым алгоритмом. Он поддерживает задачи обнаружения объектов, сегментации экземпляров, оценки позы, классификации и ориентированных ограничивающих рамок (OBB) в рамках одной кодовой базы.

Рекомендации по вариантам использования

  • ВыберитеYOLO ,YOLO : вы работаете исключительно над задачами промышленного контроля, где TensorRT на определенном NVIDIA является единственной целью развертывания, и вам требуется минимальная задержка для простых задач обнаружения.
  • Выберите RTDETRv2, если: вам требуется высокоточная детекция для сложных сцен с окклюзией и у вас есть доступ к мощным графическим процессорам, где вычислительные затраты трансформаторов являются приемлемыми. Это также хороший вариант, если строгое требование — NMSвывода, но вы предпочитаете архитектуру трансформатора.
  • Выберите Ultralytics , если: Вы хотите получить лучшую всестороннюю производительность с передовой точностью, скоростью NMS и возможностью легкого развертывания на CPU, GPU и мобильных устройствах. Его надежная документация, активная поддержка сообщества и интеграция с Ultralytics делают его наиболее перспективным выбором для производственных систем.

Заключение

В области обнаружения объектов существует множество вариантов. YOLO демонстрирует эффективность нейронного архитектурного поиска, а RTDETRv2 — потенциал трансформеров реального времени. Однако Ultralytics выделяется тем, что синтезирует все эти достижения, предлагая вывод NMS, оптимизированную для периферийных устройств скорость и стабильность обучения, вдохновленную LLM, — и все это в самой удобной для разработчиков экосистеме в отрасли.

Для тех, кто готов приступить к реализации своего следующего проекта, изучение документации YOLO26 является рекомендуемым первым шагом для достижения результатов SOTA с минимальными затруднениями.

Дополнительная литература


Комментарии