YOLO RTDETRv2: архитектуры для обнаружения в реальном времени
Выбор оптимальной архитектуры обнаружения объектов — это ключевое решение, которое влияет на все: от задержки вывода до затрат на внедрение. Две инновационные модели, которые бросили вызов существующему положению вещей, — это YOLO от Alibaba и RTDETRv2 от Baidu. В то время какYOLO на поиске нейронной архитектуры (NAS) и эффективной перепараметризации, RTDETRv2 расширяет границы трансформаторов реального времени, усовершенствуя парадигму DETR.
В этом руководстве представлен подробный технический анализ их архитектуры, показателей производительности и методологий обучения, который поможет вам определить, какая модель соответствует вашим конкретным требованиям в области компьютерного зрения. Мы также рассмотрим, как следующее поколение Ultralytics объединяет лучшие черты этих подходов в единую, простую в использовании платформу.
Обзор DAMO-YOLO
YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) был разработан Alibaba Group для удовлетворения специфических потребностей промышленных приложений, где низкая задержка и высокая точность являются обязательными условиями. Он представляет собой набор технологий, предназначенных для сжатия модели без потери производительности.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 23 ноября 2022 г.
Arxiv:Статья DAMO-YOLO
GitHub:tinyvision/DAMO-YOLO
Ключевые архитектурные инновации
YOLO несколькими «бонусами», разработанными для повышения эффективности:
- Поиск нейронной архитектуры (NAS): в отличие от моделей с вручную разработанными базовыми структурами,YOLO NAS для автоматического поиска наиболее эффективной структуры для базовой структуры (MAE-NAS), оптимизируя компромисс между операциями с плавающей запятой (FLOP) и точностью.
- Эффективная RepGFPN: она использует обобщенную сеть Feature Pyramid Network (RepGFPN), которая использует перепараметризацию. Это позволяет объединять сложные структуры, используемые во время обучения, в более простые и быстрые свертки во время вывода.
- ZeroHead: Легкая головка обнаружения, которая минимизирует вычислительную нагрузку, обычно связанную с конечными слоями прогнозирования.
- AlignedOTA: оптимизированная стратегия присвоения меток, которая решает проблемы несоответствия между задачами классификации и регрессии во время обучения.
Обзор RTDETRv2
RTDETRv2 (Real-Time Detection Transformer v2) основан на успехе оригинального RT-DETR, первого детектора на основе трансформатора, который по скорости работы действительно может составить конкуренцию YOLO . Разработанный компанией Baidu, он призван устранить необходимость в постобработке с помощью алгоритма Non-Maximum Suppression (NMS), одновременно повышая скорость сходимости и гибкость.
Авторы: Вэнью Лв, Янь Чжао, Циньяо Чан, Куй Хуан, Гуанчжун Ван и И Лю
Организация: Baidu
Дата: 17 апреля 2023 г. (v1), июль 2024 г. (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR
Ключевые архитектурные инновации
RTDETRv2 усовершенствует архитектуру трансформатора для практических задач машинного зрения:
- Гибридный кодер: он сочетает в себе базовую структуру CNN с эффективным гибридным кодером, который развязывает взаимодействие внутри масштаба и межмасштабное слияние, решая проблему высокой вычислительной стоимости стандартных механизмов самовнимания.
- Выбор запросовIoU: этот механизм выбирает высококачественные начальные запросы объектов на основе оценок пересечения над объединением (IoU), что приводит к более быстрой конвергенции обучения.
- Гибкое развертывание: в отличие от своей предшественницы, RTDETRv2 поддерживает гибкие формы ввода и улучшенную оптимизацию для TensorRT, что делает его более пригодным для использования с различными аппаратными бэкэндами.
- NMS: благодаря непосредственному прогнозированию набора объектов устраняется разброс задержек, вызванный NMS, что является важным преимуществом для аналитики видео в реальном времени.
Сравнение производительности
При сравнении этих архитектур очень важно учитывать баланс между средней точностью (mAP) и скоростью вывода на различных аппаратных конфигурациях.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Анализ
- Точность: RTDETRv2 обычно достигает более высоких mAP , особенно в средних и крупных вариантах. Модель «X» достигает впечатляющих 54,3 % mAP, превосходя самый крупныйYOLO . Это делает ее подходящей для приложений, требующих высокоточного обнаружения, таких как медицинская визуализация или обнаружение дефектов.
- Скорость:YOLO по сырой пропускной способности на TensorRT . Его перепараметризованная архитектура CNN по своей сути более удобна для аппаратного обеспечения, чем блоки трансформатора в RTDETRv2, что приводит к более низкой задержке для вариантов «Tiny» и «Small».
- Эффективность параметров:YOLO , имеет меньше параметров для аналогичных уровней производительности, что может быть выгодно для периферийных устройств с ограниченным объемом памяти.
Преимущества Ultralytics: Почему стоит выбрать YOLO26?
ХотяYOLO RTDETRv2 обладают особыми преимуществами, разработчики часто сталкиваются с проблемами, связанными со сложными процессами обучения, ограниченной поддержкой платформ и фрагментированной документацией. Ultralytics решает эти проблемы, интегрируя передовые инновации в единую, ориентированную на пользователя экосистему.
Интегрированное совершенство
YOLO26 объединяет скорость CNN с простотой трансформаторов, предлагая конструкцию NMS, которая упрощает развертывание и превосходит предшественников как в GPU CPU в GPU .
1. Превосходный пользовательский опыт и экосистема
Отличительной чертой Ultralytics является простота использования. В то время как исследовательские репозитории часто требуют сложной настройки среды, YOLO26 можно установить и запустить за считанные секунды с помощью ultralytics пакет. Ultralytics Platform еще больше усиливает это, предоставляя управление наборами данных через Интернет, обучение в один клик и автоматическое развертывание.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)
2. Архитектура NMS от начала до конца
YOLO26 использует нативную сквозную конструкцию NMS, которую он имеет в общем с RTDETRv2, но реализует в рамках высокооптимизированной структуры CNN. Этот прорыв устраняет необходимость в немаксимальном подавлении (NMS), которое часто является узким местом в конвейерах развертывания. Устраняя NMS, YOLO26 обеспечивает стабильное время вывода и упрощает интеграцию с такими инструментами, как OpenVINO и CoreML.
3. Эффективность и стабильность тренировок
YOLO26 представляет MuSGD Optimizer, гибрид SGD Muon (вдохновленный обучением LLM), который обеспечивает беспрецедентную стабильность при выполнении задач зрительного восприятия. Это позволяет ускорить сходимость и сократить настройку гиперпараметров по сравнению со сложными графиками, которые часто требуются для моделей на основе трансформаторов, таких как RTDETRv2.
4. Оптимизация с приоритетом краев
Для разработчиков, развертывающих приложения на периферийных устройствах, таких как Raspberry Pi или NVIDIA , YOLO26 предлагает до 43% более быстрое CPU . Удаление Distribution Focal Loss (DFL) еще больше упрощает граф модели для экспорта, обеспечивая лучшую совместимость с маломощными ускорителями по сравнению с вычислительно-емкими механизмами внимания в трансформерах.
5. Универсальность при выполнении различных задач
В отличие от многих специализированных детекторов, YOLO26 является настоящим многозадачным обучаемым алгоритмом. Он поддерживает задачи обнаружения объектов, сегментации экземпляров, оценки позы, классификации и ориентированных ограничивающих рамок (OBB) в рамках одной кодовой базы.
Рекомендации по вариантам использования
- ВыберитеYOLO ,YOLO : вы работаете исключительно над задачами промышленного контроля, где TensorRT на определенном NVIDIA является единственной целью развертывания, и вам требуется минимальная задержка для простых задач обнаружения.
- Выберите RTDETRv2, если: вам требуется высокоточная детекция для сложных сцен с окклюзией и у вас есть доступ к мощным графическим процессорам, где вычислительные затраты трансформаторов являются приемлемыми. Это также хороший вариант, если строгое требование — NMSвывода, но вы предпочитаете архитектуру трансформатора.
- Выберите Ultralytics , если: Вы хотите получить лучшую всестороннюю производительность с передовой точностью, скоростью NMS и возможностью легкого развертывания на CPU, GPU и мобильных устройствах. Его надежная документация, активная поддержка сообщества и интеграция с Ultralytics делают его наиболее перспективным выбором для производственных систем.
Заключение
В области обнаружения объектов существует множество вариантов. YOLO демонстрирует эффективность нейронного архитектурного поиска, а RTDETRv2 — потенциал трансформеров реального времени. Однако Ultralytics выделяется тем, что синтезирует все эти достижения, предлагая вывод NMS, оптимизированную для периферийных устройств скорость и стабильность обучения, вдохновленную LLM, — и все это в самой удобной для разработчиков экосистеме в отрасли.
Для тех, кто готов приступить к реализации своего следующего проекта, изучение документации YOLO26 является рекомендуемым первым шагом для достижения результатов SOTA с минимальными затруднениями.
Дополнительная литература
- Узнайте о показателях YOLO
- Изучите наборы данных по обнаружению объектов
- Руководство по экспорту и развертыванию моделей
- Сравнение: YOLO26 и YOLOv10