DAMO-YOLO vs. RTDETRv2: техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и вычислительные затраты. Это сравнение углубляется в две мощные архитектуры: DAMO-YOLO, высокоскоростной детектор от Alibaba Group, и RTDETRv2, высокоточная модель-трансформер реального времени от Baidu. Мы рассмотрим их архитектурные различия, эталонные показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для вашего проекта в области компьютерного зрения.
DAMO-YOLO: Быстрое и точное обнаружение
DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba Group, предназначенная для достижения превосходного баланса между скоростью и точностью. Она включает в себя несколько новых методов для повышения производительности детекторов в стиле YOLO.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Архитектура и ключевые особенности
DAMO-YOLO основывается на классической парадигме одноэтапного детектора объектов с несколькими ключевыми нововведениями:
- NAS-Powered Backbone: Использует Neural Architecture Search (NAS) для создания оптимизированной backbone сети. Это позволяет модели найти высокоэффективную архитектуру, разработанную для конкретного оборудования и целевых показателей производительности.
- Эффективный RepGFPN Neck: Модель использует эффективную версию Generalized Feature Pyramid Network (GFPN) для слияния признаков. Эта структура neck эффективно объединяет признаки из разных масштабов, оставаясь при этом вычислительно легкой.
- ZeroHead: Ключевой инновацией является ZeroHead, которая разделяет головы классификации и регрессии для снижения вычислительных издержек и повышения производительности. Этот конструктивный выбор упрощает архитектуру головы без ущерба для точности.
- Назначение меток AlignedOTA: DAMO-YOLO использует AlignedOTA (Optimal Transport Assignment) для назначения меток прогнозам во время обучения. Эта усовершенствованная стратегия гарантирует, что для каждого фактического объекта будут выбраны наиболее подходящие опорные точки, что приведет к улучшению сходимости обучения и повышению точности.
Сильные и слабые стороны
Преимущества:
- Исключительная скорость инференса: Модели DAMO-YOLO, особенно небольшие варианты, предлагают очень низкую задержку на оборудовании GPU, что делает их идеальными для инференса в реальном времени.
- Высокая эффективность: Модель достигает хорошего баланса скорости и точности с относительно небольшим количеством параметров и FLOPs.
- Масштабируемая архитектура: Доступна в нескольких размерах (Tiny, Small, Medium, Large), что позволяет разработчикам выбирать подходящую модель с учетом ограничений ресурсов.
Слабые стороны:
- Ограничения по точности: Несмотря на скорость, его пиковая точность может не соответствовать точности более сложных моделей на основе трансформеров в сложных сценариях со многими маленькими или перекрывающимися объектами.
- Экосистема и удобство использования: Экосистема вокруг DAMO-YOLO менее развита по сравнению с более распространенными фреймворками, что потенциально требует больше усилий для интеграции и развертывания.
RTDETRv2: Высокоточный детектор реального времени на основе Transformer
RTDETRv2 (Real-Time Detection Transformer v2) — это современная модель обнаружения объектов от Baidu, которая использует возможности трансформеров для обеспечения высокой точности при сохранении производительности в реальном времени. Это эволюция оригинальной RT-DETR, включающая в себя «bag-of-freebies» для дальнейшего улучшения ее возможностей.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 2023-04-17 (Оригинальная RT-DETR), 2024-07-24 (Улучшения RTDETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069 (Original), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура и ключевые особенности
RTDETRv2 основан на фреймворке DETR (DEtection TRansformer), который переосмысливает обнаружение объектов как задачу прямого предсказания набора.
- Гибридная конструкция CNN-Transformer: Используется обычная CNN backbone (например, ResNet) для извлечения начальных карт признаков, которые затем передаются в transformer encoder-decoder.
- Глобальное контекстное моделирование: Механизм само-внимания transformer позволяет модели фиксировать глобальные взаимосвязи между различными частями изображения. Это делает его исключительно хорошим в обнаружении объектов в сложных и загроможденных сценах.
- Сквозное обнаружение: Как и другие модели на основе DETR, RTDETRv2 является сквозной и устраняет необходимость в компонентах, разработанных вручную, таких как Non-Maximum Suppression (NMS), упрощая конвейер обнаружения.
- Подход без Anchor: Модель не использует anchor, что позволяет избежать сложностей, связанных с проектированием и настройкой anchor boxes.
Сильные и слабые стороны
Преимущества:
- Современная точность: RTDETRv2 достигает очень высоких показателей mAP, часто превосходя другие детекторы реального времени, особенно в сценариях с плотным распределением объектов.
- Надёжность в сложных сценах: Механизм глобального внимания делает его очень эффективным для различения перекрывающихся объектов и понимания более широкого контекста сцены.
- Упрощенный конвейер: Сквозная конструкция без NMS делает этап постобработки более чистым и простым.
Слабые стороны:
- Более высокие вычислительные затраты: Архитектуры на основе Transformer обычно более требовательны к параметрам, FLOPs и использованию памяти по сравнению с чистыми CNN моделями.
- Более медленный инференс: Будучи оптимизированным для использования в реальном времени, его скорость инференса, как правило, ниже, чем у самых быстрых моделей на основе YOLO.
- Сложность обучения: Обучение трансформеров может быть более ресурсоемким и требовать более длительных графиков обучения и больше памяти, чем CNN.
Сравнение производительности и обучения
Ориентиры производительности
Здесь представлено подробное сравнение производительности вариантов DAMO-YOLO и RTDETRv2 на наборе данных COCO val.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLO-t | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLO-s | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLO-m | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLO-l | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
На основании таблицы можно сделать несколько выводов:
- Точность: RTDETRv2 стабильно достигает более высокого mAP для сопоставимых размеров моделей, при этом его самый большой вариант достигает впечатляющего показателя 54,3 mAP.
- Скорость: DAMO-YOLO имеет явное преимущество в скорости инференса, при этом ее крошечная модель более чем в два раза быстрее, чем самая маленькая модель RTDETRv2 на GPU T4.
- Эффективность: Модели DAMO-YOLO более эффективны с точки зрения параметров и FLOPs. Например, DAMO-YOLO-m достигает 49,2 mAP с 28,2M параметрами, в то время как RTDETRv2-s требуется 20,0M параметров для достижения аналогичного 48,1 mAP, но работает медленнее.
Идеальные варианты использования
-
DAMO-YOLO лучше всего подходит для приложений, где скорость имеет первостепенное значение, например:
- Видеонаблюдение в реальном времени: Обработка видеопотоков с высокой частотой кадров для таких приложений, как системы охранной сигнализации.
- Edge AI развертывания: Работа на устройствах с ограниченными ресурсами, таких как NVIDIA Jetson или Raspberry Pi.
- Робототехника: Обеспечение быстрого восприятия для роботов, которым требуется быстрое принятие решений, как обсуждается в разделе Роль ИИ в робототехнике.
-
RTDETRv2 превосходно подходит для сценариев, где точность является главным приоритетом:
- Автономное вождение: Надежное обнаружение пешеходов, транспортных средств и препятствий в сложных городских условиях.
- Безопасность с высокими ставками: Выявление угроз в людных общественных местах, где важна точность.
- Розничная аналитика: Точный подсчет и отслеживание большого количества товаров на полках или покупателей в магазине.
Преимущество Ultralytics: YOLOv8 и YOLO11
Хотя DAMO-YOLO и RTDETRv2 являются мощными моделями, экосистема Ultralytics YOLO, включающая такие модели, как YOLOv8 и новейшая Ultralytics YOLO11, предлагает убедительную альтернативу, которая часто предоставляет превосходный общий пакет для разработчиков и исследователей.
Ключевые преимущества использования моделей Ultralytics включают:
- Простота использования: Оптимизированный Python API, подробная документация и понятное использование CLI делают обучение, валидацию и развертывание невероятно простыми.
- Хорошо поддерживаемая экосистема: Ultralytics обеспечивает активную разработку, мощную поддержку сообщества через GitHub, частые обновления и бесшовную интеграцию с Ultralytics HUB для комплексного MLOps.
- Баланс производительности: Модели Ultralytics высоко оптимизированы для достижения превосходного компромисса между скоростью и точностью, что делает их подходящими для широкого спектра применений, от периферийных устройств до облачных серверов.
- Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти, обычно требуя меньше памяти CUDA для обучения и инференса по сравнению с моделями на основе трансформеров, такими как RTDETRv2, которые, как известно, требуют больших ресурсов.
- Универсальность: Такие модели, как YOLOv8 и YOLO11, представляют собой многозадачные фреймворки, которые изначально поддерживают обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB), предоставляя унифицированное решение, которого не хватает DAMO-YOLO и RTDETRv2.
- Эффективность обучения: Воспользуйтесь преимуществами быстрого времени обучения, эффективной сходимости и готовых предварительно обученных весов на популярных наборах данных, таких как COCO.
Заключение
DAMO-YOLO и RTDETRv2 — это исключительные модели обнаружения объектов, которые расширяют границы скорости и точности, соответственно. DAMO-YOLO — это оптимальный выбор для приложений, требующих минимально возможной задержки на оборудовании GPU. В отличие от этого, RTDETRv2 является предпочтительной моделью, когда достижение максимальной точности является обязательным условием, особенно в сложных визуальных средах.
Однако, для большинства разработчиков и исследователей модели Ultralytics, такие как YOLO11, представляют собой наиболее практичное и эффективное решение. Они предлагают превосходный баланс скорости и точности, непревзойденную простоту использования, многозадачную универсальность и поддерживаются надежной и активно поддерживаемой экосистемой. Это сочетание делает модели Ultralytics YOLO рекомендуемым выбором для создания высокопроизводительных приложений компьютерного зрения для реального мира.
Изучите другие модели
Пользователям, интересующимся DAMO-YOLO и RTDETRv2, эти сравнения также могут показаться полезными:
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- YOLOv8 vs. RT-DETR
- YOLO11 vs. RT-DETR
- EfficientDet vs. DAMO-YOLO
- YOLOX в сравнении с DAMO-YOLO
- YOLOv7 против RT-DETR