Перейти к содержанию

DAMO-YOLO vs. RTDETRv2: техническое сравнение

Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и вычислительные затраты. Это сравнение углубляется в две мощные архитектуры: DAMO-YOLO, высокоскоростной детектор от Alibaba Group, и RTDETRv2, высокоточная модель-трансформер реального времени от Baidu. Мы рассмотрим их архитектурные различия, эталонные показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для вашего проекта в области компьютерного зрения.

DAMO-YOLO: Быстрое и точное обнаружение

DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba Group, предназначенная для достижения превосходного баланса между скоростью и точностью. Она включает в себя несколько новых методов для повышения производительности детекторов в стиле YOLO.

Архитектура и ключевые особенности

DAMO-YOLO основывается на классической парадигме одноэтапного детектора объектов с несколькими ключевыми нововведениями:

  • NAS-Powered Backbone: Использует Neural Architecture Search (NAS) для создания оптимизированной backbone сети. Это позволяет модели найти высокоэффективную архитектуру, разработанную для конкретного оборудования и целевых показателей производительности.
  • Эффективный RepGFPN Neck: Модель использует эффективную версию Generalized Feature Pyramid Network (GFPN) для слияния признаков. Эта структура neck эффективно объединяет признаки из разных масштабов, оставаясь при этом вычислительно легкой.
  • ZeroHead: Ключевой инновацией является ZeroHead, которая разделяет головы классификации и регрессии для снижения вычислительных издержек и повышения производительности. Этот конструктивный выбор упрощает архитектуру головы без ущерба для точности.
  • Назначение меток AlignedOTA: DAMO-YOLO использует AlignedOTA (Optimal Transport Assignment) для назначения меток прогнозам во время обучения. Эта усовершенствованная стратегия гарантирует, что для каждого фактического объекта будут выбраны наиболее подходящие опорные точки, что приведет к улучшению сходимости обучения и повышению точности.

Сильные и слабые стороны

Преимущества:

  • Исключительная скорость инференса: Модели DAMO-YOLO, особенно небольшие варианты, предлагают очень низкую задержку на оборудовании GPU, что делает их идеальными для инференса в реальном времени.
  • Высокая эффективность: Модель достигает хорошего баланса скорости и точности с относительно небольшим количеством параметров и FLOPs.
  • Масштабируемая архитектура: Доступна в нескольких размерах (Tiny, Small, Medium, Large), что позволяет разработчикам выбирать подходящую модель с учетом ограничений ресурсов.

Слабые стороны:

  • Ограничения по точности: Несмотря на скорость, его пиковая точность может не соответствовать точности более сложных моделей на основе трансформеров в сложных сценариях со многими маленькими или перекрывающимися объектами.
  • Экосистема и удобство использования: Экосистема вокруг DAMO-YOLO менее развита по сравнению с более распространенными фреймворками, что потенциально требует больше усилий для интеграции и развертывания.

Узнайте больше о DAMO-YOLO

RTDETRv2: Высокоточный детектор реального времени на основе Transformer

RTDETRv2 (Real-Time Detection Transformer v2) — это современная модель обнаружения объектов от Baidu, которая использует возможности трансформеров для обеспечения высокой точности при сохранении производительности в реальном времени. Это эволюция оригинальной RT-DETR, включающая в себя «bag-of-freebies» для дальнейшего улучшения ее возможностей.

Архитектура и ключевые особенности

RTDETRv2 основан на фреймворке DETR (DEtection TRansformer), который переосмысливает обнаружение объектов как задачу прямого предсказания набора.

  • Гибридная конструкция CNN-Transformer: Используется обычная CNN backbone (например, ResNet) для извлечения начальных карт признаков, которые затем передаются в transformer encoder-decoder.
  • Глобальное контекстное моделирование: Механизм само-внимания transformer позволяет модели фиксировать глобальные взаимосвязи между различными частями изображения. Это делает его исключительно хорошим в обнаружении объектов в сложных и загроможденных сценах.
  • Сквозное обнаружение: Как и другие модели на основе DETR, RTDETRv2 является сквозной и устраняет необходимость в компонентах, разработанных вручную, таких как Non-Maximum Suppression (NMS), упрощая конвейер обнаружения.
  • Подход без Anchor: Модель не использует anchor, что позволяет избежать сложностей, связанных с проектированием и настройкой anchor boxes.

Сильные и слабые стороны

Преимущества:

  • Современная точность: RTDETRv2 достигает очень высоких показателей mAP, часто превосходя другие детекторы реального времени, особенно в сценариях с плотным распределением объектов.
  • Надёжность в сложных сценах: Механизм глобального внимания делает его очень эффективным для различения перекрывающихся объектов и понимания более широкого контекста сцены.
  • Упрощенный конвейер: Сквозная конструкция без NMS делает этап постобработки более чистым и простым.

Слабые стороны:

  • Более высокие вычислительные затраты: Архитектуры на основе Transformer обычно более требовательны к параметрам, FLOPs и использованию памяти по сравнению с чистыми CNN моделями.
  • Более медленный инференс: Будучи оптимизированным для использования в реальном времени, его скорость инференса, как правило, ниже, чем у самых быстрых моделей на основе YOLO.
  • Сложность обучения: Обучение трансформеров может быть более ресурсоемким и требовать более длительных графиков обучения и больше памяти, чем CNN.

Узнайте больше о RTDETRv2

Сравнение производительности и обучения

Ориентиры производительности

Здесь представлено подробное сравнение производительности вариантов DAMO-YOLO и RTDETRv2 на наборе данных COCO val.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLO-t 640 42.0 - 2.32 8.5 18.1
DAMO-YOLO-s 640 46.0 - 3.45 16.3 37.8
DAMO-YOLO-m 640 49.2 - 5.09 28.2 61.8
DAMO-YOLO-l 640 50.8 - 7.18 42.1 97.3
RTDETRv2-s 640 48.1 - 5.03 20.0 60.0
RTDETRv2-m 640 51.9 - 7.51 36.0 100.0
RTDETRv2-l 640 53.4 - 9.76 42.0 136.0
RTDETRv2-x 640 54.3 - 15.03 76.0 259.0

На основании таблицы можно сделать несколько выводов:

  • Точность: RTDETRv2 стабильно достигает более высокого mAP для сопоставимых размеров моделей, при этом его самый большой вариант достигает впечатляющего показателя 54,3 mAP.
  • Скорость: DAMO-YOLO имеет явное преимущество в скорости инференса, при этом ее крошечная модель более чем в два раза быстрее, чем самая маленькая модель RTDETRv2 на GPU T4.
  • Эффективность: Модели DAMO-YOLO более эффективны с точки зрения параметров и FLOPs. Например, DAMO-YOLO-m достигает 49,2 mAP с 28,2M параметрами, в то время как RTDETRv2-s требуется 20,0M параметров для достижения аналогичного 48,1 mAP, но работает медленнее.

Идеальные варианты использования

  • DAMO-YOLO лучше всего подходит для приложений, где скорость имеет первостепенное значение, например:

    • Видеонаблюдение в реальном времени: Обработка видеопотоков с высокой частотой кадров для таких приложений, как системы охранной сигнализации.
    • Edge AI развертывания: Работа на устройствах с ограниченными ресурсами, таких как NVIDIA Jetson или Raspberry Pi.
    • Робототехника: Обеспечение быстрого восприятия для роботов, которым требуется быстрое принятие решений, как обсуждается в разделе Роль ИИ в робототехнике.
  • RTDETRv2 превосходно подходит для сценариев, где точность является главным приоритетом:

    • Автономное вождение: Надежное обнаружение пешеходов, транспортных средств и препятствий в сложных городских условиях.
    • Безопасность с высокими ставками: Выявление угроз в людных общественных местах, где важна точность.
    • Розничная аналитика: Точный подсчет и отслеживание большого количества товаров на полках или покупателей в магазине.

Преимущество Ultralytics: YOLOv8 и YOLO11

Хотя DAMO-YOLO и RTDETRv2 являются мощными моделями, экосистема Ultralytics YOLO, включающая такие модели, как YOLOv8 и новейшая Ultralytics YOLO11, предлагает убедительную альтернативу, которая часто предоставляет превосходный общий пакет для разработчиков и исследователей.

Ключевые преимущества использования моделей Ultralytics включают:

  • Простота использования: Оптимизированный Python API, подробная документация и понятное использование CLI делают обучение, валидацию и развертывание невероятно простыми.
  • Хорошо поддерживаемая экосистема: Ultralytics обеспечивает активную разработку, мощную поддержку сообщества через GitHub, частые обновления и бесшовную интеграцию с Ultralytics HUB для комплексного MLOps.
  • Баланс производительности: Модели Ultralytics высоко оптимизированы для достижения превосходного компромисса между скоростью и точностью, что делает их подходящими для широкого спектра применений, от периферийных устройств до облачных серверов.
  • Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти, обычно требуя меньше памяти CUDA для обучения и инференса по сравнению с моделями на основе трансформеров, такими как RTDETRv2, которые, как известно, требуют больших ресурсов.
  • Универсальность: Такие модели, как YOLOv8 и YOLO11, представляют собой многозадачные фреймворки, которые изначально поддерживают обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB), предоставляя унифицированное решение, которого не хватает DAMO-YOLO и RTDETRv2.
  • Эффективность обучения: Воспользуйтесь преимуществами быстрого времени обучения, эффективной сходимости и готовых предварительно обученных весов на популярных наборах данных, таких как COCO.

Заключение

DAMO-YOLO и RTDETRv2 — это исключительные модели обнаружения объектов, которые расширяют границы скорости и точности, соответственно. DAMO-YOLO — это оптимальный выбор для приложений, требующих минимально возможной задержки на оборудовании GPU. В отличие от этого, RTDETRv2 является предпочтительной моделью, когда достижение максимальной точности является обязательным условием, особенно в сложных визуальных средах.

Однако, для большинства разработчиков и исследователей модели Ultralytics, такие как YOLO11, представляют собой наиболее практичное и эффективное решение. Они предлагают превосходный баланс скорости и точности, непревзойденную простоту использования, многозадачную универсальность и поддерживаются надежной и активно поддерживаемой экосистемой. Это сочетание делает модели Ultralytics YOLO рекомендуемым выбором для создания высокопроизводительных приложений компьютерного зрения для реального мира.

Изучите другие модели

Пользователям, интересующимся DAMO-YOLO и RTDETRv2, эти сравнения также могут показаться полезными:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии