Перейти к содержанию

RTDETRv2 против DAMO-YOLO: техническое сравнение для обнаружения объектов

Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и вычислительные затраты. На этой странице представлено подробное техническое сравнение двух мощных моделей: RTDETRv2, модели на основе трансформера, известной своей высокой точностью, и DAMO-YOLO, модели на основе CNN, оптимизированной для скорости и эффективности. Мы рассмотрим их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для вашего проекта в области компьютерного зрения.

RTDETRv2: Высокоточный детектор реального времени на основе Transformer

RT-DETRv2 (Детектор-трансформер реального времени v2) — это современная модель обнаружения объектов от Baidu, в которой приоритет отдается высокой точности при сохранении производительности в реальном времени. Он построен на основе фреймворка DETR, используя возможности Transformer для достижения впечатляющих результатов.

Архитектура и ключевые особенности

Архитектура RTDETRv2 построена на основе Vision Transformer (ViT), что позволяет ей обрабатывать изображения с глобальной перспективой. В отличие от традиционных CNN, использующих скользящие окна, механизм самовнимания в трансформерах может одновременно оценивать важность всех областей изображения.

  • Transformer-Based Design: Ядром RTDETRv2 является его структура encoder-decoder на основе transformer, которая превосходно улавливает долгосрочные зависимости и сложные взаимосвязи между объектами в сцене.
  • Гибридная базовая сеть: Он использует гибридный подход, используя CNN backbone для начального извлечения признаков перед подачей признаков в слои transformer. Это сочетает в себе сильные стороны локальных признаков CNN с глобальным контекстным моделированием transformers.
  • Обнаружение без привязки к якорям (Anchor-Free Detection): Как детектор без привязки к якорям (anchor-free detector), RTDETRv2 упрощает конвейер обнаружения, напрямую предсказывая местоположение объектов без использования предопределенных ограничивающих рамок (anchor boxes), снижая сложность и потенциальные проблемы с настройкой.

Сильные и слабые стороны

Преимущества:

  • Высокая точность: Архитектура transformer обеспечивает превосходное понимание контекста, что приводит к самым современным показателям mAP, особенно в сложных сценах с перекрытыми или маленькими объектами.
  • Надежное извлечение признаков: Эффективно захватывает глобальный контекст, что делает его устойчивым к изменениям масштаба и внешнего вида объектов.
  • Возможность работы в реальном времени: Несмотря на высокую вычислительную сложность, RTDETRv2 оптимизирован для инференса в реальном времени, особенно при ускорении с помощью таких инструментов, как TensorRT на NVIDIA GPU.

Слабые стороны:

  • Высокая вычислительная стоимость: Transformers требовательны, что приводит к большему размеру моделей, большему количеству FLOPs и большему использованию памяти по сравнению с моделями на основе CNN.
  • Более медленное обучение: Обучение моделей-трансформеров обычно требует больше вычислительных ресурсов и времени. Им часто требуется значительно больше памяти CUDA, чем моделям, таким как Ultralytics YOLOv8.

Узнайте больше о RTDETRv2

DAMO-YOLO: Эффективное обнаружение с высокой производительностью

DAMO-YOLO — это быстрая и точная модель обнаружения объектов, разработанная Alibaba Group. Она представляет несколько новых методов в семействе YOLO, уделяя особое внимание достижению оптимального баланса между скоростью и точностью за счет передовых архитектурных решений.

Архитектура и ключевые особенности

DAMO-YOLO построена на основе CNN, но включает в себя современные методы для расширения границ производительности.

  • NAS-Powered Backbone: Использует backbone, созданный с помощью Neural Architecture Search (NAS), который автоматически обнаруживает оптимальную структуру сети для извлечения признаков.
  • Эффективный RepGFPN Neck: Модель имеет эффективную конструкцию neck под названием RepGFPN, которая эффективно объединяет признаки из разных масштабов, сохраняя при этом низкие вычислительные затраты.
  • ZeroHead и AlignedOTA: DAMO-YOLO представляет ZeroHead с одним линейным слоем для классификации и регрессии, что снижает сложность. Он также использует AlignedOTA, усовершенствованную стратегию назначения меток, для повышения стабильности и точности обучения.

Сильные и слабые стороны

Преимущества:

  • Исключительная скорость: DAMO-YOLO высоко оптимизирована для быстрого вывода, что делает ее одним из лидеров по производительности для приложений реального времени на оборудовании GPU.
  • Высокая эффективность: Модель достигает отличного баланса скорости и точности с относительно небольшим количеством параметров и FLOPs, особенно в своих меньших вариантах.
  • Инновационные компоненты: Использование NAS, RepGFPN и ZeroHead демонстрирует перспективный подход к проектированию детекторов.

Слабые стороны:

  • Более низкая пиковая точность: Будучи высокоэффективной, ее самые большие модели могут не достигать той же пиковой точности, что и самые большие модели на основе трансформеров, такие как RTDETRv2-x, в очень сложных сценариях.
  • Экосистема и удобство использования: Как модель, ориентированная на исследования, ей может не хватать упрощенного пользовательского опыта, обширной документации и интегрированной экосистемы, которые есть в таких фреймворках, как Ultralytics.

Узнайте больше о DAMO-YOLO

Сравнение производительности: точность и скорость

Основной компромисс между RTDETRv2 и DAMO-YOLO заключается в точности и скорости. Модели RTDETRv2 стабильно достигают более высоких значений mAP, при этом модель RTDETRv2-x достигает 54.3 mAP. Это делает ее отличным выбором для приложений, где точность является обязательным требованием.

В отличие от них, DAMO-YOLO превосходит по задержке инференса. Модель DAMO-YOLO-t значительно быстрее, чем любой вариант RTDETRv2, что делает ее идеальной для приложений, требующих чрезвычайно низкой задержки на периферийных устройствах. Выбор зависит от того, может ли приложение допустить небольшое снижение точности ради существенного увеличения скорости.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20.0 60.0
RTDETRv2-m 640 51.9 - 7.51 36.0 100.0
RTDETRv2-l 640 53.4 - 9.76 42.0 136.0
RTDETRv2-x 640 54.3 - 15.03 76.0 259.0
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Преимущество Ultralytics: Почему стоит выбрать Ultralytics YOLO?

Хотя RTDETRv2 и DAMO-YOLO являются мощными, модели из экосистемы Ultralytics YOLO, такие как новейшая YOLO11, часто предоставляют более убедительный общий пакет для разработчиков и исследователей.

  • Простота использования: Модели Ultralytics разработаны для оптимизации работы пользователей благодаря простому Python API, обширной документации и понятным командам CLI.
  • Хорошо поддерживаемая экосистема: Интегрированная платформа Ultralytics HUB упрощает управление набором данных, обучение и развертывание, поддерживаемые активной разработкой и сильной поддержкой сообщества.
  • Баланс производительности: Модели Ultralytics высоко оптимизированы для достижения превосходного компромисса между скоростью и точностью, что делает их подходящими для широкого спектра реальных сценариев развертывания.
  • Эффективность памяти и обучения: Модели Ultralytics YOLO разработаны для эффективного использования памяти, обычно требуя меньше памяти CUDA и времени для обучения по сравнению с моделями на основе трансформеров. Они также поставляются с готовыми предварительно обученными весами на наборах данных, таких как COCO.
  • Универсальность: Такие модели, как YOLO11, поддерживают несколько задач компьютерного зрения, помимо обнаружения, включая сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих прямоугольников (OBB), предлагая унифицированное решение.

Заключение: какая модель подходит именно вам?

Выбор между RTDETRv2 и DAMO-YOLO во многом зависит от конкретных потребностей вашего проекта.

  • Выбирайте RTDETRv2, если ваше приложение требует максимально возможной точности и у вас есть вычислительные ресурсы для обработки его большего размера и более медленного вывода, например, в анализе медицинских изображений или высокоточной промышленной инспекции.

  • Choose DAMO-YOLO, если ваш приоритет — максимальная скорость вывода на оборудовании GPU для приложений реального времени, таких как видеонаблюдение или робототехника, и вы можете принять небольшое снижение точности.

Однако, для большинства разработчиков, ищущих надежное, простое в использовании и высокопроизводительное решение, модели Ultralytics YOLO, такие как YOLO11, представляют собой лучший универсальный выбор. Они предлагают превосходный баланс скорости и точности, исключительную универсальность и поддерживаются всесторонней экосистемой, которая ускоряет разработку от исследований до производства.

Изучите другие сравнения моделей

Если вам интересно, как эти модели соотносятся с другими архитектурами, ознакомьтесь с другими страницами сравнения:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии