Перейти к содержанию

RTDETRv2 против YOLO: техническое сравнение для обнаружения объектов

Выбор оптимальной модели обнаружения объектов имеет решающее значение для успешной работы приложений компьютерного зрения. Ultralytics предлагает широкий выбор моделей, и на этой странице представлено подробное техническое сравнение RTDETRv2 и YOLO, двух передовых моделей в области обнаружения объектов. Этот анализ поможет вам принять обоснованное решение, исходя из требований вашего проекта.

RTDETRv2: Высокоточное обнаружение на основе трансформатора

RTDETRv2(Real-Time Detection Transformer v2) - это современная модель обнаружения объектов, разработанная компанией Baidu и известная своей высокой точностью и эффективной работой в режиме реального времени. Представленная 2023-04-17 в статье"DETRs Beat YOLOs on Real-time Object Detection" авторов Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu, RTDETRv2 использует архитектуру Vision Transformer (ViT) для достижения надежного извлечения признаков и глобального понимания контекста.

Архитектура и особенности

RTDETRv2 отличается архитектурой на основе трансформаторов, что позволяет ему улавливать глобальный контекст в изображениях более эффективно, чем традиционные детекторы на основе CNN. Такая архитектура позволяет добиться более высокой точности, особенно в сложных сценах, где понимание широкого контекста имеет решающее значение. Модель реализована на PyTorch и доступна на GitHub.

Производительность

RTDETRv2 демонстрирует впечатляющие показатели производительности, достигая mAPval50-95 на уровне 54,3 для своего самого большого варианта, RTDETRv2-x. Скорость вычислений также конкурентоспособна, что делает его подходящим для приложений реального времени при использовании мощного оборудования.

Сильные и слабые стороны

Сильные стороны:

  • Высокая точность: Трансформаторная архитектура обеспечивает превосходную точность обнаружения объектов.
  • Возможность работы в режиме реального времени: Обеспечивает высокую скорость вычислений, особенно при использовании ускорения TensorRT .
  • Эффективное контекстное обучение: Трансформаторы видения отлично справляются с передачей глобального контекста в образах.

Слабые стороны:

  • Больший размер модели: Модели RTDETRv2, особенно большие варианты, имеют значительное количество параметров и FLOP, что требует больше вычислительных ресурсов.
  • Требовательность к вычислениям: Несмотря на оптимизацию скорости, эта модель может оказаться не такой легкой, как некоторые другие, для развертывания на устройствах с очень ограниченными ресурсами.

Примеры использования

RTDETRv2 идеально подходит для приложений, для которых важна высокая точность и которые имеют доступ к значительным вычислительным ресурсам:

Узнайте больше о RTDETRv2

YOLO: эффективное и быстрое обнаружение объектов

YOLO(DAMO серии YOLO), разработанный компанией Alibaba Group и представленный 2022-11-23 в статье"YOLO: переосмысление масштабируемого и точного обнаружения объектов", авторами которой являются Сянчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илун Хуан, Юань Чжан и Сюйюй Сунь, разработан для обеспечения скорости и эффективности при сохранении конкурентоспособной точности. YOLO ориентирован на производительность в реальном времени и доступен на GitHub.

Архитектура и особенности

В YOLO используется несколько инновационных технологий для повышения эффективности, в том числе нейронная архитектура поиска (NAS), эффективный RepGFPN и ZeroHead. Эти архитектурные решения способствуют повышению скорости и снижению требований к вычислениям, что делает его отличным выбором для приложений реального времени и пограничных развертываний.

Производительность

YOLO превосходит по скорости вычислений, предлагая очень высокую производительность на различных аппаратных платформах. Хотя его точность несколько ниже, чем у RTDETRv2, он обеспечивает оптимальный баланс между скоростью и точностью, особенно для приложений, требующих быстрой обработки.

Сильные и слабые стороны

Сильные стороны:

  • Высокая скорость: Оптимизирован для чрезвычайно быстрого вывода, идеально подходит для систем реального времени.
  • Эффективность: Меньшие размеры моделей и низкие требования к вычислениям делают их пригодными для использования в краевых устройствах.
  • Масштабируемость: Разработана для масштабирования и адаптации к различным сценариям развертывания.

Слабые стороны:

  • Точность: Несмотря на свою точность, он может не достичь таких же высоких показателей mAP, как RTDETRv2, особенно в сценариях, требующих высокой точности.
  • Контекстное понимание: Будучи ориентированной на CNN, она может не так эффективно улавливать глобальный контекст, как модели на основе трансформаторов в очень сложных сценах.

Примеры использования

YOLO хорошо подходит для приложений, где скорость и эффективность имеют первостепенное значение, и где необходимо развертывание на менее мощном оборудовании:

  • Видеонаблюдение в реальном времени: Идеально подходит для таких приложений, как системы охранной сигнализации, требующие немедленного обнаружения.
  • Пограничные вычисления: Идеально подходит для развертывания на пограничных устройствах, таких как Raspberry Pi и NVIDIA Jetson.
  • Приложения для быстрой обработки данных: Подходит для робототехники(ROS Quickstart) и других приложений, требующих быстрого принятия решений.
  • Мобильные развертывания: Достаточно эффективно для мобильных приложений и сред с ограниченными ресурсами.

Узнайте больше о YOLO

Сравнительная таблица моделей

Модель размер(пиксели) mAPval
50-95
CPU ONNX
(мс)
SpeedT4TensorRT10
(мс)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Заключение

RTDETRv2 и YOLO - мощные модели обнаружения объектов, каждая из которых имеет свои преимущества. RTDETRv2 выигрывает в тех случаях, когда приоритетом является максимальная точность, а вычислительные ресурсы доступны. YOLO - предпочтительный выбор для приложений, требующих обработки в реальном времени и эффективного развертывания, особенно на пограничных устройствах.

Для пользователей, рассматривающих другие варианты, Ultralytics предлагает широкий выбор моделей, включая:

Выбор между RTDETRv2, YOLO или другими моделями Ultralytics должен основываться на конкретных потребностях вашего проекта по компьютерному зрению, тщательно учитывая баланс между точностью, скоростью и доступными ресурсами. Более подробную информацию и руководства по применению можно найти в документацииUltralytics и в репозиторииUltralytics на GitHub.

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии