Перейти к содержанию

YOLOv5 против RTDETRv2: Подробное сравнение моделей

Выбор правильной модели обнаружения объектов имеет решающее значение для проектов в области компьютерного зрения. Ultralytics предлагает набор моделей, адаптированных под различные нужды, включая высокоэффективную модель Ultralytics YOLOv5 и сравнение ее с другими архитектурами, такими как RTDETRv2. На этой странице представлено техническое сравнение YOLOv5 и RTDETRv2, подчеркивающее их архитектурные различия, показатели производительности, методологии обучения и идеальные приложения.

YOLOv5: скорость и эффективность

Автор: Гленн Джочер
Организация: Ultralytics
Дата: 2020-06-26
GitHub: https:yolov5
Docs: https:yolov5

Ultralytics YOLOv5 - широко распространенный одноступенчатый детектор объектов, который отличается исключительной скоростью вывода и эффективностью работы. Разработанный компанией Ultralytics, он стал эталоном для задач обнаружения объектов в реальном времени.

Архитектура

В YOLOv5 используется архитектура на основе CNN, оптимизированная для скорости:

  • Магистраль: CSPDarknet53 для эффективного извлечения признаков.
  • Шея: PANet для эффективного объединения признаков в разных масштабах.
  • Головка: головка обнаружения YOLOv5 для предсказания и классификации границ. Она доступна в нескольких размерах (n, s, m, l, x), что позволяет пользователям выбрать оптимальный компромисс между скоростью и точностью для своих конкретных нужд.

Сильные стороны

YOLOv5 предлагает значительные преимущества, особенно для разработчиков, стремящихся к практическому развертыванию:

  • Простота использования: Удобство использования благодаря простому API, обширной документации и многочисленным учебным пособиям.
  • Хорошо поддерживаемая экосистема: Преимущества интегрированной экосистемыUltralytics , включая активную разработку, сильную поддержку сообщества через GitHub и Discord, частые обновления и такие платформы, как Ultralytics HUB, для обучения и развертывания без кода.
  • Баланс производительности: Достигается сильный баланс между скоростью и точностью выводов, что делает его пригодным для различных реальных сценариев.
  • Требования к памяти: Обычно требует меньше памяти (особенно памяти CUDA во время обучения) по сравнению с моделями на основе трансформаторов, такими как RTDETRv2.
  • Эффективность обучения: Предлагает эффективные процессы обучения, ускоренную сходимость и легкодоступные предварительно обученные веса на таких наборах данных, как COCO.
  • Универсальность: Хотя репозиторий YOLOv5 в первую очередь ориентирован на обнаружение, он также поддерживает задачи сегментации экземпляров и классификации изображений.

Слабые стороны

  • Точность: Несмотря на высокую точность, более крупные и сложные модели, такие как RTDETRv2-x, могут достичь немного более высокого mAP на сложных наборах данных, хотя и за счет снижения скорости и ресурсов.

Идеальные варианты использования

YOLOv5 превосходит всех:

Узнайте больше о YOLOv5

RTDETRv2: Высокоточное обнаружение в режиме реального времени

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Организация: Baidu
Дата: 2023-04-17 (первоначальный RT-DETR), 2024-07-24 (улучшения RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
Docs: https:RT-DETR

RTDETRv2 (Real-Time Detection Transformer v2) - это современный детектор объектов, использующий возможности Vision Transformers (ViT) для достижения высокой точности при сохранении производительности в реальном времени.

Архитектура

В RTDETRv2 используется гибридный подход:

  • Магистраль: Как правило, CNN (например, варианты ResNet) для первоначального извлечения признаков.
  • Кодер-декодер: Структура кодера-декодера на основе трансформатора, использующая механизмы самовнимания для улавливания глобального контекста в характеристиках изображения. Это позволяет модели лучше понимать взаимосвязи между удаленными объектами и сложными сценами.

Сильные стороны

  • Высокая точность: Архитектура трансформатора позволяет RTDETRv2 достигать превосходных показателей mAP, особенно на сложных наборах данных с плотными или мелкими объектами.
  • Возможность работы в режиме реального времени: Оптимизирована для обеспечения конкурентоспособной скорости вычислений, особенно при ускорении с помощью таких инструментов, как NVIDIA TensorRT.
  • Надежное извлечение признаков: Эффективно улавливает глобальный контекст, что позволяет повысить производительность в сложных сценариях, таких как окклюзия.

Слабые стороны

  • Вычислительные затраты: Как правило, количество параметров и FLOPs выше, чем у YOLOv5, что требует более значительных вычислительных ресурсовGPU памятьGPU , вычислительная мощность).
  • Сложность обучения: Обучение моделей на основе трансформаторов может быть более ресурсоемким и потенциально более медленным, чем обучение моделей на основе CNN, таких как YOLOv5.
  • Скорость вывода: Несмотря на возможность работы в реальном времени на мощном оборудовании, она может быть медленнее, чем самые быстрые варианты YOLOv5 , особенно на процессорах или менее мощных пограничных устройствах.
  • Экосистема: Отсутствует обширная, единая экосистема, инструментарий (например, Ultralytics HUB) и широкая поддержка сообщества, предоставляемая Ultralytics для моделей YOLO .

Идеальные варианты использования

RTDETRv2 лучше всего подходит для приложений, где точность имеет первостепенное значение, а вычислительные ресурсы достаточны:

Узнайте больше о RTDETRv2

Сравнение производительности: YOLOv5 против RTDETRv2

Модель размер
(пикселей)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4TensorRT10
(мс)
params
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

В таблице показаны компромиссы:

  • YOLOv5 Модели YOLOv5 (особенно n/s/m) обеспечивают значительно более высокую скорость вычислений как на CPU , так и на GPU TensorRT) при гораздо меньшем количестве параметров и FLOP, что делает их идеальными для сред с ограниченными ресурсами.
  • Модели RTDETRv2 достигают более высоких пиковых показателей mAP (особенно варианты l/x), но сопровождаются повышенными задержками и вычислительными требованиями. Примечательно, что RTDETRv2-s/m предлагают конкурентоспособную точность по сравнению с YOLOv5l/x при потенциально более высокой скорости работы TensorRT , но не имеют заявленной производительности CPU .

Обучение и экосистема

Ultralytics YOLOv5 отличается простотой обучения и обширной экосистемой. Обучение проходит легко с помощью предоставляемого CLI или Python API, подкрепленного обширной документацией и учебными пособиями. Экосистема Ultralytics предлагает такие инструменты, как Ultralytics HUB для упрощения обучения и развертывания, активную поддержку сообщества, а также бесшовную интеграцию с такими инструментами, как Weights & Biases и ClearML. Кроме того, CNN-архитектура YOLOv5, как правило, требует меньше памяти GPU и обучается быстрее, чем трансформаторные модели.

RTDETRv2, несмотря на свою мощь, предполагает обучение более сложной архитектуры трансформаторов. Это, как правило, требует более значительных вычислительных ресурсов (особенно большого объема памяти GPU ) и потенциально более длительного времени обучения. Хотя репозиторий GitHub предоставляет обучающие скрипты, окружающая экосистема и структура поддержки не столь обширны, как у Ultralytics.

Заключение

И YOLOv5 , и RTDETRv2 - способные модели обнаружения объектов, но они ориентированы на разные приоритеты.

  • Ultralytics YOLOv5 это рекомендуемый выбор для приложений, требующих высокой скорости, эффективности, простоты использования и универсальности развертывания, особенно на граничных устройствах или там, где вычислительные ресурсы ограничены. Надежная экосистема и низкие требования к обучению делают его очень доступным для разработчиков и исследователей.
  • RTDETRv2 подходит, когда максимальная точность является абсолютным приоритетом, и доступны достаточные вычислительные ресурсы (включая мощные графические процессоры для обучения и вывода).

Для большинства практических приложений YOLOv5 обеспечивает превосходный, а зачастую и лучший баланс между производительностью, скоростью и удобством использования, опираясь на мощную поддержку и инструментарий экосистемы Ultralytics .

Изучите другие модели

Если вы изучаете альтернативные варианты, рассмотрите другие модели в экосистеме Ultralytics :

  • YOLOv8: преемник YOLOv5, обеспечивающий повышенную точность и скорость выполнения различных задач, включая обнаружение, сегментацию, позиционирование и отслеживание.
  • YOLOv10: включает в себя такие инновации, как обучение без NMS для дальнейшего повышения эффективности.
  • YOLO11: последнее поколение Ultralytics, расширяющее границы производительности и эффективности.

Сравнение таких моделей, как YOLOv8 против RTDETRv2 или YOLOv10 против RTDETRv2, может дать дополнительные сведения о том, что лучше всего подходит для вашего проекта.

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии