YOLOv5 против RTDETRv2: Подробное сравнение моделей
Выбор правильной модели обнаружения объектов имеет решающее значение для проектов в области компьютерного зрения. Ultralytics предлагает набор моделей, адаптированных под различные нужды, включая высокоэффективную модель Ultralytics YOLOv5 и сравнение ее с другими архитектурами, такими как RTDETRv2. На этой странице представлено техническое сравнение YOLOv5 и RTDETRv2, подчеркивающее их архитектурные различия, показатели производительности, методологии обучения и идеальные приложения.
YOLOv5: скорость и эффективность
Автор: Гленн Джочер
Организация: Ultralytics
Дата: 2020-06-26
GitHub: https:yolov5
Docs: https:yolov5
Ultralytics YOLOv5 - широко распространенный одноступенчатый детектор объектов, который отличается исключительной скоростью вывода и эффективностью работы. Разработанный компанией Ultralytics, он стал эталоном для задач обнаружения объектов в реальном времени.
Архитектура
В YOLOv5 используется архитектура на основе CNN, оптимизированная для скорости:
- Магистраль: CSPDarknet53 для эффективного извлечения признаков.
- Шея: PANet для эффективного объединения признаков в разных масштабах.
- Головка: головка обнаружения YOLOv5 для предсказания и классификации границ. Она доступна в нескольких размерах (n, s, m, l, x), что позволяет пользователям выбрать оптимальный компромисс между скоростью и точностью для своих конкретных нужд.
Сильные стороны
YOLOv5 предлагает значительные преимущества, особенно для разработчиков, стремящихся к практическому развертыванию:
- Простота использования: Удобство использования благодаря простому API, обширной документации и многочисленным учебным пособиям.
- Хорошо поддерживаемая экосистема: Преимущества интегрированной экосистемыUltralytics , включая активную разработку, сильную поддержку сообщества через GitHub и Discord, частые обновления и такие платформы, как Ultralytics HUB, для обучения и развертывания без кода.
- Баланс производительности: Достигается сильный баланс между скоростью и точностью выводов, что делает его пригодным для различных реальных сценариев.
- Требования к памяти: Обычно требует меньше памяти (особенно памяти CUDA во время обучения) по сравнению с моделями на основе трансформаторов, такими как RTDETRv2.
- Эффективность обучения: Предлагает эффективные процессы обучения, ускоренную сходимость и легкодоступные предварительно обученные веса на таких наборах данных, как COCO.
- Универсальность: Хотя репозиторий YOLOv5 в первую очередь ориентирован на обнаружение, он также поддерживает задачи сегментации экземпляров и классификации изображений.
Слабые стороны
- Точность: Несмотря на высокую точность, более крупные и сложные модели, такие как RTDETRv2-x, могут достичь немного более высокого mAP на сложных наборах данных, хотя и за счет снижения скорости и ресурсов.
Идеальные варианты использования
YOLOv5 превосходит всех:
- Обнаружение объектов в реальном времени: Видеонаблюдение, системы охранной сигнализации и искусственный интеллект в управлении дорожным движением.
- Пограничные вычисления: Развертывание на устройствах с ограниченными ресурсами, таких как Raspberry Pi и NVIDIA Jetson.
- Мобильные приложения: Легкие модели, подходящие для мобильного развертывания.
- Быстрое создание прототипов: Быстрая настройка и обучение для решения различных задач компьютерного зрения.
RTDETRv2: Высокоточное обнаружение в режиме реального времени
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Организация: Baidu
Дата: 2023-04-17 (первоначальный RT-DETR), 2024-07-24 (улучшения RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
Docs: https:RT-DETR
RTDETRv2 (Real-Time Detection Transformer v2) - это современный детектор объектов, использующий возможности Vision Transformers (ViT) для достижения высокой точности при сохранении производительности в реальном времени.
Архитектура
В RTDETRv2 используется гибридный подход:
- Магистраль: Как правило, CNN (например, варианты ResNet) для первоначального извлечения признаков.
- Кодер-декодер: Структура кодера-декодера на основе трансформатора, использующая механизмы самовнимания для улавливания глобального контекста в характеристиках изображения. Это позволяет модели лучше понимать взаимосвязи между удаленными объектами и сложными сценами.
Сильные стороны
- Высокая точность: Архитектура трансформатора позволяет RTDETRv2 достигать превосходных показателей mAP, особенно на сложных наборах данных с плотными или мелкими объектами.
- Возможность работы в режиме реального времени: Оптимизирована для обеспечения конкурентоспособной скорости вычислений, особенно при ускорении с помощью таких инструментов, как NVIDIA TensorRT.
- Надежное извлечение признаков: Эффективно улавливает глобальный контекст, что позволяет повысить производительность в сложных сценариях, таких как окклюзия.
Слабые стороны
- Вычислительные затраты: Как правило, количество параметров и FLOPs выше, чем у YOLOv5, что требует более значительных вычислительных ресурсовGPU памятьGPU , вычислительная мощность).
- Сложность обучения: Обучение моделей на основе трансформаторов может быть более ресурсоемким и потенциально более медленным, чем обучение моделей на основе CNN, таких как YOLOv5.
- Скорость вывода: Несмотря на возможность работы в реальном времени на мощном оборудовании, она может быть медленнее, чем самые быстрые варианты YOLOv5 , особенно на процессорах или менее мощных пограничных устройствах.
- Экосистема: Отсутствует обширная, единая экосистема, инструментарий (например, Ultralytics HUB) и широкая поддержка сообщества, предоставляемая Ultralytics для моделей YOLO .
Идеальные варианты использования
RTDETRv2 лучше всего подходит для приложений, где точность имеет первостепенное значение, а вычислительные ресурсы достаточны:
- Автономное вождение: Точное восприятие для ИИ в самоуправляемых автомобилях.
- Медицинская визуализация: Детальное обнаружение аномалий в AI in Healthcare.
- Анализ изображений высокого разрешения: Анализ спутниковых снимков или данных промышленного контроля(совершенствование производства с помощью компьютерного зрения).
- Сложное понимание сцены: Сценарии с сильной окклюзией или множеством мелких объектов.
Сравнение производительности: YOLOv5 против RTDETRv2
Модель | размер (пикселей) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4TensorRT10 (мс) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
В таблице показаны компромиссы:
- YOLOv5 Модели YOLOv5 (особенно n/s/m) обеспечивают значительно более высокую скорость вычислений как на CPU , так и на GPU TensorRT) при гораздо меньшем количестве параметров и FLOP, что делает их идеальными для сред с ограниченными ресурсами.
- Модели RTDETRv2 достигают более высоких пиковых показателей mAP (особенно варианты l/x), но сопровождаются повышенными задержками и вычислительными требованиями. Примечательно, что RTDETRv2-s/m предлагают конкурентоспособную точность по сравнению с YOLOv5l/x при потенциально более высокой скорости работы TensorRT , но не имеют заявленной производительности CPU .
Обучение и экосистема
Ultralytics YOLOv5 отличается простотой обучения и обширной экосистемой. Обучение проходит легко с помощью предоставляемого CLI или Python API, подкрепленного обширной документацией и учебными пособиями. Экосистема Ultralytics предлагает такие инструменты, как Ultralytics HUB для упрощения обучения и развертывания, активную поддержку сообщества, а также бесшовную интеграцию с такими инструментами, как Weights & Biases и ClearML. Кроме того, CNN-архитектура YOLOv5, как правило, требует меньше памяти GPU и обучается быстрее, чем трансформаторные модели.
RTDETRv2, несмотря на свою мощь, предполагает обучение более сложной архитектуры трансформаторов. Это, как правило, требует более значительных вычислительных ресурсов (особенно большого объема памяти GPU ) и потенциально более длительного времени обучения. Хотя репозиторий GitHub предоставляет обучающие скрипты, окружающая экосистема и структура поддержки не столь обширны, как у Ultralytics.
Заключение
И YOLOv5 , и RTDETRv2 - способные модели обнаружения объектов, но они ориентированы на разные приоритеты.
- Ultralytics YOLOv5 это рекомендуемый выбор для приложений, требующих высокой скорости, эффективности, простоты использования и универсальности развертывания, особенно на граничных устройствах или там, где вычислительные ресурсы ограничены. Надежная экосистема и низкие требования к обучению делают его очень доступным для разработчиков и исследователей.
- RTDETRv2 подходит, когда максимальная точность является абсолютным приоритетом, и доступны достаточные вычислительные ресурсы (включая мощные графические процессоры для обучения и вывода).
Для большинства практических приложений YOLOv5 обеспечивает превосходный, а зачастую и лучший баланс между производительностью, скоростью и удобством использования, опираясь на мощную поддержку и инструментарий экосистемы Ultralytics .
Изучите другие модели
Если вы изучаете альтернативные варианты, рассмотрите другие модели в экосистеме Ultralytics :
- YOLOv8: преемник YOLOv5, обеспечивающий повышенную точность и скорость выполнения различных задач, включая обнаружение, сегментацию, позиционирование и отслеживание.
- YOLOv10: включает в себя такие инновации, как обучение без NMS для дальнейшего повышения эффективности.
- YOLO11: последнее поколение Ultralytics, расширяющее границы производительности и эффективности.
Сравнение таких моделей, как YOLOv8 против RTDETRv2 или YOLOv10 против RTDETRv2, может дать дополнительные сведения о том, что лучше всего подходит для вашего проекта.