RTDETRv2 против YOLOv6-3.0: техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и вычислительные затраты. В этом руководстве представлено подробное техническое сравнение RTDETRv2, высокоточной модели, основанной на архитектуре Transformer, и YOLOv6-3.0, модели на основе CNN, оптимизированной для промышленных применений. Мы рассмотрим их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для вашего проекта.
RTDETRv2: Детектор-трансформер в реальном времени v2
RT-DETRv2 (Детектор-трансформер реального времени v2) — это современный детектор объектов от Baidu, который использует возможности Vision Transformers для достижения высокой точности при сохранении производительности в реальном времени. Он представляет собой значительный шаг вперед в области обнаружения объектов на основе Transformer.
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 2023-04-17 (Первоначальная версия RT-DETR), 2024-07-24 (Улучшения RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура
RTDETRv2 использует гибридную архитектуру, которая сочетает в себе сильные стороны как CNN, так и трансформеров:
- Backbone: Использует обычную CNN (например, ResNet) для эффективного начального извлечения признаков.
- Encoder-Decoder: Ядром модели является структура энкодера-декодера на основе Transformer. Эта структура использует механизмы самовнимания для анализа взаимосвязей между различными частями изображения, что позволяет ей эффективно захватывать глобальный контекст. Это делает ее особенно подходящей для понимания сложных сцен с окклюдированными или удаленными объектами. Как детектор без привязки к якорям, он также упрощает конвейер обнаружения.
Сильные стороны
- Высокая точность: Архитектура transformer позволяет RTDETRv2 достигать отличных показателей mAP, особенно на сложных наборах данных, таких как COCO.
- Надежное извлечение признаков: Его способность захватывать глобальный контекст приводит к превосходной производительности в сложных сценариях, таких как сцены с плотным населением объектов или окклюзиями.
- Производительность в реальном времени: Модель оптимизирована для обеспечения конкурентоспособной скорости вывода, особенно при ускорении с помощью таких инструментов, как NVIDIA TensorRT.
Слабые стороны
- Высокая вычислительная стоимость: Модели на основе Transformer, такие как RTDETRv2, обычно имеют большее количество параметров и больше FLOPs, чем модели на основе CNN, что требует значительных вычислительных ресурсов, таких как память GPU.
- Сложное обучение: Обучение transformer-моделей может быть медленнее и требовать значительно больше памяти CUDA по сравнению с такими моделями, как Ultralytics YOLO, что увеличивает продолжительность и стоимость цикла разработки.
- Фрагментированная экосистема: Отсутствует единая и всеобъемлющая экосистема, предоставляемая Ultralytics, которая включает в себя обширную документацию, интегрированные инструменты, такие как Ultralytics HUB, и активную поддержку сообщества.
Идеальные варианты использования
- Высокоточное наблюдение: Сценарии, где критически важно обнаружение каждого объекта с высокой точностью, например, в передовых системах безопасности.
- Автономные системы: Приложения, такие как автомобили с автоматическим управлением, которые требуют глубокого понимания сложных сред.
- Продвинутая робототехника: Необходима для роботов, которым требуется перемещаться и взаимодействовать в динамичных и загроможденных пространствах, что является ключевым аспектом роли ИИ в робототехнике.
YOLOv6-3.0: оптимизирован для промышленных приложений
YOLOv6-3.0, разработанный Meituan, представляет собой одноэтапный детектор объектов, разработанный с особым акцентом на эффективность и скорость для промышленных приложений. Он направлен на обеспечение практического баланса между производительностью и возможностью развертывания.
Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
Организация: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Документация: https://docs.ultralytics.com/models/yolov6/
Архитектура
YOLOv6-3.0 построена на архитектуре CNN и представляет несколько ключевых функций для оптимизации компромисса между скоростью и точностью:
- Эффективный backbone: Он включает в себя аппаратную конструкцию, в том числе эффективный backbone репараметризации, который упрощает структуру сети во время вывода для повышения скорости.
- Гибридные блоки: Neck модели использует гибридные блоки для баланса между возможностями извлечения признаков и вычислительной эффективностью.
- Самодистилляция: В процессе обучения используется самодистилляция для повышения производительности без увеличения накладных расходов на вывод.
Сильные стороны
- Превосходная скорость инференса: YOLOv6-3.0 отлично оптимизирован для высокой производительности, что делает его идеальным для приложений реального времени.
- Хороший баланс скорости и точности: Предлагает конкурентный компромисс, обеспечивая высокую точность на высоких скоростях.
- Квантование и поддержка мобильных устройств: Обеспечивает хорошую поддержку квантования моделей и включает облегченные варианты (YOLOv6Lite) для развертывания на мобильных устройствах или устройствах на базе CPU.
Слабые стороны
- Ограниченная универсальность: YOLOv6-3.0 - это в первую очередь детектор объектов. Ему не хватает встроенной поддержки нескольких задач компьютерного зрения, таких как сегментация экземпляров, оценка позы и классификация, которые являются стандартными во фреймворке Ultralytics YOLO.
- Экосистема и обслуживание: Будучи проектом с открытым исходным кодом, его экосистема не так обширна и активно поддерживается, как платформа Ultralytics. Это может привести к меньшему количеству обновлений, меньшей поддержке сообщества и большему количеству проблем с интеграцией.
- Производительность по сравнению с последними моделями: Более новые модели, такие как Ultralytics YOLO11, часто обеспечивают лучшую точность и эффективность.
Идеальные варианты использования
- Промышленная автоматизация: Отлично подходит для высокоскоростного контроля качества и мониторинга процессов в производстве.
- Edge Computing: Его эффективная конструкция и мобильно-оптимизированные варианты хорошо подходят для развертывания на устройствах с ограниченными ресурсами, таких как NVIDIA Jetson.
- Мониторинг в реальном времени: Эффективен для таких приложений, как управление дорожным движением, где низкая задержка имеет решающее значение.
Прямое сравнение производительности: точность против скорости
Основной компромисс между RTDETRv2 и YOLOv6-3.0 заключается в точности, скорости и эффективности. Модели RTDETRv2 обычно достигают более высокого mAP, но это достигается за счет большего количества параметров, более высоких FLOPs и большего времени инференса. В отличие от этого, модели YOLOv6-3.0, особенно небольшие варианты, значительно быстрее и легче, что делает их очень эффективными.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Обучение и экосистема: простота использования и сложность
Опыт разработки значительно различается между этими моделями. Обучение RTDETRv2 требует больших вычислительных ресурсов, значительного объема памяти CUDA и более длительного времени обучения. Его экосистема также более фрагментирована, что может создать проблемы для развертывания и обслуживания.
YOLOv6-3.0 проще обучать, чем RTDETRv2. Однако он не предлагает такого же уровня интеграции и простоты использования, как модели в экосистеме Ultralytics.
В отличие от них, модели Ultralytics, такие как YOLOv8 и YOLO11, разработаны для оптимального взаимодействия с пользователем. Они выигрывают от хорошо поддерживаемой и интегрированной экосистемы, которая включает в себя:
- Оптимизированные рабочие процессы: Простой API, понятная документация и многочисленные руководства упрощают обучение и развертывание.
- Эффективность обучения: Модели Ultralytics YOLO очень эффективны для обучения, часто требуя меньше памяти и времени.
- Универсальность: Они поддерживают несколько задач из коробки, включая обнаружение, сегментацию, оценку позы и классификацию.
- Активная поддержка: Надежная экосистема с активной разработкой, сильной поддержкой сообщества и инструментами, такими как Ultralytics HUB, для обучения и развертывания без кода.
Заключение: какая модель подходит именно вам?
RTDETRv2 и YOLOv6-3.0 — это эффективные модели, но они служат разным потребностям.
- RTDETRv2 — это выбор для экспертов, которым требуется максимальная точность для сложных задач обнаружения объектов и у которых есть доступ к мощным вычислительным ресурсам.
- YOLOv6-3.0 — это надежный вариант для промышленных приложений, где скорость и эффективность инференса являются главными приоритетами.
Однако, для подавляющего большинства разработчиков и исследователей модели Ultralytics, такие как YOLO11, предлагают лучший общий пакет. Они обеспечивают современный баланс скорости и точности, исключительную универсальность для решения множества задач компьютерного зрения и превосходную простоту использования. Комплексная и активно поддерживаемая экосистема Ultralytics позволяет пользователям быстрее и эффективнее переходить от концепции к производству, что делает ее рекомендуемым выбором для широкого спектра реальных приложений.
Изучите другие модели
Для дальнейшего чтения рассмотрите возможность изучения других сравнений моделей, доступных в документации Ultralytics: