YOLOv7 против RT-DETRv2: подробное техническое сравнение
Выбор подходящей модели обнаружения объектов — критически важное решение для любого проекта в области компьютерного зрения, балансирующее компромиссы между точностью, скоростью и вычислительными затратами. На этой странице представлено всестороннее техническое сравнение YOLOv7, высокоэффективного детектора на основе CNN, и RT-DETRv2, современной модели на основе трансформера. Мы углубимся в их архитектурные различия, эталонные показатели производительности и идеальные варианты использования, чтобы помочь вам сделать осознанный выбор.
YOLOv7: Оптимизирована для скорости и точности
YOLOv7 представляет собой важную веху в серии YOLO, представляя новые стратегии обучения и архитектурные оптимизации, чтобы установить новый стандарт для обнаружения объектов в реальном времени на момент выпуска.
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 06.07.2022
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Документация: https://docs.ultralytics.com/models/yolov7/
Архитектура и ключевые особенности
Архитектура YOLOv7 построена на мощной основе CNN, включающей в себя несколько ключевых инноваций для повышения производительности без увеличения затрат на вывод. Ее backbone включает в себя Extended Efficient Layer Aggregation Network (E-ELAN), которая расширяет возможности сети по изучению разнообразных признаков. Важным вкладом является концепция "trainable bag-of-freebies", которая включает в себя передовые методы оптимизации, применяемые во время обучения, такие как вспомогательные заголовки и назначение меток с грубой до тонкой настройкой, для повышения точности конечной модели. Эти стратегии позволяют YOLOv7 достичь замечательного баланса между скоростью и точностью.
Производительность и варианты использования
YOLOv7 славится своей исключительной производительностью на оборудовании GPU, обеспечивая высокую частоту кадров в секунду (FPS) для inference в реальном времени. Это делает его отличным выбором для приложений, где критически важна низкая задержка.
-
Преимущества:
- Превосходный компромисс между скоростью и точностью: Обеспечивает отличное сочетание mAP и скорости инференса, идеально подходит для задач, выполняемых в реальном времени.
- Эффективное обучение: Использует «bag-of-freebies» для повышения точности без увеличения вычислительной нагрузки во время инференса.
- Проверенная производительность: Установлена и хорошо протестирована на стандартных наборах данных, таких как MS COCO.
-
Слабые стороны:
- Сложность: Архитектура и продвинутые методы обучения могут быть сложными для полного понимания и настройки.
- Требовательность к ресурсам: Более крупные модели YOLOv7 требуют значительных GPU-ресурсов для обучения.
- Ограниченная универсальность: В первую очередь предназначен для обнаружения объектов, с расширениями, управляемыми сообществом, для других задач, в отличие от моделей со встроенной многозадачной поддержкой.
RT-DETRv2: Детектор-трансформер реального времени v2
RT-DETRv2 (Real-Time Detection Transformer v2) — это передовой детектор объектов от Baidu, который использует возможности трансформеров для достижения высокой точности при сохранении производительности в реальном времени.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 17.04.2023
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Архитектура и ключевые особенности
RT-DETRv2 основан на архитектуре Vision Transformer (ViT), что позволяет ему более эффективно, чем традиционным CNN, захватывать глобальный контекст и взаимосвязи внутри изображения. Он использует гибридную конструкцию, применяя CNN в качестве основы для начального извлечения признаков и энкодер-декодер на основе трансформера для обнаружения. Эта модель также не использует anchor boxes, упрощая конвейер обнаружения за счет устранения необходимости в предопределенных anchor boxes, подобно моделям, таким как YOLOX.
Производительность и варианты использования
Основным преимуществом RT-DETRv2 является его высокая точность, особенно для обнаружения объектов в сложных сценах со значительным перекрытием или беспорядком.
-
Преимущества:
- Высокая точность: Архитектура transformer обеспечивает превосходную точность обнаружения объектов за счет эффективной обработки глобального контекста изображения.
- Надёжное представление признаков: Отлично понимает сложные детали и взаимосвязи между объектами.
-
Слабые стороны:
- Высокая вычислительная стоимость: Модели на основе Transformer, такие как RT-DETRv2, являются вычислительно интенсивными, особенно во время обучения. Они обычно требуют значительно больше памяти CUDA и больше времени обучения по сравнению с моделями на основе CNN.
- Более медленный инференс на некотором оборудовании: Будучи оптимизированным для производительности в реальном времени, он может не соответствовать скорости высокооптимизированных CNN, таких как YOLOv7, на всех конфигурациях оборудования.
Сравнение производительности: YOLOv7 против RT-DETRv2
В таблице ниже представлено количественное сравнение различных вариантов моделей. RT-DETRv2-x достигает наивысшего mAP, но это достигается за счет большего количества параметров, более высоких FLOPs и более низкой скорости инференса по сравнению с YOLOv7x. YOLOv7 предлагает более сбалансированный профиль, что делает его сильным претендентом для приложений, требующих как высокой скорости, так и высокой точности.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Почему стоит выбрать модели Ultralytics YOLO?
Несмотря на то, что YOLOv7 и RT-DETRv2 являются мощными моделями, новые модели Ultralytics YOLO, такие как YOLOv8 и новейшая Ultralytics YOLO11, предлагают более современное, универсальное и удобное для разработчиков решение.
- Простота использования: Модели Ultralytics разработаны для оптимизации работы пользователей благодаря простому Python API, обширной документации и понятным командам CLI.
- Развитая экосистема: Воспользуйтесь преимуществами активной разработки, надежного сообщества открытого исходного кода, частых обновлений и бесшовной интеграции с такими инструментами, как Ultralytics HUB для сквозного MLOps.
- Баланс производительности: Модели Ultralytics обеспечивают превосходный компромисс между скоростью и точностью, что делает их подходящими для широкого спектра реальных сценариев, от устройств периферийного ИИ до облачных серверов.
- Эффективность использования памяти: Модели Ultralytics YOLO оптимизированы для эффективного использования памяти. Они обычно требуют меньше памяти CUDA для обучения и инференса по сравнению с моделями на основе трансформеров, такими как RT-DETR, которые, как известно, требуют больших ресурсов памяти и медленнее обучаются.
- Универсальность: Такие модели, как YOLOv8 и YOLO11, являются настоящими многозадачными фреймворками, которые «из коробки» поддерживают обнаружение объектов, сегментацию, классификацию, оценку позы и ориентированное обнаружение объектов (OBB).
- Эффективность обучения: Наслаждайтесь эффективными процессами обучения с готовыми предварительно обученными весами на наборах данных, таких как COCO, что приводит к более быстрой сходимости и сокращению времени разработки.
Заключение
YOLOv7 и RT-DETRv2 — это впечатляющие модели обнаружения объектов, каждая со своими преимуществами. YOLOv7 превосходен в приложениях, требующих скорости в реальном времени на GPU, предлагая фантастический баланс производительности и эффективности. RT-DETRv2 расширяет границы точности, что делает его предпочтительным выбором для сценариев, где точность имеет первостепенное значение, а вычислительные ресурсы менее ограничены, например, в ИИ в самоуправляемых автомобилях или анализе медицинских изображений.
Однако для разработчиков и исследователей, ищущих современное, универсальное решение, модели Ultralytics, такие как YOLOv8 и YOLO11, часто представляют собой наиболее привлекательный вариант. Они сочетают в себе современную производительность с исключительной простотой использования, более низкими требованиями к памяти, многозадачной универсальностью и комплексной, хорошо поддерживаемой экосистемой, что делает их идеальным выбором для широкого спектра проектов компьютерного зрения.
Сравнения с другими моделями
Для дальнейшего изучения рассмотрите эти сравнения с участием YOLOv7, RT-DETR и других ведущих моделей:
- YOLOv7 против YOLOv8
- YOLOv7 против YOLOv5
- RT-DETR против YOLOv8
- RT-DETR против YOLOX
- Ознакомьтесь с последними моделями, такими как YOLOv10 и YOLO11.