YOLOv7 против RTDETRv2: Подробное сравнение моделей
Выбор правильной модели обнаружения объектов имеет решающее значение для проектов по компьютерному зрению. На этой странице представлено техническое сравнение YOLOv7 и RTDETRv2, двух современных моделей, чтобы помочь вам принять обоснованное решение. Мы подробно рассмотрим их архитектурные различия, показатели производительности и идеальные области применения.
Модель | размер (пикселей) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4TensorRT10 (мс) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7: эксперт по эффективности в реальном времени
YOLOv7, представленная в июле 2022 года авторами Чьен-Яо Вангом, Алексеем Бочковским и Хонг-Юаном Марком Ляо из Института информационных наук Академии Синика (Тайвань), славится своей скоростью и эффективностью в задачах обнаружения объектов. Она совершенствует архитектуру предыдущих моделей YOLO , отдавая предпочтение быстрому выводу без существенного ущерба для точности.
Архитектура и ключевые особенности
Архитектура YOLOv7 построена на базе конволюционных нейронных сетей (CNN) и включает в себя несколько ключевых особенностей для оптимизации производительности:
- E-ELAN (Extended Efficient Layer Aggregation Network): Повышает эффективность извлечения признаков, позволяя модели обучаться более эффективно.
- Масштабирование модели: Используются комбинированные методы масштабирования для настройки глубины и ширины модели, что обеспечивает гибкость для различных вычислительных ресурсов и потребностей в производительности.
- Обучение с помощью вспомогательных головок: Использует вспомогательные головки потерь во время обучения, чтобы углубить обучение сети и повысить общую точность.
Эти архитектурные решения позволяют YOLOv7 достичь сильного баланса между скоростью и точностью, что делает его подходящим для приложений реального времени. Более подробную информацию можно найти в статье YOLOv7 на Arxiv и в официальном репозитории YOLOv7 на GitHub.
Показатели производительности
YOLOv7 разработан для работы в сценариях, где низкая задержка имеет решающее значение. Его производительность характеризуется:
- mAPval50-95: Достигает до 53,1% mAP на наборе данных COCO.
- Скорость вывода (T4 TensorRT10): Скорость 6,84 мс, что позволяет обрабатывать данные в режиме реального времени.
- Размер модели (параметры): Начинается с 36,9M параметров, предлагая компактный размер модели для эффективного развертывания.
Примеры использования и сильные стороны
YOLOv7 особенно хорошо подходит для приложений, требующих обнаружения объектов в реальном времени на устройствах с ограниченными ресурсами, в том числе:
- Робототехника: Обеспечение быстрого восприятия для навигации и взаимодействия роботов.
- Наблюдение: Обеспечение мониторинга и анализа в реальном времени в системах безопасности. Узнайте, как YOLOv8 может улучшить системы охранной сигнализации.
- Краевые устройства: Развертывание на пограничных устройствах с ограниченной вычислительной мощностью, таких как NVIDIA Jetson или Raspberry Pi.
Его основное достоинство - скорость и относительно небольшой размер модели, что делает его легко развертываемым на различных аппаратных платформах. Подробнее об архитектуре и возможностях YOLOv7 читайте в документации YOLOv7.
RTDETRv2: Точность с учетом КПД трансформатора
RTDETRv2 (Real-Time Detection Transformer version 2), представленный в июле 2024 года авторами Венью Лв, Янь Чжао, Циньяо Чанг, Куи Хуанг, Гуаньчжун Ванг и И Лю из Baidu, использует другой подход, интегрируя трансформаторы зрения (ViT) для обнаружения объектов. В отличие от CNN, лежащего в основе YOLO, RTDETRv2 использует трансформаторы для захвата глобального контекста изображения, что потенциально приводит к повышению точности, сохраняя при этом производительность в реальном времени.
Архитектура и ключевые особенности
Архитектура RTDETRv2 определяется:
- Магистраль Vision Transformer (ViT): Использует кодер-трансформер для обработки всего изображения, улавливая дальние зависимости, необходимые для понимания сложных сцен.
- Гибридное извлечение признаков с помощью CNN: Комбинирует CNN для первоначального извлечения признаков с трансформаторными слоями для эффективной интеграции глобального контекста.
- Безъякорное обнаружение: Упрощает процесс обнаружения, устраняя необходимость в предопределенных якорных коробках, повышая гибкость модели и снижая ее сложность.
Эта конструкция на основе трансформатора позволяет RTDETRv2 достигать высочайшей точности, особенно в сложных и загроможденных средах. Узнать больше о трансформаторах зрения можно на странице глоссария Vision Transformer (ViT). Статья о RTDETRv2 доступна на Arxiv, а в официальном репозитории GitHub можно найти подробности реализации.
Показатели производительности
В RTDETRv2 приоритет отдается точности при сохранении конкурентоспособной скорости, что обеспечивает следующие показатели производительности:
- mAPval50-95: Достигает 54,3% mAPval50-95, демонстрируя высокую точность обнаружения объектов.
- Скорость вывода (T4 TensorRT10): Начинается от 5,03 мс, обеспечивая возможность работы в реальном времени на подходящем оборудовании.
- Размер модели (параметры): Начинается с 20M параметров, предлагая ряд размеров моделей для различных потребностей развертывания.
Примеры использования и сильные стороны
RTDETRv2 идеально подходит для приложений, где высокая точность имеет первостепенное значение, а вычислительные ресурсы доступны:
- Автономные транспортные средства: Обеспечение надежного и точного восприятия окружающей среды для безопасной навигации. Изучите возможности ИИ в самоуправляемых автомобилях для соответствующих приложений.
- Медицинская визуализация: Точное обнаружение аномалий на медицинских изображениях для помощи в диагностике и планировании лечения. Узнайте больше о применении ИИ в здравоохранении.
- Анализ изображений высокого разрешения: Задачи, требующие детального анализа больших изображений, например, анализ спутниковых снимков или промышленная инспекция.
Сильной стороной RTDETRv2 является архитектура трансформаторов, которая обеспечивает надежное извлечение признаков и высокую точность, что делает ее превосходной для сложных задач обнаружения. Более подробную информацию можно найти в READMERT-DETR на GitHub.
Заключение
И YOLOv7, и RTDETRv2 - это мощные модели обнаружения объектов, каждая из которых обладает уникальными преимуществами. YOLOv7 отлично подходит для приложений реального времени, требующих скорости и эффективности, в то время как RTDETRv2 уделяет первостепенное внимание точности благодаря своей архитектуре на основе трансформаторов. Ваш выбор должен соответствовать конкретным требованиям проекта: скорость для задач, требующих оперативного решения, или точность для детального анализа.
Для других сравнений и моделей, вас также может заинтересовать: