Перейти к содержанию

YOLOv7 против RTDETRv2: Подробное сравнение моделей

Выбор правильной модели обнаружения объектов имеет решающее значение для проектов по компьютерному зрению. На этой странице представлено техническое сравнение YOLOv7 и RTDETRv2, двух современных моделей, чтобы помочь вам принять обоснованное решение. Мы подробно рассмотрим их архитектурные различия, показатели производительности и идеальные области применения.

Модель размер
(пикселей)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4TensorRT10
(мс)
params
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

YOLOv7: эксперт по эффективности в реальном времени

YOLOv7, представленная в июле 2022 года авторами Чьен-Яо Вангом, Алексеем Бочковским и Хонг-Юаном Марком Ляо из Института информационных наук Академии Синика (Тайвань), славится своей скоростью и эффективностью в задачах обнаружения объектов. Она совершенствует архитектуру предыдущих моделей YOLO , отдавая предпочтение быстрому выводу без существенного ущерба для точности.

Архитектура и ключевые особенности

Архитектура YOLOv7 построена на базе конволюционных нейронных сетей (CNN) и включает в себя несколько ключевых особенностей для оптимизации производительности:

  • E-ELAN (Extended Efficient Layer Aggregation Network): Повышает эффективность извлечения признаков, позволяя модели обучаться более эффективно.
  • Масштабирование модели: Используются комбинированные методы масштабирования для настройки глубины и ширины модели, что обеспечивает гибкость для различных вычислительных ресурсов и потребностей в производительности.
  • Обучение с помощью вспомогательных головок: Использует вспомогательные головки потерь во время обучения, чтобы углубить обучение сети и повысить общую точность.

Эти архитектурные решения позволяют YOLOv7 достичь сильного баланса между скоростью и точностью, что делает его подходящим для приложений реального времени. Более подробную информацию можно найти в статье YOLOv7 на Arxiv и в официальном репозитории YOLOv7 на GitHub.

Показатели производительности

YOLOv7 разработан для работы в сценариях, где низкая задержка имеет решающее значение. Его производительность характеризуется:

  • mAPval50-95: Достигает до 53,1% mAP на наборе данных COCO.
  • Скорость вывода (T4 TensorRT10): Скорость 6,84 мс, что позволяет обрабатывать данные в режиме реального времени.
  • Размер модели (параметры): Начинается с 36,9M параметров, предлагая компактный размер модели для эффективного развертывания.

Примеры использования и сильные стороны

YOLOv7 особенно хорошо подходит для приложений, требующих обнаружения объектов в реальном времени на устройствах с ограниченными ресурсами, в том числе:

  • Робототехника: Обеспечение быстрого восприятия для навигации и взаимодействия роботов.
  • Наблюдение: Обеспечение мониторинга и анализа в реальном времени в системах безопасности. Узнайте, как YOLOv8 может улучшить системы охранной сигнализации.
  • Краевые устройства: Развертывание на пограничных устройствах с ограниченной вычислительной мощностью, таких как NVIDIA Jetson или Raspberry Pi.

Его основное достоинство - скорость и относительно небольшой размер модели, что делает его легко развертываемым на различных аппаратных платформах. Подробнее об архитектуре и возможностях YOLOv7 читайте в документации YOLOv7.

Узнайте больше о YOLOv7

RTDETRv2: Точность с учетом КПД трансформатора

RTDETRv2 (Real-Time Detection Transformer version 2), представленный в июле 2024 года авторами Венью Лв, Янь Чжао, Циньяо Чанг, Куи Хуанг, Гуаньчжун Ванг и И Лю из Baidu, использует другой подход, интегрируя трансформаторы зрения (ViT) для обнаружения объектов. В отличие от CNN, лежащего в основе YOLO, RTDETRv2 использует трансформаторы для захвата глобального контекста изображения, что потенциально приводит к повышению точности, сохраняя при этом производительность в реальном времени.

Архитектура и ключевые особенности

Архитектура RTDETRv2 определяется:

  • Магистраль Vision Transformer (ViT): Использует кодер-трансформер для обработки всего изображения, улавливая дальние зависимости, необходимые для понимания сложных сцен.
  • Гибридное извлечение признаков с помощью CNN: Комбинирует CNN для первоначального извлечения признаков с трансформаторными слоями для эффективной интеграции глобального контекста.
  • Безъякорное обнаружение: Упрощает процесс обнаружения, устраняя необходимость в предопределенных якорных коробках, повышая гибкость модели и снижая ее сложность.

Эта конструкция на основе трансформатора позволяет RTDETRv2 достигать высочайшей точности, особенно в сложных и загроможденных средах. Узнать больше о трансформаторах зрения можно на странице глоссария Vision Transformer (ViT). Статья о RTDETRv2 доступна на Arxiv, а в официальном репозитории GitHub можно найти подробности реализации.

Показатели производительности

В RTDETRv2 приоритет отдается точности при сохранении конкурентоспособной скорости, что обеспечивает следующие показатели производительности:

  • mAPval50-95: Достигает 54,3% mAPval50-95, демонстрируя высокую точность обнаружения объектов.
  • Скорость вывода (T4 TensorRT10): Начинается от 5,03 мс, обеспечивая возможность работы в реальном времени на подходящем оборудовании.
  • Размер модели (параметры): Начинается с 20M параметров, предлагая ряд размеров моделей для различных потребностей развертывания.

Примеры использования и сильные стороны

RTDETRv2 идеально подходит для приложений, где высокая точность имеет первостепенное значение, а вычислительные ресурсы доступны:

  • Автономные транспортные средства: Обеспечение надежного и точного восприятия окружающей среды для безопасной навигации. Изучите возможности ИИ в самоуправляемых автомобилях для соответствующих приложений.
  • Медицинская визуализация: Точное обнаружение аномалий на медицинских изображениях для помощи в диагностике и планировании лечения. Узнайте больше о применении ИИ в здравоохранении.
  • Анализ изображений высокого разрешения: Задачи, требующие детального анализа больших изображений, например, анализ спутниковых снимков или промышленная инспекция.

Сильной стороной RTDETRv2 является архитектура трансформаторов, которая обеспечивает надежное извлечение признаков и высокую точность, что делает ее превосходной для сложных задач обнаружения. Более подробную информацию можно найти в READMERT-DETR на GitHub.

Узнайте больше о RTDETRv2

Заключение

И YOLOv7, и RTDETRv2 - это мощные модели обнаружения объектов, каждая из которых обладает уникальными преимуществами. YOLOv7 отлично подходит для приложений реального времени, требующих скорости и эффективности, в то время как RTDETRv2 уделяет первостепенное внимание точности благодаря своей архитектуре на основе трансформаторов. Ваш выбор должен соответствовать конкретным требованиям проекта: скорость для задач, требующих оперативного решения, или точность для детального анализа.

Для других сравнений и моделей, вас также может заинтересовать:

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии