Перейти к содержанию

YOLOv7 против RT-DETRv2: подробное техническое сравнение

Выбор подходящей модели обнаружения объектов — критически важное решение для любого проекта в области компьютерного зрения, балансирующее компромиссы между точностью, скоростью и вычислительными затратами. На этой странице представлено всестороннее техническое сравнение YOLOv7, высокоэффективного детектора на основе CNN, и RT-DETRv2, современной модели на основе трансформера. Мы углубимся в их архитектурные различия, эталонные показатели производительности и идеальные варианты использования, чтобы помочь вам сделать осознанный выбор.

YOLOv7: Оптимизирована для скорости и точности

YOLOv7 представляет собой важную веху в серии YOLO, представляя новые стратегии обучения и архитектурные оптимизации, чтобы установить новый стандарт для обнаружения объектов в реальном времени на момент выпуска.

Архитектура и ключевые особенности

Архитектура YOLOv7 построена на мощной основе CNN, включающей в себя несколько ключевых инноваций для повышения производительности без увеличения затрат на вывод. Ее backbone включает в себя Extended Efficient Layer Aggregation Network (E-ELAN), которая расширяет возможности сети по изучению разнообразных признаков. Важным вкладом является концепция "trainable bag-of-freebies", которая включает в себя передовые методы оптимизации, применяемые во время обучения, такие как вспомогательные заголовки и назначение меток с грубой до тонкой настройкой, для повышения точности конечной модели. Эти стратегии позволяют YOLOv7 достичь замечательного баланса между скоростью и точностью.

Производительность и варианты использования

YOLOv7 славится своей исключительной производительностью на оборудовании GPU, обеспечивая высокую частоту кадров в секунду (FPS) для inference в реальном времени. Это делает его отличным выбором для приложений, где критически важна низкая задержка.

  • Преимущества:

    • Превосходный компромисс между скоростью и точностью: Обеспечивает отличное сочетание mAP и скорости инференса, идеально подходит для задач, выполняемых в реальном времени.
    • Эффективное обучение: Использует «bag-of-freebies» для повышения точности без увеличения вычислительной нагрузки во время инференса.
    • Проверенная производительность: Установлена и хорошо протестирована на стандартных наборах данных, таких как MS COCO.
  • Слабые стороны:

    • Сложность: Архитектура и продвинутые методы обучения могут быть сложными для полного понимания и настройки.
    • Требовательность к ресурсам: Более крупные модели YOLOv7 требуют значительных GPU-ресурсов для обучения.
    • Ограниченная универсальность: В первую очередь предназначен для обнаружения объектов, с расширениями, управляемыми сообществом, для других задач, в отличие от моделей со встроенной многозадачной поддержкой.

Узнайте больше о YOLOv7

RT-DETRv2: Детектор-трансформер реального времени v2

RT-DETRv2 (Real-Time Detection Transformer v2) — это передовой детектор объектов от Baidu, который использует возможности трансформеров для достижения высокой точности при сохранении производительности в реальном времени.

Архитектура и ключевые особенности

RT-DETRv2 основан на архитектуре Vision Transformer (ViT), что позволяет ему более эффективно, чем традиционным CNN, захватывать глобальный контекст и взаимосвязи внутри изображения. Он использует гибридную конструкцию, применяя CNN в качестве основы для начального извлечения признаков и энкодер-декодер на основе трансформера для обнаружения. Эта модель также не использует anchor boxes, упрощая конвейер обнаружения за счет устранения необходимости в предопределенных anchor boxes, подобно моделям, таким как YOLOX.

Производительность и варианты использования

Основным преимуществом RT-DETRv2 является его высокая точность, особенно для обнаружения объектов в сложных сценах со значительным перекрытием или беспорядком.

  • Преимущества:

    • Высокая точность: Архитектура transformer обеспечивает превосходную точность обнаружения объектов за счет эффективной обработки глобального контекста изображения.
    • Надёжное представление признаков: Отлично понимает сложные детали и взаимосвязи между объектами.
  • Слабые стороны:

    • Высокая вычислительная стоимость: Модели на основе Transformer, такие как RT-DETRv2, являются вычислительно интенсивными, особенно во время обучения. Они обычно требуют значительно больше памяти CUDA и больше времени обучения по сравнению с моделями на основе CNN.
    • Более медленный инференс на некотором оборудовании: Будучи оптимизированным для производительности в реальном времени, он может не соответствовать скорости высокооптимизированных CNN, таких как YOLOv7, на всех конфигурациях оборудования.

Узнайте больше о RT-DETR

Сравнение производительности: YOLOv7 против RT-DETRv2

В таблице ниже представлено количественное сравнение различных вариантов моделей. RT-DETRv2-x достигает наивысшего mAP, но это достигается за счет большего количества параметров, более высоких FLOPs и более низкой скорости инференса по сравнению с YOLOv7x. YOLOv7 предлагает более сбалансированный профиль, что делает его сильным претендентом для приложений, требующих как высокой скорости, так и высокой точности.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Почему стоит выбрать модели Ultralytics YOLO?

Несмотря на то, что YOLOv7 и RT-DETRv2 являются мощными моделями, новые модели Ultralytics YOLO, такие как YOLOv8 и новейшая Ultralytics YOLO11, предлагают более современное, универсальное и удобное для разработчиков решение.

  • Простота использования: Модели Ultralytics разработаны для оптимизации работы пользователей благодаря простому Python API, обширной документации и понятным командам CLI.
  • Развитая экосистема: Воспользуйтесь преимуществами активной разработки, надежного сообщества открытого исходного кода, частых обновлений и бесшовной интеграции с такими инструментами, как Ultralytics HUB для сквозного MLOps.
  • Баланс производительности: Модели Ultralytics обеспечивают превосходный компромисс между скоростью и точностью, что делает их подходящими для широкого спектра реальных сценариев, от устройств периферийного ИИ до облачных серверов.
  • Эффективность использования памяти: Модели Ultralytics YOLO оптимизированы для эффективного использования памяти. Они обычно требуют меньше памяти CUDA для обучения и инференса по сравнению с моделями на основе трансформеров, такими как RT-DETR, которые, как известно, требуют больших ресурсов памяти и медленнее обучаются.
  • Универсальность: Такие модели, как YOLOv8 и YOLO11, являются настоящими многозадачными фреймворками, которые «из коробки» поддерживают обнаружение объектов, сегментацию, классификацию, оценку позы и ориентированное обнаружение объектов (OBB).
  • Эффективность обучения: Наслаждайтесь эффективными процессами обучения с готовыми предварительно обученными весами на наборах данных, таких как COCO, что приводит к более быстрой сходимости и сокращению времени разработки.

Заключение

YOLOv7 и RT-DETRv2 — это впечатляющие модели обнаружения объектов, каждая со своими преимуществами. YOLOv7 превосходен в приложениях, требующих скорости в реальном времени на GPU, предлагая фантастический баланс производительности и эффективности. RT-DETRv2 расширяет границы точности, что делает его предпочтительным выбором для сценариев, где точность имеет первостепенное значение, а вычислительные ресурсы менее ограничены, например, в ИИ в самоуправляемых автомобилях или анализе медицинских изображений.

Однако для разработчиков и исследователей, ищущих современное, универсальное решение, модели Ultralytics, такие как YOLOv8 и YOLO11, часто представляют собой наиболее привлекательный вариант. Они сочетают в себе современную производительность с исключительной простотой использования, более низкими требованиями к памяти, многозадачной универсальностью и комплексной, хорошо поддерживаемой экосистемой, что делает их идеальным выбором для широкого спектра проектов компьютерного зрения.

Сравнения с другими моделями

Для дальнейшего изучения рассмотрите эти сравнения с участием YOLOv7, RT-DETR и других ведущих моделей:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии