Перейти к содержанию

RTDETRv2 против YOLOv7: подробное сравнение моделей

Выбор подходящей модели обнаружения объектов — критически важное решение для любого проекта в области компьютерного зрения. На этой странице представлено углубленное техническое сравнение RTDETRv2, модели на основе трансформера, и YOLOv7, высокоэффективной модели на основе CNN. Мы рассмотрим их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам сделать осознанный выбор.

RTDETRv2: Детектор-трансформер в реальном времени v2

RT-DETRv2 (Детектор-трансформер реального времени v2) — это современный детектор объектов от Baidu, который использует архитектуру Transformer для достижения высокой точности при сохранении производительности в реальном времени. Он основан на принципах DETR (DEtection TRansformer) и предлагает сквозной конвейер обнаружения.

Архитектура и ключевые особенности

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе CNN backbone для эффективного извлечения признаков с трансформером encoder-decoder для обработки этих признаков. Эта конструкция позволяет модели захватывать глобальный контекст внутри изображения, что является ключевым преимуществом механизма внимания в трансформерах. Важной особенностью является его конструкция без привязок, которая упрощает процесс обнаружения, напрямую предсказывая местоположения объектов, не полагаясь на предопределенные ограничивающие рамки. Однако этот подход на основе трансформеров имеет компромисс: он обычно требует значительно больше памяти CUDA и более длительного времени обучения по сравнению с чистыми CNN моделями, такими как YOLOv7.

Сильные и слабые стороны

Преимущества:

  • Высокая точность: Архитектура transformer отлично справляется с пониманием сложных сцен и взаимосвязей между объектами, что часто приводит к превосходной средней точности (mAP).
  • Надёжное представление признаков: Эффективно захватывает как локальные, так и глобальные признаки, что делает его устойчивым в загроможденных средах.
  • Сквозной конвейер: Упрощает процесс обнаружения, устраняя необходимость в компонентах, разработанных вручную, таких как Non-Maximum Suppression (NMS) в некоторых конфигурациях.

Слабые стороны:

  • Высокая вычислительная стоимость: Transformer-модели, как известно, требуют больших ресурсов, значительного объема памяти GPU и более длительных циклов обучения.
  • Сложность: Внутренняя работа декодера-трансформера может быть менее интуитивной, чем традиционные детекторы CNN.

Идеальные варианты использования

RTDETRv2 лучше всего подходит для приложений, где достижение максимально возможной точности является основной целью, и вычислительные ресурсы легко доступны.

Узнайте больше о RTDETRv2

YOLOv7: Эффективное и точное обнаружение объектов

YOLOv7, разработанный Чен-Яо Вангом и др., стал важной вехой в серии YOLO, установив новый стандарт для детекторов объектов в реальном времени за счет оптимизации эффективности обучения и скорости вывода.

Архитектура и ключевые особенности

YOLOv7 построен на чистой CNN-архитектуре, представляя несколько ключевых инноваций для максимизации производительности. Он использует Extended Efficient Layer Aggregation Network (E-ELAN) в своей backbone-части для повышения способности сети к обучению без разрушения исходного градиентного пути. Важным вкладом стала концепция "trainable bag-of-freebies", которая применяет передовые методы оптимизации во время обучения для повышения точности без увеличения затрат на inference. В отличие от RTDETRv2, YOLOv7 является детектором на основе anchor-ов, который может быть очень эффективным, но может потребовать тщательной настройки конфигураций anchor-ов для пользовательских наборов данных.

Сильные и слабые стороны

Преимущества:

  • Превосходный баланс скорости и точности: Предлагает фантастический компромисс между скоростью инференса и mAP, что делает его идеальным для инференса в реальном времени.
  • Эффективность обучения: Подход "bag-of-freebies" повышает точность без добавления вычислительных затрат во время развертывания.
  • Проверенная и зарекомендовавшая себя: Как популярная модель, она имеет широкую базу пользователей и множество доступных ресурсов.

Слабые стороны:

  • Ограниченная универсальность: В первую очередь предназначен для обнаружения объектов. Расширение его на другие задачи, такие как сегментация или оценка позы, требует отдельных реализаций, в отличие от интегрированных моделей, таких как Ultralytics YOLOv8.
  • Менее современная экосистема: Будучи мощной, ей не хватает оптимизированной, удобной для пользователя экосистемы и активной поддержки новых моделей от Ultralytics.

Идеальные варианты использования

YOLOv7 превосходно подходит для сценариев, требующих высокоскоростного обнаружения на оборудовании GPU без ущерба для точности.

Узнайте больше о YOLOv7

Прямое сравнение производительности: RTDETRv2 против YOLOv7

В таблице ниже представлено прямое сравнение метрик производительности для различных вариантов RTDETRv2 и YOLOv7 на наборе данных COCO.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Из данных видно, что RTDETRv2-x достигает наивысшего mAP, демонстрируя потенциал точности своей transformer-архитектуры. Однако меньшая модель RTDETRv2-s исключительно быстрая и эффективная с точки зрения параметров и FLOPs. Модели YOLOv7 представляют собой прочную золотую середину, при этом YOLOv7l предлагает убедительный баланс скорости и точности, который конкурирует с RTDETRv2-m.

Почему стоит выбрать модели Ultralytics YOLO?

Несмотря на то, что RTDETRv2 и YOLOv7 являются мощными моделями, новые модели Ultralytics YOLO, такие как YOLOv8 и новейшая Ultralytics YOLO11, предлагают более целостное и выгодное решение для большинства разработчиков и исследователей.

  • Простота использования: Модели Ultralytics разработаны с простым Python API и обширной документацией, что упрощает обучение, проверку и развертывание моделей.
  • Развитая экосистема: Воспользуйтесь преимуществами активной разработки, сильного сообщества открытого исходного кода и бесшовной интеграции с такими инструментами, как Ultralytics HUB для сквозного MLOps.
  • Эффективность памяти и обучения: Модели Ultralytics YOLO высоко оптимизированы для использования памяти, часто требуя значительно меньше памяти CUDA для обучения, чем модели на основе трансформеров, такие как RTDETRv2. Это делает их более доступными и быстрыми в обучении.
  • Универсальность: Такие модели, как YOLOv8 и YOLO11, — это многозадачные фреймворки, которые «из коробки» поддерживают обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированное обнаружение объектов (OBB).
  • Баланс производительности: Модели Ultralytics стабильно обеспечивают современный компромисс между скоростью и точностью, что делает их подходящими для широкого спектра применений, от периферийных устройств до облачных серверов.

Заключение

Выбор между RTDETRv2 и YOLOv7 во многом зависит от приоритетов проекта. RTDETRv2 — превосходный вариант, когда максимальная точность является обязательным условием и доступны достаточные вычислительные ресурсы, особенно для сложных сцен, которым выгодно понимание глобального контекста. YOLOv7 остается надежным выбором для приложений, требующих проверенного баланса скорости в реальном времени и высокой точности на оборудовании с GPU.

Однако, для разработчиков, ищущих современный, универсальный и удобный фреймворк, модели Ultralytics, такие как YOLOv8 и YOLO11, часто являются наиболее привлекательным выбором. Они предлагают отличный баланс производительности, превосходную простоту использования, более низкие требования к памяти и всестороннюю экосистему, которая поддерживает множество задач компьютерного зрения, оптимизируя путь от исследований до производства.

Сравнения с другими моделями

Для получения дополнительной информации изучите эти сравнения с другими современными моделями:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии