Перейти к содержанию

RTDETRv2 и YOLOv7: подробное техническое сравнение

Ландшафт object detection в реальном времени стал свидетелем ожесточенной конкуренции между сверточными нейронными сетями (CNN) и новыми Vision Transformers (ViTs). Двумя важными вехами в этой эволюции являются RTDETRv2 (Real-Time Detection Transformer v2) и YOLOv7 (You Only Look Once version 7). В то время как YOLOv7 представляет собой вершину эффективной оптимизации архитектуры CNN, RTDETRv2 представляет мощь трансформеров для устранения необходимости в этапах постобработки, таких как Non-Maximum Suppression (NMS).

В этом сравнении исследуются технические характеристики, архитектурные различия и показатели производительности обеих моделей, чтобы помочь разработчикам выбрать правильный инструмент для своих computer vision приложений.

Метрики производительности: Точность в сравнении со скоростью

В следующей таблице представлено прямое сравнение ключевых показателей производительности. RTDETRv2-x демонстрирует превосходную точность с более высоким mAP, в основном благодаря своему transformer-ому глобальному пониманию контекста. Однако YOLOv7 остается конкурентоспособным, особенно в сценариях, где требуются меньший вес и сбалансированная скорость инференса на различном оборудовании.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2: подход Transformer

RTDETRv2 основывается на успехе оригинального RT-DETR, первого детектора на основе transformer, который действительно конкурирует с моделями YOLO по скорости в реальном времени. Разработанный исследователями из Baidu, он решает вычислительные узкие места, связанные с многомасштабным взаимодействием в стандартных архитектурах DETR.

Ключевые архитектурные особенности

RTDETRv2 использует гибридный энкодер, который эффективно обрабатывает многомасштабные признаки, разделяя взаимодействие внутри масштаба и слияние между масштабами. Эта конструкция значительно снижает вычислительные затраты по сравнению со стандартными трансформерами. Отличительной особенностью является его выбор запросов, учитывающий IoU, который улучшает инициализацию объектных запросов, что приводит к более быстрой сходимости и более высокой точности. В отличие от моделей на основе CNN, RTDETRv2 NMS-free, что означает, что он не требует постобработки Non-Maximum Suppression, упрощая конвейер развертывания и уменьшая дрожание задержки.

Преимущества Transformer

Основным преимуществом архитектуры RTDETRv2 является ее способность захватывать глобальный контекст. В то время как CNN рассматривают локализованные рецептивные поля, механизм самовнимания в трансформерах позволяет модели учитывать весь контекст изображения при обнаружении объектов, что полезно для разрешения неоднозначностей в сложных сценах с перекрытиями.

Узнайте больше о RT-DETR

YOLOv7: Пик CNN

YOLOv7 расширяет границы возможного с помощью сверточных нейронных сетей. Он фокусируется на оптимизации процесса обучения и архитектуры модели для достижения "bag-of-freebies" — методов, которые повышают точность без увеличения стоимости inference.

Ключевые архитектурные особенности

YOLOv7 представляет E-ELAN (Extended Efficient Layer Aggregation Network), которая повышает обучаемость сети, контролируя длину пути градиента. Он также использует повторную параметризацию модели, метод, при котором структура модели является сложной во время обучения для лучшего обучения, но упрощается во время вывода для скорости. Это позволяет YOLOv7 поддерживать высокую производительность на устройствах GPU, сохраняя при этом относительно низкое количество параметров по сравнению с моделями transformer.

Узнайте больше о YOLOv7

Сравнительный анализ

Архитектура и универсальность

Принципиальное различие заключается в конструкции backbone и head. YOLOv7 опирается на глубокие структуры CNN, которые хорошо оптимизированы для ускорения CUDA, но могут испытывать трудности с зависимостями на большом расстоянии в изображении. RTDETRv2 использует механизмы внимания для понимания взаимосвязей между удаленными пикселями, что делает его надежным в загроможденных средах. Однако это достигается за счет большего потребления памяти во время обучения.

Модели Ultralytics, такие как YOLO11, устраняют этот пробел, предлагая архитектуру на основе CNN, которая объединяет современные модули, подобные механизмам внимания, обеспечивая скорость CNN с точностью, обычно предназначенной для трансформеров. Кроме того, в то время как RTDETRv2 в основном является детектором объектов, более новые модели Ultralytics поддерживают сегментацию экземпляров, оценку позы и классификацию изначально.

Обучение и простота использования

Обучение моделей-трансформеров, таких как RTDETRv2, обычно требует значительного объема памяти GPU и более длительных эпох обучения для сходимости по сравнению с CNN, такими как YOLOv7.

Для разработчиков, ищущих Эффективность обучения и Простота использования, экосистема Ultralytics предлагает явное преимущество. С ultralytics С помощью пакета Python пользователи могут обучать, проверять и развертывать модели всего несколькими строками кода, получая доступ к набору предварительно обученных весов для различных задач.

from ultralytics import RTDETR, YOLO

# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt")  # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)

# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")

Развертывание и экосистема

YOLOv7 имеет широкую поддержку благодаря своему возрасту, но интеграция в современные конвейеры MLOps может быть выполнена вручную. RTDETRv2 — более новая модель, и ее поддержка растет. В отличие от этого, модели Ultralytics выигрывают от хорошо поддерживаемой экосистемы, включая простую экспорт в ONNX, TensorRT и CoreML, а также интеграцию с такими инструментами, как Ultralytics HUB для облачного обучения и управления наборами данных.

Идеальные варианты использования

  • Выберите RTDETRv2, если: у вас достаточно памяти GPU и требуется высокая точность в сценах с сильной окклюзией или переполненностью, где NMS традиционно терпит неудачу. Он отлично подходит для исследований и высококлассных систем наблюдения.
  • Выберите YOLOv7, если: Вам нужна проверенная устаревшая архитектура CNN, которая эффективно работает на стандартном оборудовании GPU для задач обнаружения общего назначения.
  • Выберите Ultralytics YOLO11, если: Вам нужен лучший баланс производительности скорости и точности, более низкие требования к памяти и универсальная модель, способная выполнять обнаружение, сегментацию и оценку позы. Это идеальный выбор для разработчиков, которые ценят оптимизированный рабочий процесс и обширрную документацию.

Зачем переходить на YOLO11?

В то время как YOLOv7 и RTDETRv2 являются мощными, YOLO11 представляет собой последнюю эволюцию в области ИИ для зрения. Он требует меньше памяти CUDA, чем трансформеры, быстрее обучается и обеспечивает современную точность на более широком спектре оборудования, от периферийных устройств до облачных серверов.

Заключение

RTDETRv2 и YOLOv7 сформировали направление развития компьютерного зрения. RTDETRv2 успешно оспорил представление о том, что transformers слишком медленны для приложений реального времени, а YOLOv7 продемонстрировал устойчивую эффективность CNN. Однако для большинства современных реальных приложений модель Ultralytics YOLO11 предлагает превосходный опыт разработки, сочетая в себе лучшие атрибуты этих предшественников с современной и поддерживающей экосистемой.

Изучите другие сравнения

Чтобы лучше понимать ландшафт моделей, изучите эти сравнения:


Комментарии