Перейти к содержанию

RTDETRv2 против YOLOv7: подробное техническое сравнение

В области обнаружения объектов в реальном времени наблюдается жесткая конкуренция между конволюционными нейронными сетями (CNN) и появляющимися трансформаторами зрения (ViT). Двумя важными вехами в этой эволюции стали RTDETRv2 (Real-Time Detection Transformer v2) и YOLOv7 (You Only Look Once version 7). В то время как YOLOv7 представляет собой вершину эффективной оптимизации архитектуры CNN, RTDETRv2 представляет возможности трансформаторов для устранения необходимости в шагах постобработки, таких как немаксимальное подавлениеNMS).

В этом сравнении рассматриваются технические характеристики, архитектурные различия и показатели производительности обеих моделей, чтобы помочь разработчикам выбрать подходящий инструмент для приложений компьютерного зрения.

Метрики производительности: Точность против скорости

В следующей таблице представлено прямое сравнение ключевых показателей производительности. RTDETRv2-x демонстрирует более высокую точность при более высоком mAP, в основном благодаря основанному на трансформаторах пониманию глобального контекста. Однако, YOLOv7 остается конкурентоспособным, особенно в сценариях, где требуется меньший вес и сбалансированная скорость вычислений на различном оборудовании.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2: Трансформаторный подход

RTDETRv2 опирается на успех оригинального RT-DETR, первого детектора на основе трансформатора, реально конкурирующего с моделями YOLO по скорости работы в реальном времени. Разработанный исследователями из Baidu, он устраняет узкие места в вычислениях, связанные с многомасштабным взаимодействием в стандартных архитектурах DETR.

Основные архитектурные особенности

В RTDETRv2 используется гибридный кодер, который эффективно обрабатывает многомасштабные признаки, отделяя внутримасштабное взаимодействие от межмасштабного слияния. Такая конструкция значительно снижает вычислительные затраты по сравнению со стандартными преобразователями. Отличительной особенностью является выбор запросаIoU, который улучшает инициализацию объектных запросов, что приводит к ускорению сходимости и повышению точности. В отличие от моделей на основе CNN, RTDETRv2 NMS, то есть не требует постобработки Non-Maximum Suppression, что упрощает конвейер развертывания и снижает джиттер латентности.

Преимущество трансформатора

Основным преимуществом архитектуры RTDETRv2 является ее способность улавливать глобальный контекст. В то время как CNN рассматривают локализованные рецептивные поля, механизм самовнимания в трансформаторах позволяет модели учитывать весь контекст изображения при обнаружении объектов, что полезно для разрешения неоднозначностей в сложных сценах с окклюзией.

Узнайте больше о RT-DETR

YOLOv7: Пик CNN

YOLOv7 расширяет границы возможного при использовании конволюционных нейронных сетей. Он фокусируется на оптимизации процесса обучения и архитектуры модели, чтобы достичь "мешка бесплатных вещей" - методов, которые повышают точность без увеличения стоимости вывода.

Основные архитектурные особенности

В YOLOv7 появилась сеть E-ELAN (Extended Efficient Layer Aggregation Network), которая повышает способность сети к обучению за счет управления длиной градиентного пути. В ней также используется перепараметризация модели- техника, при которой структура модели усложняется во время обучения для лучшего усвоения информации, но упрощается во время вывода для повышения скорости. Это позволяет YOLOv7 поддерживать высокую производительность на GPU , сохраняя при этом относительно низкие параметры по сравнению с трансформаторными моделями.

Узнайте больше о YOLOv7

Сравнительный анализ

Архитектура и универсальность

Принципиальное различие заключается в конструкции основы и головы. YOLOv7 опирается на глубокие структуры CNN, которые оптимизированы для CUDA ускорения, но могут испытывать трудности с дальними зависимостями в изображении. RTDETRv2 использует механизмы внимания для понимания взаимосвязей между удаленными пикселями, что делает его устойчивым в загроможденном окружении. Однако за это приходится платить большим расходом памяти при обучении.

Ultralytics модели, такие как YOLO11 преодолевают этот разрыв, предлагая архитектуру на основе CNN, в которую интегрированы современные модули внимания, обеспечивающие скорость CNN с точностью, обычно присущей трансформаторам. Более того, хотя RTDETRv2 - это в первую очередь детектор объектов, новые модели Ultralytics поддерживают сегментацию объектов, оценку позы и классификацию.

Обучение и простота использования

Обучение трансформаторных моделей, таких как RTDETRv2, обычно требует значительного объема памяти GPU и более длительных эпох обучения для сходимости по сравнению с CNN, такими как YOLOv7.

Для разработчиков, ищущих Эффективность обучения и Простота использованияЭкосистема Ultralytics обладает неоспоримым преимуществом. С ultralytics С помощью пакета Python пользователи могут обучать, проверять и развертывать модели с помощью всего нескольких строк кода, получая доступ к набору предварительно обученных весов для различных задач.

from ultralytics import RTDETR, YOLO

# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt")  # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)

# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")

Развертывание и экосистема

YOLOv7 имеет широкую поддержку в силу своего возраста, но интеграция в современные конвейеры MLOps может быть ручной. RTDETRv2 является более новым и имеет растущую поддержку. В отличие от него, Ultralytics модели пользуются преимуществами хорошо поддерживаемой экосистемы, включая беспрепятственный экспорт в ONNX, TensorRT и CoreML, а также интеграция с такими инструментами, как Ultralytics HUB, для облачного обучения и управления наборами данных.

Идеальные варианты использования

  • Выбирайте RTDETRv2, если: У вас достаточно памяти GPU и вам требуется высокая точность в сценах с сильной окклюзией или скоплением людей, где NMS традиционно не справляется. Он отлично подходит для исследований и высококлассных систем наблюдения.
  • Выбирайте YOLOv7 , если: Вам нужна проверенная временем архитектура CNN, которая эффективно работает на стандартном оборудовании GPU для задач обнаружения общего назначения.
  • Выберите Ultralytics YOLO11 , если: Вам нужен оптимальный баланс скорости и точности, низкие требования к памяти и универсальная модель, способная обнаруживать, сегментировать и оценивать позу. Это идеальный выбор для разработчиков, которые ценят оптимизированный рабочий процесс и обширную документацию.

Зачем переходить на YOLO11?

В то время как YOLOv7 и RTDETRv2 являются мощными, YOLO11 представляет собой последнюю эволюцию в области искусственного интеллекта зрения. Он требует меньше памяти CUDA , чем трансформаторы, быстрее обучается и обеспечивает современную точность в более широком диапазоне аппаратных средств, от граничных устройств до облачных серверов.

Заключение

И RTDETRv2, и YOLOv7 определили направление развития компьютерного зрения. RTDETRv2 успешно опроверг мнение о том, что трансформаторы слишком медленны для приложений реального времени, а YOLOv7 продемонстрировал непреходящую эффективность CNN. Однако для большинства реальных приложений сегодня Ultralytics YOLO11 модель Ultralytics YOLO11 обеспечивает превосходный опыт разработчиков, сочетая лучшие качества предшественников с современной, поддерживающей экосистемой.

Изучите другие сравнения

Чтобы лучше понять модельный ландшафт, изучите эти сравнения:


Комментарии