Перейти к содержанию

YOLO против RTDETRv2: Баланс между скоростью и точностью трансформатора

Выбор оптимальной архитектуры обнаружения объектов часто связан с поиском компромисса между задержкой вывода и точностью обнаружения. В этом техническом сравнении рассматриваются YOLO, высокоскоростной детектор, оптимизированный компанией Alibaba Group, и RTDETRv2, второе поколение Real-Time Detection Transformer от Baidu. Мы анализируем их архитектурные инновации, эталоны производительности и пригодность для развертывания, чтобы помочь вам принять обоснованное решение для приложений компьютерного зрения.

YOLO: оптимизация для низкой задержки

YOLO представляет собой значительный шаг в эволюции YOLO в архитектуре YOLO, уделяя большое внимание максимальной скорости без серьезного ущерба для точности. Разработанная компанией Alibaba Group, она использует передовые методы поиска нейронной архитектуры (NAS) для настройки структуры сети с целью повышения эффективности.

Архитектурные особенности

YOLO объединяет несколько новых технологий для оптимизации процесса обнаружения:

  • Магистраль на основе NAS: В модели используется нейронный поиск архитектуры (NAS) для автоматического определения эффективной структуры магистрали (MAE-NAS). Этот подход обеспечивает оптимизацию глубины и ширины сети с учетом конкретных аппаратных ограничений.
  • RepGFPN Neck: Здесь представлена эффективная версия обобщенной сети пирамид признаков (GFPN), известная как RepGFPN. Этот компонент улучшает объединение признаков в различных масштабах, сохраняя при этом низкую задержку.
  • ZeroHead: упрощенная конструкция головки, получившая название "ZeroHead", разделяет задачи классификации и регрессии, снижая вычислительную нагрузку на последние слои предсказания.
  • AlignedOTA: Для обеспечения стабильности обучения в YOLO используется AlignedOTA (Optimal Transport Assignment) - стратегия присвоения меток, которая выравнивает цели классификации и регрессии для улучшения сходимости.

Узнайте больше о DAMO-YOLO

RTDETRv2: Эволюция трансформаторов реального времени

RTDETRv2 опирается на успех оригинальной версии RT-DETR, первого детектора объектов на основе трансформатора, достигшего производительности в реальном времени. Разработанный компанией Baidu, RTDETRv2 вводит "мешок с бесплатными данными" для повышения стабильности и точности обучения без дополнительных затрат на вывод.

Архитектурные особенности

RTDETRv2 использует сильные стороны трансформаторов зрения, устраняя их традиционные узкие места в скорости:

  • Гибридный кодировщик: В архитектуре используется гибридный кодер, который эффективно обрабатывает разномасштабные признаки, разделяя внутримасштабное взаимодействие и межмасштабное слияние для экономии вычислительных затрат.
  • Выбор запросовIoU: Этот механизм выбирает высококачественные начальные запросы к объектам на основе оценок Intersection over UnionIoU), что приводит к ускорению сходимости обучения.
  • Адаптируемая конфигурация: RTDETRv2 предлагает гибкие конфигурации для декодера и выбора запросов, позволяя пользователям настраивать модель под конкретные требования к скорости/точности.
  • Безъякорный дизайн: Как и его предшественник, он полностью свободен от якорей, что устраняет необходимость в эвристической настройке якорных ящиков и не-максимальном подавленииNMS) во время постобработки.

Узнайте больше о RTDETRv2

Техническое сравнение: Производительность и эффективность

Основное различие между этими двумя моделями заключается в их архитектурных корнях - NNN и Transformer - и в том, как это влияет на их производительность.

Метрический анализ

В таблице ниже приведены основные показатели на наборе данныхCOCO . В то время как RTDETRv2 доминирует по показателю средней точностиmAP), YOLO демонстрирует более высокую производительность (FPS) и меньшее количество параметров для своих меньших вариантов.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Анализ компромиссов

YOLO отлично подходит для работы в условиях, где важна каждая миллисекунда, например, при высокочастотной промышленной сортировке. Его вариант "Tiny" (t) отличается исключительной легкостью. Напротив, RTDETRv2 обеспечивает более высокий предел точности, что делает его предпочтительным для сложных сцен, где пропуск объекта является критическим, например, в автономной навигации или детальном наблюдении.

Архитектура и реальное применение

  1. Глобальный контекст против локальных особенностей: Механизм внимания трансформатора RTDETRv2 позволяет ему лучше понимать глобальный контекст, чем YOLO на основе CNN. Это приводит к улучшению производительности в многолюдных сценах или при наличии объектов. Однако за глобальное внимание приходится расплачиваться большим объемом памяти и более медленным временем обучения.

  2. Оптимизация аппаратного обеспечения: Магистраль YOLO на базе NAS оптимизирована для выводов GPU и обеспечивает очень низкую задержку. RTDETRv2, хотя и работает в реальном времени, обычно требует более мощного оборудования, чтобы соответствовать частоте кадров детекторов YOLO.

Преимущество Ultralytics: Почему стоит выбрать YOLO11?

В то время как YOLO и RTDETRv2 предлагают специализированные преимущества, Ultralytics YOLO11 выделяется как наиболее сбалансированное и удобное для разработчиков решение для подавляющего большинства реальных приложений.

Превосходный опыт и экосистема для разработчиков

Одной из самых серьезных проблем академических моделей, таких как YOLO или RTDETRv2, является интеграция. Ultralytics решает эту проблему с помощью надежной экосистемы:

  • Простота использования: Благодаря унифицированному API и CLI на Python вы можете обучать, проверять и развертывать модели всего в нескольких строках кода.
  • Хорошо поддерживаемая экосистема: Модели Ultralytics поддерживаются активной разработкой, обширной документацией и большим сообществом. Это обеспечивает совместимость с новейшими аппаратными и программными библиотеками.
  • Эффективность обучения: YOLO11 разработан для более быстрого обучения и требует значительно меньше памяти GPU (VRAM), чем модели на основе трансформаторов, такие как RTDETRv2. Это делает высокопроизводительный ИИ доступным даже на оборудовании потребительского класса.

Непревзойденная универсальность

В отличие от YOLO и RTDETRv2, которые в основном ориентированы на определение ограничительных рамок, YOLO11 поддерживает широкий спектр задач компьютерного зрения:

Баланс производительности

YOLO11 достигает современной точности, которая во многих бенчмарках конкурирует или превосходит RTDETRv2, сохраняя при этом скорость и эффективность вычислений, характерные для семейства YOLO .

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Узнайте больше о YOLO11

Заключение

Выбор между YOLO и RTDETRv2 зависит от ваших конкретных ограничений:

  • Выбирайте YOLO, если вашим основным ограничением является задержка и вы развертываетесь на пограничных устройствах, где минимальное количество параметров имеет решающее значение.
  • Выбирайте RTDETRv2, если вам нужна максимальная точность в сложных сценах и у вас есть вычислительный бюджет для поддержки трансформаторной архитектуры.

Однако для комплексного решения, сочетающего высокую производительность, простоту использования и многозадачность, Ultralytics YOLO11 остается рекомендованным выбором. Меньший объем памяти при обучении в сочетании с развитой экосистемой ускоряют переход от прототипа к производству.

Изучите другие модели

Чтобы лучше понять ландшафт обнаружения объектов, изучите эти сравнения:


Комментарии