RTDETRv2 и Ultralytics YOLO11: техническое сравнение

Выбор оптимальной архитектуры для detectирования объектов требует баланса между точностью, задержкой inference и вычислительной эффективностью. В этом руководстве представлен всесторонний технический анализ RTDETRv2, детектора на основе трансформеров, и Ultralytics YOLO11, последней эволюции в современной серии YOLO (You Only Look Once).

Несмотря на то, что обе модели расширяют границы компьютерного зрения, они используют принципиально разные подходы. RTDETRv2 использует vision transformers для захвата глобального контекста, уделяя приоритетное внимание точности в сложных сценах. В отличие от этого, YOLO11 совершенствует архитектуры на основе CNN, чтобы обеспечить непревзойденный баланс скорости, точности и простоты развертывания, поддерживаемый надежной экосистемой Ultralytics.

RTDETRv2: Transformer для обнаружения в реальном времени

RTDETRv2 представляет собой значительный шаг в адаптации архитектур Transformer для детекции объектов в реальном времени. Разработанный исследователями из Baidu, он основывается на оригинальном RT-DETR, представляя улучшенный базовый уровень со стратегией обучения "bag-of-freebies".

Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
Организация:Baidu
Дата: 17.04.2023
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Документация:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Архитектура и возможности

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе backbone (обычно CNN, например ResNet) с энкодером-декодером transformer. Основная сила заключается в его механизме self-attention, который позволяет модели обрабатывать глобальную информацию по всему изображению одновременно. Эта возможность особенно полезна для различения объектов в переполненных средах или выявления взаимосвязей между удаленными признаками изображения.

Сильные и слабые стороны

Основным преимуществом RTDETRv2 является ее способность достигать высокой средней точности (mAP) на таких бенчмарках, как COCO, часто превосходя модели, основанные исключительно на CNN, в сценариях, требующих понимания глобального контекста.

Однако, это достигается за счет компромиссов. Transformer-based архитектуры по своей сути требуют больше ресурсов. RTDETRv2 обычно требует значительно больше CUDA memory во время обучения и inference по сравнению с моделями YOLO. Кроме того, хотя он и оптимизирован для «real-time» производительности, он часто отстает от YOLO11 в скорости raw inference, особенно на периферийных устройствах или системах без high-end GPU. Экосистема, окружающая RTDETRv2, также более фрагментирована, в основном обслуживая исследовательские цели, а не производственное развертывание.

Узнайте больше о RTDETRv2

Ultralytics YOLO11: Скорость, точность и универсальность

Ultralytics YOLO11 — это последняя итерация в самом распространенном в мире семействе моделей для detect object. Разработанная Ultralytics, YOLO11 совершенствует парадигму одноэтапного detect, чтобы максимизировать эффективность без ущерба для точности.

Авторы: Гленн Джохер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

Архитектура и ключевые особенности

В YOLO11 используется усовершенствованная архитектура CNN с улучшенными слоями извлечения признаков и оптимизированной головкой для точной регрессии bounding box. В отличие от моделей, ориентированных исключительно на обнаружение, YOLO11 — это универсальная платформа, поддерживающая несколько задач компьютерного зрения — instance segmentation, image classification, pose estimation и oriented bounding boxes (OBB) — в рамках единой унифицированной структуры.

Унифицированная экосистема

Одним из наиболее значительных преимуществ YOLO11 является его интеграция с экосистемой Ultralytics. Разработчики могут плавно переходить от управления набором данных к обучению и развертыванию, используя один и тот же API для всех задач.

Преимущество Ultralytics

YOLO11 разработан с учетом опыта разработчиков. Он предлагает:

Эффективность обучения: Более высокая скорость сходимости и значительно более низкие требования к памяти, чем у моделей-трансформеров, что позволяет проводить обучение на оборудовании потребительского класса.
Гибкость развертывания: Бесшовный экспорт в такие форматы, как ONNX, TensorRT, CoreML и TFLite для развертывания на периферии и в облаке.
Простота использования: Pythonic API и всеобъемлющий CLI делают его доступным для начинающих, предлагая при этом глубину для экспертов.

Узнайте больше о YOLO11

Анализ производительности: Метрики и эффективность

При сравнении RTDETRv2 и YOLO11 метрики подчеркивают различные философии проектирования. В таблице ниже показано, что Ultralytics YOLO11 стабильно обеспечивает превосходное соотношение скорости и точности.

Например, YOLO11x достигает более высокого mAP (54.7), чем самая большая модель RTDETRv2-x (54.3), сохраняя при этом значительно более низкую задержку инференса (11.3 мс против 15.03 мс на T4 GPU). Кроме того, меньшие варианты, такие как YOLO11m, предлагают конкурентоспособную точность со значительно уменьшенными вычислительными затратами, что делает их гораздо более жизнеспособными для приложений реального времени.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Основные выводы

Скорость инференса: Модели YOLO11 в целом быстрее, особенно при инференсе на базе CPU, где Transformers часто испытывают трудности из-за сложных вычислений внимания.
Эффективность параметров: YOLO11 достигает аналогичной или лучшей точности с меньшим количеством параметров и FLOPs, что приводит к снижению затрат на хранение и энергопотребление.
Использование памяти: Обучение модели YOLO11 обычно потребляет меньше GPU VRAM по сравнению с RTDETRv2, что позволяет использовать большие размеры пакетов или проводить обучение на более доступных GPU.

Использование и опыт разработчиков

Важнейшим отличием является простота интеграции. В то время как RTDETRv2 предоставляет кодовую базу, ориентированную на исследования, YOLO11 предлагает готовый к производству Python API и CLI.

В следующем примере показано, как просто загрузить предварительно обученную модель YOLO11 и запустить inference на изображении. Этот уровень простоты значительно ускоряет жизненный цикл разработки.

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Show results
results[0].show()

Этот оптимизированный рабочий процесс распространяется и на обучение на пользовательских наборах данных, где Ultralytics автоматически обрабатывает сложные расширения данных и настройку гиперпараметров.

Идеальные варианты использования

Выбор подходящей модели зависит от конкретных ограничений и целей вашего проекта.

Когда стоит выбирать Ultralytics YOLO11

YOLO11 — это рекомендуемый выбор для подавляющего большинства коммерческих и исследовательских приложений благодаря своей универсальности и поддержке экосистемы.

Периферийные вычисления: Идеально подходит для развертывания на таких устройствах, как NVIDIA Jetson или Raspberry Pi, благодаря низкой задержке и эффективности использования ресурсов.
Системы реального времени: Идеально подходят для мониторинга трафика, автономной навигации и промышленного контроля качества, где скорость на уровне миллисекунд имеет решающее значение.
Multi-Task Projects: Если вашему проекту требуется segmentation или оценка позы наряду с detect, YOLO11 предоставляет унифицированное решение.
Быстрое прототипирование: Обширная документация и поддержка сообщества позволяют быстро переходить от идеи к развертыванию.

Когда следует выбирать RTDETRv2

RTDETRv2 лучше всего подходит для специализированных исследовательских сценариев.

Академические исследования: Когда основная цель состоит в изучении архитектур Vision Transformer или превзойти конкретные академические бенчмарки независимо от вычислительных затрат.
Сложные перекрытия: В сценариях со статическими входными данными, где аппаратные ресурсы не ограничены, механизм глобального внимания может предложить небольшие преимущества в разрешении плотных перекрытий.

Заключение

В то время как RTDETRv2 демонстрирует потенциал transformers в обнаружении объектов, Ultralytics YOLO11 остается превосходным выбором для практического развертывания и комплексных решений в области компьютерного зрения. Его архитектура обеспечивает лучший баланс скорости и точности, а окружающая экосистема значительно снижает сложность обучения и MLOps.

Для разработчиков, ищущих надежную, быструю и хорошо поддерживаемую модель, которая масштабируется от прототипа до производства, YOLO11 предлагает непревзойденную ценность.

Изучите другие модели

Если вам интересны дальнейшие сравнения в области компьютерного зрения, изучите эти связанные страницы: