YOLO11 vs RTDETRv2: Техническое сравнение детекторов в реальном времени

Выбор оптимальной архитектуры для detectирования объектов требует навигации по сложному ландшафту компромиссов между скоростью inference, точностью detectирования и эффективностью вычислительных ресурсов. Этот анализ представляет собой всестороннее техническое сравнение между Ultralytics YOLO11, последней итерацией отраслевого стандартного детектора на основе CNN, и RTDETRv2, высокопроизводительным Real-Time Detection Transformer.

В то время как RTDETRv2 демонстрирует потенциал архитектур transformer для задач, требующих высокой точности, YOLO11, как правило, предлагает превосходный баланс для практического развертывания, обеспечивая более высокую скорость инференса, значительно меньший объем памяти и более надежную экосистему разработчиков.

Ultralytics YOLO11: Стандарт для компьютерного зрения в реальном времени

Ultralytics YOLO11 представляет собой кульминацию многолетних исследований в области эффективных сверточных нейронных сетей (CNN). Разработанная как окончательный инструмент для реальных приложений компьютерного зрения, она отдает приоритет эффективности без ущерба для современной точности.

Авторы: Гленн Джокер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

Архитектура и сильные стороны

В YOLO11 используется усовершенствованная одноэтапная архитектура без привязки к anchor. Она объединяет передовые модули извлечения признаков, включая оптимизированные блоки C3k2 и модули SPPF (Spatial Pyramid Pooling - Fast), для захвата признаков в различных масштабах.

Универсальность: В отличие от многих специализированных моделей, YOLO11 поддерживает широкий спектр задач компьютерного зрения в рамках единой структуры, включая object detection, instance segmentation, pose estimation, oriented bounding boxes (OBB) и image classification.
Эффективность использования памяти: YOLO11 разработана для эффективной работы на оборудовании, начиная от встроенных периферийных устройств и заканчивая серверами корпоративного класса. Она требует значительно меньше памяти CUDA во время обучения по сравнению с альтернативами на основе transformer.
Интеграция в экосистему: Модель поддерживается экосистемой Ultralytics, обеспечивая беспрепятственный доступ к таким инструментам, как Ultralytics HUB для управления моделями и Ultralytics Explorer для анализа набора данных.

Узнайте больше о YOLO11

RTDETRv2: Точность на основе Transformer

RTDETRv2 - это Real-Time Detection Transformer (RT-DETR), который использует возможности Vision Transformers (ViT) для достижения высокой точности на эталонных наборах данных. Он направлен на решение проблем задержки, традиционно связанных с моделями, подобными DETR.

Авторы: Веню Лв, Йиан Чжао, Циняо Чанг, Куи Хуанг, Гуанжонг Ванг и Йи Лиу
Организация: Baidu
Дата: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Документация:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Архитектура и характеристики

RTDETRv2 использует гибридную архитектуру, сочетающую CNN backbone с эффективным энкодером-декодером transformer. Механизм self-attention позволяет модели захватывать глобальный контекст, что полезно для сцен со сложными взаимосвязями объектов.

Глобальный контекст: Архитектура transformer превосходно различает объекты в переполненных средах, где локальные признаки могут быть неоднозначными.
Интенсивность использования ресурсов: Несмотря на оптимизацию скорости, слои transformer по своей сути требуют больше вычислений и памяти, особенно для входных данных с высоким разрешением.
Фокус: RTDETRv2 — это в первую очередь архитектура, ориентированная на detect, в которой отсутствует встроенная поддержка нескольких задач, имеющаяся в семействе YOLO.

Узнайте больше о RTDETRv2

Анализ производительности: скорость, точность и эффективность

При сравнении YOLO11 и RTDETRv2 различие заключается в архитектурном компромиссе между чистыми метриками точности и операционной эффективностью.

Рекомендации по аппаратному обеспечению

Модели на основе Transformer, такие как RT-DETRv2, часто требуют мощных GPU для эффективного обучения и инференса. В отличие от этого, модели на основе CNN, такие как YOLO11, высоко оптимизированы для более широкого спектра оборудования, включая CPU и периферийные AI устройства, такие как Raspberry Pi.

Количественное сравнение

В таблице ниже показаны метрики производительности на наборе данных COCO. В то время как RTDETRv2 демонстрирует высокие показатели mAP, YOLO11 обеспечивает конкурентоспособную точность со значительно более высокой скоростью инференса, особенно на CPU.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Анализ результатов

Скорость инференса: YOLO11 доминирует по скорости. Например, YOLO11x достигает более высокой точности (54,7 mAP), чем RTDETRv2-x (54,3 mAP), работая примерно на 25% быстрее на GPU T4 (11,3 мс против 15,03 мс).
Эффективность параметров: Модели YOLO11 обычно требуют меньше параметров и FLOPs для достижения аналогичных уровней точности. YOLO11l достигает тех же 53.4 mAP, что и RTDETRv2-l, но делает это почти с половиной FLOPs (86.9B против 136B).
Производительность CPU: Операции transformer в RTDETRv2 требуют больших вычислительных ресурсов на CPU. YOLO11 остается предпочтительным выбором для развертываний без GPU, предлагая приемлемую частоту кадров на стандартных процессорах.

Рабочий процесс и удобство использования

Для разработчиков «стоимость» модели включает время интеграции, стабильность обучения и простоту развертывания.

Простота использования и экосистема

Ultralytics Python API абстрагирует сложные циклы обучения в несколько строк кода.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

В отличие от этого, хотя RTDETRv2 является мощным исследовательским инструментом, он часто требует больше ручной настройки и более глубокого знания базовой кодовой базы для адаптации к пользовательским наборам данных или экспорта в определенные форматы, такие как ONNX или TensorRT.

Эффективность обучения

Обучение моделей-трансформеров обычно требует значительно большего объема памяти GPU (VRAM). Это может заставить разработчиков использовать меньшие размеры пакетов или арендовать более дорогое облачное оборудование. Архитектура CNN YOLO11 эффективна по памяти, что позволяет использовать большие размеры пакетов и более быструю сходимость на GPU потребительского класса.

Идеальные варианты использования

Когда следует выбирать YOLO11

Развертывание на Edge в реальном времени: При развертывании на таких устройствах, как NVIDIA Jetson, Raspberry Pi или мобильные телефоны, где вычислительные ресурсы ограничены.
Разнообразные задачи компьютерного зрения: Если вашему проекту требуется сегментация или оценка позы наряду с обнаружением.
Быстрая разработка: Когда критически важно время выхода на рынок, обширная документация и поддержка сообщества Ultralytics ускоряют жизненный цикл.
Видеоаналитика: Для обработки с высокой частотой кадров в таких приложениях, как мониторинг трафика или спортивная аналитика.

Когда следует выбирать RTDETRv2

Академические исследования: Для изучения свойств vision transformers и механизмов внимания.
Обработка на стороне сервера: Когда доступна неограниченная мощность GPU и абсолютная высочайшая точность на конкретных бенчмарках — независимо от задержки — является единственным показателем.
Статический анализ изображений: Сценарии, в которых время обработки не является ограничением, например, автономный анализ медицинских изображений.

Заключение

В то время как RTDETRv2 демонстрирует академический прогресс архитектур-трансформеров в области зрения, Ultralytics YOLO11 остается прагматичным выбором для подавляющего большинства реальных приложений. Превосходное соотношение скорости и точности, более низкие требования к памяти и возможность обрабатывать несколько задач компьютерного зрения делают его универсальным и мощным инструментом. В сочетании со зрелой, хорошо поддерживаемой экосистемой YOLO11 позволяет разработчикам переходить от концепции к производству с минимальными трудностями.

Изучите другие модели

Сравнение моделей помогает выбрать правильный инструмент для ваших конкретных ограничений. Ознакомьтесь с другими сравнениями в документации Ultralytics: