Перейти к содержанию

YOLO11 против RTDETRv2: Техническое сравнение детекторов реального времени

Выбор оптимальной архитектуры обнаружения объектов требует преодоления сложного ландшафта компромиссов между скоростью вывода, точностью обнаружения и эффективностью использования вычислительных ресурсов. В данном анализе приводится всестороннее техническое сравнение между Ultralytics YOLO11последней итерацией стандартного для отрасли детектора на основе CNN, и RTDETRv2, высокопроизводительным трансформатором обнаружения в реальном времени.

В то время как RTDETRv2 демонстрирует потенциал трансформаторных архитектур для решения высокоточных задач, YOLO11 как правило, предлагает лучший баланс для практического развертывания, обеспечивая более высокую скорость вычислений, значительно меньший объем памяти и более надежную экосистему разработчиков.

Ultralytics YOLO11: стандарт компьютерного зрения в реальном времени

Ultralytics YOLO11 представляет собой кульминацию многолетних исследований в области эффективных конволюционных нейронных сетей (CNN). Разработанная в качестве основного инструмента для реальных приложений компьютерного зрения, она ставит во главу угла эффективность без ущерба для современной точности.

Авторы: Гленн Джочер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHubultralytics
Docsyolo11

Архитектура и сильные стороны

В YOLO11 используется усовершенствованная одноступенчатая архитектура без якорей. В него интегрированы передовые модули извлечения признаков, включая оптимизированные блоки C3k2 и модули SPPF (Spatial Pyramid Pooling - Fast), позволяющие фиксировать признаки в различных масштабах.

Узнайте больше о YOLO11

RTDETRv2: Точность при питании от трансформатора

RTDETRv2 - это трансформатор обнаружения в реальном времениRT-DETR), который использует возможности трансформаторов зрения (ViT) для достижения высокой точности на эталонных наборах данных. Он призван решить проблемы задержки, традиционно связанные с DETR-подобными моделями.

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization: Baidu
Дата: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR

Архитектура и характеристики

RTDETRv2 использует гибридную архитектуру, объединяющую основу CNN с эффективным трансформаторным кодером-декодером. Механизм самовнимания позволяет модели улавливать глобальный контекст, что полезно для сцен со сложными отношениями между объектами.

  • Глобальный контекст: Архитектура трансформатора отлично справляется с распознаванием объектов в многолюдной среде, где локальные особенности могут быть неоднозначными.
  • Интенсивность использования ресурсов: Несмотря на оптимизацию скорости, слои трансформатора по своей природе требуют больше вычислений и памяти, особенно при работе с исходными данными высокого разрешения.
  • Фокус: RTDETRv2 - это архитектура, ориентированная в первую очередь на обнаружение, в ней отсутствует встроенная поддержка многозадачности, присущая семейству YOLO .

Узнайте больше о RTDETRv2

Анализ производительности: скорость, точность и эффективность

При сравнении YOLO11 и RTDETRv2 различие заключается в архитектурном компромиссе между чистыми показателями точности и операционной эффективностью.

Аппаратные соображения

Модели на основе трансформаторов, такие как RTDETRv2, часто требуют мощных графических процессоров для эффективного обучения и вывода. В отличие от них, модели на основе CNN, такие как YOLO11 , оптимизированы для более широкого спектра аппаратных средств, включая центральные процессоры и устройства для граничного ИИ, такие как Raspberry Pi.

Количественное сравнение

В таблице ниже приведены показатели производительности на наборе данныхCOCO . В то время как RTDETRv2 демонстрирует высокие показатели mAP , YOLO11 обеспечивает конкурентоспособную точность при значительно более высокой скорости вычислений, особенно на CPU.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Анализ результатов

  1. Скорость вывода: YOLO11 доминирует по скорости. Например, YOLO11x достигает более высокой точности (54,7 mAP), чем RTDETRv2-x (54,3 mAP), и при этом работает примерно на 25 % быстрее на GPU T4 (11,3 мс против 15,03 мс).
  2. Эффективность параметров: Модели YOLO11 в целом требуют меньше параметров и FLOP для достижения аналогичных уровней точности. YOLO11l достигает того же 53,4 mAP , что и RTDETRv2-l, но при этом использует почти вдвое меньше FLOP (86,9B против 136B).
  3. ПроизводительностьCPU : Операции преобразования в RTDETRv2 требуют больших вычислительных затрат на центральных процессорах. YOLO11 остается предпочтительным выбором для развертывания без GPU , предлагая приемлемую частоту кадров на стандартных процессорах.

Рабочий процесс и удобство использования

Для разработчиков "стоимость" модели включает в себя время интеграции, стабильность обучения и простоту развертывания.

Простота использования и экосистема

APIUltralytics Python абстрагирует сложные циклы обучения в несколько строк кода.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

В отличие от этого, хотя RTDETRv2 является мощным исследовательским инструментом, он часто требует более ручной настройки и более глубокого знания базовой кодовой базы для адаптации к пользовательским наборам данных или экспорта в специальные форматы, такие как ONNX или TensorRT.

Эффективность обучения

Для обучения трансформаторных моделей обычно требуется значительно больше памяти GPU (VRAM). Это может вынуждать разработчиков использовать меньшие объемы партий или арендовать более дорогое облачное оборудование. Архитектура CNN в YOLO11 не требует много памяти, что позволяет использовать большие объемы партий и ускорять сходимость на графических процессорах потребительского класса.

Идеальные варианты использования

Когда выбирать YOLO11

  • Развертывание на границе в режиме реального времени: При развертывании на таких устройствах, как NVIDIA Jetson, Raspberry Pi или мобильные телефоны, где вычислительные ресурсы ограничены.
  • Разнообразные задачи технического зрения: Если в вашем проекте наряду с обнаружением требуется сегментация или оценка положения.
  • Быстрая разработка: Когда время выхода на рынок имеет решающее значение, обширная документация и поддержка сообщества Ultralytics ускоряют жизненный цикл.
  • Видеоаналитика: Для обработки видео с высокой частотой кадров в таких приложениях, как мониторинг трафика или спортивная аналитика.

Когда следует выбирать RTDETRv2

  • Академические исследования: Для изучения свойств трансформаторов зрения и механизмов внимания.
  • Обработка на стороне сервера: Когда доступны неограниченные мощности GPU , а единственным критерием является абсолютная точность в определенных бенчмарках - независимо от задержки.
  • Статический анализ изображений: Сценарии, в которых время обработки не является ограничением, например, автономный анализ медицинских изображений.

Заключение

В то время как RTDETRv2 демонстрирует академический прогресс архитектур трансформаторов в области зрения, Ultralytics YOLO11 остается прагматичным выбором для подавляющего большинства реальных приложений. Превосходное соотношение скорости и точности, низкие требования к памяти и способность решать множество задач технического зрения делают его универсальным и мощным инструментом. В сочетании со зрелой, хорошо поддерживаемой экосистемой YOLO11 позволяет разработчикам переходить от концепции к производству с минимальными трудностями.

Изучите другие модели

Сравнение моделей помогает выбрать подходящий инструмент для решения конкретных задач. Дополнительные сведения о сравнении можно найти в документации Ultralytics :


Комментарии