YOLO11 против RTDETRv2: Техническое сравнение детекторов реального времени
Выбор оптимальной архитектуры обнаружения объектов требует преодоления сложного ландшафта компромиссов между скоростью вывода, точностью обнаружения и эффективностью использования вычислительных ресурсов. В данном анализе приводится всестороннее техническое сравнение между Ultralytics YOLO11последней итерацией стандартного для отрасли детектора на основе CNN, и RTDETRv2, высокопроизводительным трансформатором обнаружения в реальном времени.
В то время как RTDETRv2 демонстрирует потенциал трансформаторных архитектур для решения высокоточных задач, YOLO11 как правило, предлагает лучший баланс для практического развертывания, обеспечивая более высокую скорость вычислений, значительно меньший объем памяти и более надежную экосистему разработчиков.
Ultralytics YOLO11: стандарт компьютерного зрения в реальном времени
Ultralytics YOLO11 представляет собой кульминацию многолетних исследований в области эффективных конволюционных нейронных сетей (CNN). Разработанная в качестве основного инструмента для реальных приложений компьютерного зрения, она ставит во главу угла эффективность без ущерба для современной точности.
Авторы: Гленн Джочер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHubultralytics
Docsyolo11
Архитектура и сильные стороны
В YOLO11 используется усовершенствованная одноступенчатая архитектура без якорей. В него интегрированы передовые модули извлечения признаков, включая оптимизированные блоки C3k2 и модули SPPF (Spatial Pyramid Pooling - Fast), позволяющие фиксировать признаки в различных масштабах.
- Универсальность: В отличие от многих специализированных моделей, YOLO11 поддерживает широкий спектр задач компьютерного зрения в рамках одного фреймворка, включая обнаружение объектов, сегментацию объектов, оценку позы, ориентированные ограничительные рамки (ООБ) и классификацию изображений.
- Эффективность использования памяти: YOLO11 разработан для эффективной работы на различном оборудовании - от встраиваемых краевых устройств до серверов корпоративного класса. Для обучения требуется значительно меньше памяти CUDA по сравнению с альтернативами на основе трансформаторов.
- Интеграция с экосистемой: Модель поддерживается экосистемойUltralytics , обеспечивая беспрепятственный доступ к таким инструментам, как Ultralytics HUB для управления моделью и Ultralytics Explorer для анализа наборов данных.
RTDETRv2: Точность при питании от трансформатора
RTDETRv2 - это трансформатор обнаружения в реальном времениRT-DETR), который использует возможности трансформаторов зрения (ViT) для достижения высокой точности на эталонных наборах данных. Он призван решить проблемы задержки, традиционно связанные с DETR-подобными моделями.
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization: Baidu
Дата: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR
Архитектура и характеристики
RTDETRv2 использует гибридную архитектуру, объединяющую основу CNN с эффективным трансформаторным кодером-декодером. Механизм самовнимания позволяет модели улавливать глобальный контекст, что полезно для сцен со сложными отношениями между объектами.
- Глобальный контекст: Архитектура трансформатора отлично справляется с распознаванием объектов в многолюдной среде, где локальные особенности могут быть неоднозначными.
- Интенсивность использования ресурсов: Несмотря на оптимизацию скорости, слои трансформатора по своей природе требуют больше вычислений и памяти, особенно при работе с исходными данными высокого разрешения.
- Фокус: RTDETRv2 - это архитектура, ориентированная в первую очередь на обнаружение, в ней отсутствует встроенная поддержка многозадачности, присущая семейству YOLO .
Анализ производительности: скорость, точность и эффективность
При сравнении YOLO11 и RTDETRv2 различие заключается в архитектурном компромиссе между чистыми показателями точности и операционной эффективностью.
Аппаратные соображения
Модели на основе трансформаторов, такие как RTDETRv2, часто требуют мощных графических процессоров для эффективного обучения и вывода. В отличие от них, модели на основе CNN, такие как YOLO11 , оптимизированы для более широкого спектра аппаратных средств, включая центральные процессоры и устройства для граничного ИИ, такие как Raspberry Pi.
Количественное сравнение
В таблице ниже приведены показатели производительности на наборе данныхCOCO . В то время как RTDETRv2 демонстрирует высокие показатели mAP , YOLO11 обеспечивает конкурентоспособную точность при значительно более высокой скорости вычислений, особенно на CPU.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Анализ результатов
- Скорость вывода: YOLO11 доминирует по скорости. Например, YOLO11x достигает более высокой точности (54,7 mAP), чем RTDETRv2-x (54,3 mAP), и при этом работает примерно на 25 % быстрее на GPU T4 (11,3 мс против 15,03 мс).
- Эффективность параметров: Модели YOLO11 в целом требуют меньше параметров и FLOP для достижения аналогичных уровней точности. YOLO11l достигает того же 53,4 mAP , что и RTDETRv2-l, но при этом использует почти вдвое меньше FLOP (86,9B против 136B).
- ПроизводительностьCPU : Операции преобразования в RTDETRv2 требуют больших вычислительных затрат на центральных процессорах. YOLO11 остается предпочтительным выбором для развертывания без GPU , предлагая приемлемую частоту кадров на стандартных процессорах.
Рабочий процесс и удобство использования
Для разработчиков "стоимость" модели включает в себя время интеграции, стабильность обучения и простоту развертывания.
Простота использования и экосистема
APIUltralytics Python абстрагирует сложные циклы обучения в несколько строк кода.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
В отличие от этого, хотя RTDETRv2 является мощным исследовательским инструментом, он часто требует более ручной настройки и более глубокого знания базовой кодовой базы для адаптации к пользовательским наборам данных или экспорта в специальные форматы, такие как ONNX или TensorRT.
Эффективность обучения
Для обучения трансформаторных моделей обычно требуется значительно больше памяти GPU (VRAM). Это может вынуждать разработчиков использовать меньшие объемы партий или арендовать более дорогое облачное оборудование. Архитектура CNN в YOLO11 не требует много памяти, что позволяет использовать большие объемы партий и ускорять сходимость на графических процессорах потребительского класса.
Идеальные варианты использования
Когда выбирать YOLO11
- Развертывание на границе в режиме реального времени: При развертывании на таких устройствах, как NVIDIA Jetson, Raspberry Pi или мобильные телефоны, где вычислительные ресурсы ограничены.
- Разнообразные задачи технического зрения: Если в вашем проекте наряду с обнаружением требуется сегментация или оценка положения.
- Быстрая разработка: Когда время выхода на рынок имеет решающее значение, обширная документация и поддержка сообщества Ultralytics ускоряют жизненный цикл.
- Видеоаналитика: Для обработки видео с высокой частотой кадров в таких приложениях, как мониторинг трафика или спортивная аналитика.
Когда следует выбирать RTDETRv2
- Академические исследования: Для изучения свойств трансформаторов зрения и механизмов внимания.
- Обработка на стороне сервера: Когда доступны неограниченные мощности GPU , а единственным критерием является абсолютная точность в определенных бенчмарках - независимо от задержки.
- Статический анализ изображений: Сценарии, в которых время обработки не является ограничением, например, автономный анализ медицинских изображений.
Заключение
В то время как RTDETRv2 демонстрирует академический прогресс архитектур трансформаторов в области зрения, Ultralytics YOLO11 остается прагматичным выбором для подавляющего большинства реальных приложений. Превосходное соотношение скорости и точности, низкие требования к памяти и способность решать множество задач технического зрения делают его универсальным и мощным инструментом. В сочетании со зрелой, хорошо поддерживаемой экосистемой YOLO11 позволяет разработчикам переходить от концепции к производству с минимальными трудностями.
Изучите другие модели
Сравнение моделей помогает выбрать подходящий инструмент для решения конкретных задач. Дополнительные сведения о сравнении можно найти в документации Ultralytics :
- YOLO11 против YOLOv10
- YOLO11 против YOLOv8
- RT-DETR против YOLOv8
- YOLOv5 против RT-DETR
- Изучите все сравнения моделей