Перейти к содержанию

YOLO11 vs RTDETRv2: Техническое сравнение

Выбор подходящей модели обнаружения объектов предполагает компромисс между точностью, скоростью и простотой использования. На этой странице представлено подробное техническое сравнение Ultralytics YOLO11, современной системы обнаружения объектов в реальном времени, и RTDETRv2, высокоточной модели, основанной на архитектуре Transformer. Хотя обе модели представляют собой значительные достижения, YOLO11 предлагает превосходный баланс производительности, универсальности и удобства для разработчиков, что делает ее идеальным выбором для широкого спектра приложений, от исследований до производства.

Ultralytics YOLO11: Передовой уровень обнаружения в реальном времени

Ultralytics YOLO11 – это последняя эволюция в известной серии YOLO, разработанная Ultralytics, чтобы расширить границы обнаружения объектов в реальном времени и других задач компьютерного зрения. Она опирается на успех своих предшественников, таких как YOLOv8, с архитектурными усовершенствованиями, которые повышают как точность, так и эффективность.

Архитектура и ключевые особенности

В YOLO11 используется высокооптимизированная одноэтапная безанкерная архитектура. Эта конструкция сводит к минимуму вычислительные издержки, максимально увеличивая возможности извлечения признаков, что приводит к исключительной скорости и точности. Ключевым преимуществом YOLO11 является его интеграция в комплексную экосистему Ultralytics. Это обеспечивает оптимизированный пользовательский интерфейс с простым Python API и CLI, обширной документацией и активной поддержкой сообщества.

Кроме того, YOLO11 невероятно универсальна, поддерживая несколько задач в рамках единой унифицированной платформы, включая обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB). Эта многозадачность является значительным преимуществом перед более специализированными моделями.

Сильные стороны

  • Баланс производительности: Обеспечивает выдающийся компромисс между скоростью и точностью, что делает ее подходящей для различных реальных сценариев.
  • Простота использования: Отличается удобным API, исчерпывающей документацией и множеством учебных пособий, что обеспечивает быстрое прототипирование и развертывание.
  • Хорошо поддерживаемая экосистема: Преимущества непрерывной разработки, частых обновлений и бесшовной интеграции с такими инструментами, как Ultralytics HUB, для MLOps.
  • Эффективность обучения: Предлагает эффективные и быстрые процессы обучения с легкодоступными предварительно обученными весами. Обычно требует меньше памяти CUDA и сходится быстрее, чем модели на основе трансформеров.
  • Deployment Flexibility (Гибкость развертывания): Оптимизировано для различного оборудования, от периферийных устройств, таких как NVIDIA Jetson, до мощных облачных серверов.

Слабые стороны

  • Как одностадийный детектор, он может столкнуться с проблемами при работе с очень плотными или небольшими кластерами объектов по сравнению с некоторыми специализированными двухстадийными детекторами, хотя он по-прежнему исключительно хорошо работает в большинстве случаев.
  • Самые крупные модели, такие как YOLO11x, требуют значительных вычислительных ресурсов для достижения максимальной точности.

Идеальные варианты использования

Сочетание скорости, точности и универсальности YOLO11 делает ее идеальной для:

Узнайте больше о YOLO11

RTDETRv2: Высокоточное обнаружение на основе Transformer

RTDETRv2, разработанный исследователями из Baidu, представляет собой детектор объектов реального времени, который использует Vision Transformer (ViT) для достижения высокой точности. Он представляет собой альтернативный архитектурный подход к семейству YOLO на основе CNN.

Архитектура и ключевые особенности

RTDETRv2 использует гибридную архитектуру, сочетающую в себе CNN backbone для извлечения признаков с кодировщиком-декодировщиком на основе transformer. Механизм самовнимания transformer позволяет модели захватывать глобальные взаимосвязи между объектами на изображении, что может повысить точность в сложных сценах с окклюзиями или плотными объектами.

Сильные стороны

  • Высокая точность: Архитектура transformer позволяет RTDETRv2 достигать конкурентоспособных показателей mAP, особенно на сложных академических бенчмарках.
  • Понимание глобального контекста: Отлично справляется с пониманием взаимосвязей между удаленными объектами на изображении.

Слабые стороны

  • Вычислительные затраты: Модели на основе Transformer, такие как RTDETRv2, обычно имеют большее количество параметров и FLOPs, что требует более значительных вычислительных ресурсов (память GPU и вычислительная мощность), чем YOLO11.
  • Сложность обучения: Обучение часто происходит медленнее и является более ресурсоемким, требуя гораздо больше памяти CUDA и более длительного времени обучения по сравнению с YOLO11.
  • Более медленный инференс: Будучи оптимизированным для реального времени, он, как правило, медленнее, чем сопоставимые модели YOLO11, особенно на CPU и периферийных устройствах с ограниченными ресурсами.
  • Ограниченная экосистема: Отсутствует обширная, унифицированная и удобная для пользователя экосистема, предоставляемая Ultralytics. Документация, учебные пособия и поддержка сообщества менее полные.
  • Недостаток универсальности: В основном предназначенный для обнаружения объектов, он не имеет встроенной поддержки сегментации, классификации и оценки позы, что делает YOLO11 более универсальным инструментом.

Идеальные варианты использования

RTDETRv2 хорошо подходит для:

  • Академические исследования: Когда достижение максимально возможного mAP на конкретном бенчмарке является основной целью, и вычислительные ресурсы не являются серьезным ограничением.
  • Специализированные приложения: Сценарии с мощным, специализированным оборудованием, где способность модели обрабатывать сложные взаимосвязи объектов имеет решающее значение.

Узнайте больше о RTDETRv2

Анализ производительности: YOLO11 против RTDETRv2

При сравнении производительности становится ясно, что Ultralytics YOLO11 предлагает более практичное и эффективное решение для большинства реальных приложений. Таблица ниже показывает, что модели YOLO11 стабильно достигают лучшего баланса между скоростью и точностью.

Например, YOLO11m достигает более высокого mAP (51.5), чем RTDETRv2-s (48.1), при этом работает быстрее на T4 GPU (4.7 мс против 5.03 мс). В более высоком диапазоне YOLO11x не только превосходит RTDETRv2-x по точности (54.7 против 54.3 mAP), но и значительно быстрее (11.3 мс против 15.03 мс) с меньшим количеством параметров и FLOPs. Важно отметить, что модели YOLO11 хорошо оптимизированы для CPU-инференса, области, в которой модели на основе трансформеров часто испытывают трудности.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Заключение: почему YOLO11 является предпочтительным выбором

Хотя RTDETRv2 является сильной академической моделью, демонстрирующей возможности трансформеров для обнаружения объектов, Ultralytics YOLO11 выделяется как превосходный выбор для разработчиков и исследователей, которым нужно практичное, высокопроизводительное и универсальное решение.

Ключевыми преимуществами YOLO11 являются исключительный баланс скорости и точности, замечательная эффективность как на CPU, так и на GPU, а также многозадачность. Самое главное, она поддерживается зрелой, хорошо документированной и удобной экосистемой, которая значительно упрощает весь жизненный цикл MLOps, от обучения и валидации до развертывания и мониторинга. Для проектов, требующих производительности в реальном времени, эффективности использования ресурсов и простоты разработки, YOLO11 — явный победитель.

Изучите другие модели

Если вам интересно, как YOLO11 и RT-DETRv2 соотносятся с другими ведущими моделями, ознакомьтесь с этими дополнительными сравнениями:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии