Перейти к содержанию

RTDETRv2 против Ultralytics YOLO11: техническое сравнение

Выбор оптимальной архитектуры обнаружения объектов требует соблюдения баланса между точностью, задержкой вывода и вычислительной эффективностью. В данном руководстве представлен всесторонний технический анализ RTDETRv2, детектора на основе трансформатора, и Ultralytics YOLO11новейшей серии YOLO (You Only Look Once).

Хотя обе модели расширяют границы компьютерного зрения, они используют принципиально разные подходы. RTDETRv2 использует трансформаторы зрения для захвата глобального контекста, уделяя первостепенное внимание точности в сложных сценах. В отличие от этого, YOLO11 совершенствует архитектуру на основе CNN, чтобы обеспечить непревзойденный баланс скорости, точности и простоты развертывания, поддерживаемый надежной экосистемойUltralytics .

RTDETRv2: Трансформатор обнаружения в реальном времени

RTDETRv2 представляет собой значительный шаг в адаптации архитектур трансформеров для обнаружения объектов в реальном времени. Разработанная исследователями из Baidu, она опирается на оригинальный RT-DETR , представляя улучшенный базовый уровень со стратегией обучения "bag-of-freebies".

Архитектура и возможности

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе основу (обычно CNN, например ResNet) и кодер-декодер с трансформатором. Основная сила модели заключается в механизме самовнимания, который позволяет ей обрабатывать глобальную информацию по всему изображению одновременно. Эта способность особенно полезна для различения объектов в многолюдном окружении или выявления взаимосвязей между удаленными элементами изображения.

Сильные и слабые стороны

Основным преимуществом RTDETRv2 является его способность достигать высокой средней точности (mAP) в таких бенчмарках, как COCO, часто превосходя модели на основе CNN в сценариях, требующих понимания глобального контекста.

Однако это связано с определенными компромиссами. Архитектуры на основе трансформаторов по своей природе более ресурсоемки. RTDETRv2, как правило, требует значительно больше памятиCUDA во время обучения и вывода по сравнению с моделями YOLO . Кроме того, будучи оптимизированной для работы в режиме "реального времени", она часто отстает от YOLO11 по скорости вычисления, особенно на периферийных устройствах или системах без высокопроизводительных графических процессоров. Экосистема, окружающая RTDETRv2, также более фрагментирована и служит в основном для исследовательских целей, а не для внедрения в производство.

Узнайте больше о RTDETRv2

Ultralytics YOLO11: скорость, точность и универсальность

Ultralytics YOLO11 это последняя итерация самого распространенного в мире семейства систем обнаружения объектов. Разработанный компанией Ultralytics, YOLO11 совершенствует парадигму одноступенчатого обнаружения, чтобы максимизировать эффективность без ущерба для точности.

Архитектура и ключевые особенности

В YOLO11 используется усовершенствованная архитектура CNN, включающая улучшенные слои извлечения признаков и оптимизированную головку для точной регрессии ограничительных блоков. В отличие от моделей, ориентированных исключительно на обнаружение, YOLO11 является универсальной платформой, поддерживающей множество задач компьютерного зрения -сегментацию объектов, классификацию изображений, оценку позы и ориентированные ограничительные рамки (ООБ)- в рамках единой унифицированной структуры.

Единая экосистема

Одним из наиболее значимых преимуществ YOLO11 является его интеграция с экосистемой Ultralytics . Разработчики могут беспрепятственно переходить от управления набором данных к обучению и развертыванию, используя один и тот же API для всех задач.

Преимущество Ultralytics

YOLO11 разработан с учетом пожеланий разработчиков. Он предлагает:

  • Эффективность обучения: Более высокая скорость сходимости и значительно меньшие требования к памяти по сравнению с трансформаторными моделями, что позволяет проводить обучение на оборудовании потребительского класса.
  • Гибкость развертывания: Бесшовный экспорт в такие форматы, как ONNXTensorRT, CoreML и TFLite для пограничного и облачного развертывания.
  • Простота использования: Pythonic API и обширный CLI делают его доступным для новичков и одновременно глубоким для экспертов.

Узнайте больше о YOLO11

Анализ производительности: Метрики и эффективность

При сравнении RTDETRv2 и YOLO11 метрики подчеркивают различия в философии проектирования. В таблице ниже показано, что Ultralytics YOLO11 неизменно обеспечивает превосходное соотношение скорости и точности.

Например, YOLO11x достигает более высокой mAP (54,7), чем самая большая модель RTDETRv2-x (54,3), при этом сохраняя значительно меньшую задержку вывода (11,3 мс против 15,03 мс на T4 GPU). Более того, меньшие варианты, такие как YOLO11m, обеспечивают конкурентоспособную точность при значительно меньших вычислительных затратах, что делает их гораздо более жизнеспособными для приложений реального времени.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Основные выводы

  • Скорость вывода: модели YOLO11 повсеместно быстрее, особенно при выводе на CPU, где трансформеры часто испытывают трудности из-за сложных вычислений внимания.
  • Эффективность использования параметров: YOLO11 достигает аналогичной или более высокой точности при меньшем количестве параметров и FLOP, что приводит к снижению стоимости хранения данных и энергопотребления.
  • Использование памяти: Обучение модели YOLO11 обычно потребляет меньше VRAM GPU по сравнению с RTDETRv2, что позволяет использовать большие объемы партий или проводить обучение на более доступных GPU.

Опыт использования и разработчиков

Важнейшим отличием является простота интеграции. В то время как RTDETRv2 предоставляет кодовую базу, ориентированную на исследования, YOLO11 предлагает готовый к производству Python API и CLI.

Следующий пример иллюстрирует, насколько просто загрузить предварительно обученную модель YOLO11 и выполнить вывод на изображении. Такая простота значительно ускоряет жизненный цикл разработки.

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Show results
results[0].show()

Этот оптимизированный рабочий процесс распространяется и на обучение на пользовательских наборах данных, где Ultralytics автоматически обрабатывает сложные дополнения к данным и настраивает гиперпараметры.

Идеальные варианты использования

Выбор подходящей модели зависит от конкретных ограничений и целей вашего проекта.

Когда стоит выбирать Ultralytics YOLO11

Благодаря своей универсальности и поддержке экосистемы YOLO11 является рекомендованным выбором для подавляющего большинства коммерческих и исследовательских приложений.

  • Пограничные вычисления: Идеально подходит для развертывания на таких устройствах, как NVIDIA Jetson или Raspberry Pi, благодаря низкой задержке и эффективности использования ресурсов.
  • Системы реального времени: Идеально подходит для мониторинга дорожного движения, автономной навигации и контроля качества в промышленности, где важна скорость на уровне миллисекунд.
  • Многозадачные проекты: Если в вашем проекте наряду с обнаружением требуется сегментация или оценка позы, YOLO11 предлагает единое решение.
  • Быстрое создание прототипов: Обширная документация и поддержка сообщества позволяют быстро пройти путь от идеи до внедрения.

Когда следует выбирать RTDETRv2

RTDETRv2 лучше всего подходит для специализированных исследовательских сценариев.

  • Академические исследования: Когда основной целью является изучение архитектур Vision Transformer или победа над определенными академическими эталонами, независимо от вычислительных затрат.
  • Сложные окклюзии: В сценариях со статичными входами, где аппаратные ресурсы неограниченны, механизм глобального внимания может иметь небольшие преимущества в разрешении плотных окклюзий.

Заключение

В то время как RTDETRv2 демонстрирует возможности трансформаторов в обнаружении объектов, Ultralytics YOLO11 остается лучшим выбором для практического развертывания и комплексных решений в области компьютерного зрения. Его архитектура обеспечивает лучший баланс скорости и точности, а окружающая экосистема значительно снижает сложность обучения и MLOps.

Разработчикам, которые ищут надежную, быструю и хорошо поддерживаемую модель, масштабируемую от прототипа до производства, YOLO11 предлагает непревзойденные преимущества.

Изучите другие модели

Если вас интересуют дальнейшие сравнения в области компьютерного зрения, изучите эти связанные страницы:


Комментарии