Перейти к содержанию

RTDETRv2 против YOLO11: сравнение архитектур Transformer и CNN

Область обнаружения объектов в реальном времени быстро развивается, и в ней доминируют две различные архитектурные концепции: подход Vision Transformer (ViT), который используется в таких моделях, как RTDETRv2, и линейка сверточных нейронных сетей (CNN), усовершенствованная Ultralytics YOLO11.

В то время как RTDETRv2 (Real-Time Detection Transformer версия 2) расширяет границы возможностей архитектур на основе трансформеров с точки зрения точности и понимания глобального контекста, YOLO11 представляет собой вершину эффективности, универсальности и простоты развертывания. В этом сравнении рассматриваются их технические характеристики, архитектурные различия и практические применения, чтобы помочь разработчикам выбрать подходящий инструмент для своих проектов в области компьютерного зрения.

Сравнительная таблица: показатели и технические характеристики

В следующей таблице представлены показатели производительности обеих моделей. Обратите внимание на то, как YOLO11 предлагает более широкий диапазон размеров моделей, что делает ее пригодной для использования во всем, от микроконтроллеров до высокопроизводительных серверов, в то время как RTDETRv2 ориентирована в основном на модели с высокой емкостью.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Узнайте больше о YOLO11

Архитектурный анализ

Основное различие между этими двумя современными моделями заключается в том, как они обрабатывают визуальную информацию.

RTDETRv2: подход Transformer

RTDETRv2, разработанный исследователями из Baidu, основан на успехе оригинального RT-DETR. Он использует мощность трансформаторов для захвата дальних зависимостей в изображениях, что часто представляет собой сложную задачу для традиционных CNN.

  • Гибридный кодировщик: RTDETRv2 использует гибридный кодировщик, который обрабатывает многомасштабные особенности, позволяя модели одновременно «обращать внимание» на разные части изображения.
  • ПрогнозированиеNMS: одной из его отличительных черт является устранение немаксимального подавления (NMS). Благодаря прогнозированию объектов непосредственно с помощью набора запросов, он упрощает процесс постобработки, хотя это часто сопровождается более высокой сложностью обучения.
  • Bag-of-Freebies: Обновление «v2» представляет оптимизированные стратегии обучения и архитектурные доработки, направленные на повышение скорости сходимости и точности по сравнению с исходной базовой линией.

Метаданные:

YOLO11: усовершенствованный стандарт CNN

Ultralytics YOLO11 представляет собой эволюцию архитектуры CNN, направленную на максимальное повышение эффективности извлечения признаков при минимальных вычислительных затратах.

  • Блоки C3k2 и C2PSA: YOLO11 усовершенствованные блоки в своей основе и шее. Блок C3k2 использует различные размеры ядра для более богатого представления характеристик, а блок C2PSA эффективно интегрирует механизмы внимания без значительных затрат на полные трансформаторы.
  • Единая поддержка задач: в отличие от RTDETRv2, который в первую очередь является детектором объектов, YOLO11 как универсальная основа для зрительного восприятия. Он изначально поддерживает сегментацию экземпляров, оценку позы, OBB и классификацию в рамках одной и той же структуры.
  • Оптимизация полей: архитектура специально настроена для обеспечения высокой скорости работы на различном оборудовании, от процессоров до ускорителей Edge AI, таких как NVIDIA .

Метаданные:

Вы знали?

В то время как RTDETRv2 устраняет NMS своему дизайну, Ultralytics YOLO26 также отличается встроенным дизайном End-to-End NMS, сочетающим скорость CNN с оптимизированным развертыванием трансформаторов.

Экосистема и простота использования

Для разработчиков и инженеров машинного обучения программная экосистема, окружающая модель, часто имеет такое же важное значение, как и исходные метрики модели.

ПреимуществаUltralytics : YOLO11 преимущества ведущей в отрасли Ultralytics , которая обеспечивает единый подход от управления данными до развертывания.

  • Эффективность обучения: YOLO11 славятся своей быстрой обучаемостью. Код включает в себя автоматическую настройку гиперпараметров и интеллектуальную проверку наборов данных.
  • Гибкость развертывания: пользователи могут экспортировать модели в такие форматы, как ONNX, TensorRT, CoreML и TFLite одной строки кода.
  • Поддержка сообщества: с миллионами загрузок Ultralytics предоставляет обширные ресурсы, от учебных видео на YouTube до активных обсуждений проблем на GitHub.

RTDETRv2. Соображения: RTDETRv2 — это в первую очередь репозиторий для исследований. Несмотря на свою мощность, он часто не обеспечивает полноценного опыта использования. Настройка конвейеров обучения, управление наборами данных и экспорт для периферийных устройств обычно требуют большего количества ручной настройки и Python скриптов.

Требования к производительности и ресурсам

При внедрении в реальных условиях ключевым моментом является баланс между точностью и потреблением ресурсов.

GPU и обучение

Трансформаторы, как известно, требуют большого объема памяти. RTDETRv2 обычно требует значительного GPU VRAM, чтобы стабилизировать свои механизмы внимания во время обучения. Это может затруднить обучение на потребительском оборудовании или потребовать меньшего размера партий, что может повлиять на статистику нормализации партий.

YOLO11 значительно более эффективен с точки зрения использования памяти. Его архитектура на основе CNN позволяет использовать более крупные пакеты данных на стандартных графических процессорах, ускоряя обучение и снижая затраты на разработку. Эта эффективность распространяется и на инференцию, где модели YOLO11n могут работать в режиме реального времени на процессорах, что является достижением, с которым модели на основе трансформеров не могут сравниться из-за своей квадратичной вычислительной сложности в отношении токенов изображений.

Компромисс между точностью и скоростью

Как показано в сравнительной таблице, YOLO11x достигает более высокого mAP (54,7), чем RTDETRv2-x (54,3), сохраняя при этом конкурентоспособную скорость инференса. Для приложений, требующих экстремальной скорости, более компактные YOLO11 (n/s) предлагают уровень производительности, на который RTDETRv2 не ориентируется, что делает YOLO11 явным YOLO11 для мобильных и IoT-развертываний.

Пример кода: использование YOLO11 RT-DETR

Ultralytics первоклассную поддержку как для своих собственных YOLO , так и для поддерживаемых версий RT-DETR, что позволяет вам легко переключаться между архитектурами.

from ultralytics import RTDETR, YOLO

# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the YOLO11 results
for result in results_yolo:
    result.show()

Приложения в реальном мире

Где превосходит YOLO11

Благодаря небольшому весу и высокой скорости YOLO11 предпочтительным выбором для:

  • Автономные системы: дроны и робототехника, где низкая задержка имеет критическое значение для безопасности.
  • Умные города: мониторинг дорожного движения в реальном времени на периферийных устройствах, таких как NVIDIA
  • Сельское хозяйство: мониторинг урожая и обнаружение сорняков с помощью мобильного оборудования, работающего от аккумулятора.
  • Универсальные задачи: проекты, требующие оценки позы или ориентированных ограничительных рамок наряду с обнаружением.

Место RTDETRv2

RTDETRv2 хорошо подходит для:

  • Серверы с высокой вычислительной мощностью: сценарии, в которых доступны неограниченные мощности и GPU .
  • Сложные окклюзии: среды, в которых глобальное рецептивное поле трансформаторов помогает устранить сильное перекрытие между объектами.
  • Исследование: Академическое исследование Vision Transformers (ViTs).

Заключение

Обе архитектуры демонстрируют невероятный прогресс в области компьютерного зрения. RTDETRv2 демонстрирует потенциал трансформеров, способных бросить вызов доминированию CNN в задачах обнаружения. Однако для подавляющего большинства практических приложений Ultralytics YOLO11 остается лучшим выбором.

Благодаря унифицированной структуре, меньшим требованиям к ресурсам, более широкому спектру поддерживаемых задач и зрелой экосистеме развертывания, YOLO11 разработчикам быстрее переходить от прототипа к производству. Тем, кто ищет абсолютную эффективность и дизайн NMS, мы также рекомендуем ознакомиться с передовым YOLO26, который сочетает в себе лучшие черты обоих миров в единой, комплексной мощной платформе.

Изучите YOLO11


Комментарии