YOLO11 против RTDETRv2: Сравнение эволюции CNN и Vision Transformers

Ландшафт компьютерного зрения стремительно расширяется, предлагая разработчикам множество вариантов для создания надежных приложений на основе зрения. В области обнаружения объектов в реальном времени дискуссия между сверточными нейронными сетями (CNN) и Vision Transformers (ViT) актуальна как никогда. В этом техническом обзоре рассматриваются две ведущие архитектуры: YOLO11, представляющая собой вершину высокооптимизированных фреймворков на базе CNN, и RTDETRv2, мощная итерация семейства Detection Transformer.

Анализируя архитектуры, показатели производительности и сценарии оптимального развертывания, это руководство поможет инженерам по машинному обучению принимать взвешенные решения. Хотя обе модели раздвигают границы точности, модели Ultralytics YOLO обычно предлагают лучшее соотношение скорости, поддержки экосистемы и простоты использования в реальных производственных условиях.

YOLO11: Эталон универсальности для реальных задач

Представленная Ultralytics, модель YOLO11 опирается на многолетние фундаментальные исследования, обеспечивая быстроту, точность и невероятную универсальность. Она разработана для бесшовной работы с обнаружением объектов, сегментацией экземпляров, классификацией изображений, оценкой поз и извлечением ориентированных ограничивающих рамок (OBB).

Узнай больше о YOLO11

Архитектура и сильные стороны

YOLO11 оснащена усовершенствованным бэкбоном CNN и передовыми пирамидами пространственных признаков, что делает ее исключительно эффективной в плане ресурсов. Она отлично работает в условиях жестких аппаратных ограничений, требуя минимум памяти как при обучении, так и при инференсе. Платформа Ultralytics обеспечивает нативную поддержку YOLO11, позволяя оптимизировать мониторинг моделей, аннотирование данных и облачное обучение без необходимости объединения разрозненных инструментов MLOps.

Для разработчиков, ориентированных на периферийные вычисления, YOLO11 предлагает ультранизкую задержку. Ее легковесность позволяет эффективно запускать модель на устройствах от Raspberry Pi до обычных смартфонов, что делает ее стандартом для умной розничной торговли, контроля качества производства и автоматизированного управления дорожным движением.

RTDETRv2: Трансформеры реального времени от Baidu

RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой попытку Baidu сделать архитектуры на основе трансформеров пригодными для задач реального времени. Она развивает оригинальный RT-DETR, используя подход "bag-of-freebies" для повышения базовой точности без увеличения задержки инференса.

Узнай больше о RTDETR

Архитектура и сильные стороны

В отличие от традиционных CNN, RTDETRv2 использует архитектуру энкодер-декодер с механизмами self-attention, что позволяет учитывать глобальный контекст изображения. Это особенно полезно в переполненных сценах, где часто встречаются перекрытия. RTDETRv2 исключает необходимость в Non-Maximum Suppression (NMS) при постобработке, полагаясь на венгерский алгоритм во время обучения для взаимно-однозначного двудольного сопоставления.

Однако трансформерные модели печально известны своей прожорливостью в отношении VRAM и памяти CUDA. Обучение RTDETRv2 с нуля или дообучение на собственных наборах данных часто требует мощных высокопроизводительных GPU-кластеров, что может стать препятствием для небольших гибких команд по сравнению с легким обучением моделей Ultralytics.

Анализ производительности и метрик

При оценке этих моделей на стандартном наборе данных COCO мы наблюдаем четкие компромиссы между параметрами, FLOPs и реальной точностью.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Разбор результатов

Как видно из таблицы, YOLO11 обеспечивает невероятное соотношение производительности и размера. YOLO11x достигает более высокого значения mAPval (54.7) по сравнению с RTDETRv2-x (54.3), используя при этом значительно меньше параметров (56.9M против 76M) и гораздо меньше вычислительных FLOPs (194.9B против 259B).

Более того, скорость инференса YOLO11 на TensorRT с использованием T4 исключительно высока. YOLO11s выполняет инференс всего за 2.5 мс, тогда как самая маленькая модель RTDETRv2-s затрачивает 5.03 мс. Это делает YOLO11 идеальным выбором для высокоскоростных потоков видеоаналитики в реальном времени, где время обработки кадра является основным узким местом.

Цена трансформеров

Хотя RTDETRv2 достигает отличной точности благодаря своим слоям внимания, эти механизмы масштабируются квадратично относительно разрешения изображения, что приводит к большему потреблению VRAM как при обучении, так и при инференсе. YOLO11 обходит эту проблему с помощью своих высокоэффективных сверточных блоков.

Экосистема обучения и удобство использования

Ключевое преимущество выбора модели Ultralytics заключается в сопутствующей экосистеме. Обучение RTDETRv2 часто предполагает работу со сложными исследовательскими репозиториями, настройку запутанных весов функции потерь для двудольного сопоставления и управление значительными накладными расходами памяти.

Напротив, Ultralytics уделяет большое внимание опыту разработчика. Унифицированный Python API абстрагирует стандартный код, бесшовно интегрируясь с такими инструментами, как Weights & Biases для отслеживания экспериментов, и автоматически обрабатывает аугментацию данных.

Вот насколько просто обучить и экспортировать модель с использованием пакета ultralytics:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

После обучения экспорт модели YOLO11 в такие форматы, как ONNX, OpenVINO или CoreML, требует всего одной команды, что гарантирует легкое масштабирование твоего пайплайна машинного зрения на различные аппаратные бэкенды.

Многозадачные возможности

Помни, что в то время как RTDETRv2 фокусируется исключительно на обнаружении ограничивающих рамок, архитектура YOLO11 нативно поддерживает оценку поз и сегментацию экземпляров, позволяя тебе объединить несколько задач компьютерного зрения в одном семействе моделей.

Варианты использования и рекомендации

Выбор между YOLO11 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLO11

YOLO11 — это отличный выбор для:

  • Развертывания на периферии (Edge): коммерческих приложений на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активная поддержка имеют первостепенное значение.
  • Многозадачных приложений компьютерного зрения: проектов, требующих обнаружения, сегментации, оценки позы и OBB в рамках единого унифицированного фреймворка.
  • Быстрого прототипирования и развертывания: команд, которым необходимо быстро перейти от сбора данных к продакшену, используя оптимизированный Python API Ultralytics.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Взгляд в будущее: Мощь YOLO26

Хотя YOLO11 является отличным выбором для производства, команды, ищущие самые передовые решения, должны обязательно рассмотреть YOLO26. Выпущенная в январе 2026 года, YOLO26 сокращает архитектурный разрыв, включая End-to-End NMS-Free Design (впервые представленный в YOLOv10) непосредственно в свое ядро, что полностью исключает задержки постобработки и сложность логики развертывания.

YOLO26 также предлагает несколько революционных функций:

  • Оптимизатор MuSGD: Вдохновленный методами обучения LLM от Moonshot AI (Kimi K2), этот гибрид SGD и Muon обеспечивает невероятно стабильное обучение и значительно более быструю сходимость.
  • Удаление DFL: Distribution Focal Loss была удалена для более чистого и простого процесса экспорта, что значительно улучшает совместимость с маломощными периферийными устройствами.
  • ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметное улучшение распознавания мелких объектов, что является критическим требованием для наблюдения с дронов, сельскохозяйственного мониторинга и датчиков IoT.
  • До 43% быстрее инференс на CPU: Для развертываний без выделенных GPU модель YOLO26 специально оптимизирована для выполнения на CPU, значительно превосходя предыдущие поколения.

Узнай больше о YOLO26

Для тех, кто заинтересован в изучении более широкого спектра архитектур, документация Ultralytics также дает представление о YOLOv8, широко используемой YOLOv5, и специализированных моделях, таких как YOLO-World для задач обнаружения с открытым словарем. В конечном счете, ставишь ли ты приоритетом проверенную стабильность YOLO11 или прорывные инновации YOLO26, экосистема Ultralytics предоставляет непревзойденные инструменты для воплощения твоих решений в области компьютерного зрения в жизнь.

Комментарии