RTDETRv2 против YOLO26: трансформеры против CNN нового поколения в области обнаружения объектов в реальном времени

Область обнаружения объектов в реальном времени постоянно развивается, и в настоящее время за лидерство борются две основные архитектуры: RTDETRv2 на основе трансформатора и YOLO26 на основе CNN. Хотя обе модели направлены на решение фундаментальной задачи быстрого и точного обнаружения объектов, они подходят к этой проблеме с совершенно разными философиями и архитектурными решениями.

В этом руководстве подробно описаны технические характеристики, показатели производительности и идеальные сценарии использования обеих моделей, что поможет вам выбрать архитектуру, наиболее подходящую для ваших потребностей развертывания.

Обзор RTDETRv2

RTDETRv2 (Real-Time DEtection TRansformer v2) представляет собой эволюцию семейства DETR (DEtection TRansformer), направленную на применение возможностей трансформеров зрения в приложениях реального времени. Опираясь на оригинальную версию RT-DETR, эта итерация фокусируется на гибкости и конвергенции обучения.

Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
Организация:Baidu
Дата: 2024-07-24 (релиз v2)
Статья:RT-DETRv2: Улучшенная базовая модель с Bag-of-Freebies для трансформера обнаружения в реальном времени
GitHub:Репозиторий RT-DETR

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе базовую структуру CNN с кодировщиком-декодировщиком трансформатора. Ключевой особенностью является «Bag-of-Freebies», который включает в себя усовершенствованные стратегии обучения и архитектурные настройки для повышения скорости сходимости по сравнению с традиционными трансформаторами. Однако, как и его предшественники, он в значительной степени полагается на GPU для эффективного умножения матриц, присущего механизмам внимания.

Узнайте больше о RT-DETR

Обзор YOLO26

YOLO26 представляет собой последний прорыв в линейке You Only Look Once, разработанной Ultralytics расширить границы эффективности периферийных устройств. Он значительно отличается от предыдущих поколений, поскольку использует нативную сквозную архитектуру NMS, сохраняя при этом преимущества скорости сверточных нейронных сетей (CNN).

Авторы: Гленн Джочер и Цзин Цю
Организация:Ultralytics
Дата: 2026-01-14
Документация:Документация YOLO26
GitHub:Репозиторий Ultralytics

YOLO26 разработан для «крайне-первого» развертывания. Он представляет оптимизатор MuSGD, вдохновленный стабильностью обучения LLM, и удаляет Distribution Focal Loss (DFL) для оптимизации экспорта модели. Эти изменения приводят к созданию модели, которая не только обладает высокой точностью, но и исключительно быстра на устройствах CPU, где трансформеры часто испытывают трудности.

Узнайте больше о YOLO26

Техническое сравнение

В следующей таблице показаны различия в производительности между RTDETRv2 и YOLO26. Обратите внимание на значительную разницу в скорости CPU и эффективности параметров.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Архитектура и Дизайн

Фундаментальное различие заключается в том, как эти модели обрабатывают визуальные данные.

RTDETRv2 основан на механизме внимания. Хотя это позволяет модели улавливать глобальный контекст (понимать отношения между удаленными пикселями), оно сопровождается квадратичной вычислительной затратой по отношению к размеру изображения. Это делает высокоразрешающий вывод дорогостоящим. Он устраняет необходимость в немаксимальном подавлении (NMS) за счет использования двудольного сопоставления во время обучения, что является его общей чертой с новым YOLO26.

YOLO26 использует передовую архитектуру CNN, но представляет собой революционную конструкцию NMS. Раньше YOLO требовала NMS для удаления дублирующихся ограничительных рамок. YOLO26 устраняет этот шаг, как и DETR, но без значительных вычислительных затрат трансформаторов. Кроме того, удаление Distribution Focal Loss (DFL) упрощает архитектуру для экспорта в такие форматы, как ONNX TensorRT, обеспечивая более широкую совместимость с маломощными ускорителями.

Эффективность и оптимизация обучения

Эффективность обучения является критическим фактором для команд, работающих с настраиваемыми наборами данных.

YOLO26 представляет оптимизатор MuSGD, гибрид SGD Muon. Вдохновленный инновациями в области обучения крупных языковых моделей (таких как Kimi K2 от Moonshot AI), этот оптимизатор обеспечивает повышенную стабильность и более быструю конвергенцию для задач машинного зрения. В сочетании с ProgLoss (прогрессивная потеря) и STAL (самообучающееся анкерное обучение) YOLO26 предлагает быстрое обучение и меньшее использование памяти, что позволяет использовать более крупные пакеты на потребительских графических процессорах.
RTDETRv2 обычно требует больше GPU (VRAM) и более длительных графиков обучения для стабилизации своих слоев внимания. Трансформеры известны своей «жадностью» к данным и могут сходиться медленнее, чем их аналоги из CNN.

Эффективность памяти

Архитектура YOLO26 на основе CNN значительно более эффективна с точки зрения использования памяти, чем альтернативные решения на основе трансформеров. Это позволяет обучать более крупные модели на графических процессорах с ограниченным объемом видеопамяти (таких как RTX 3060 или 4060) или использовать более крупные размеры пакетов для получения более стабильных градиентов.

Анализ реальных приложений

Выбор между этими моделями в значительной степени зависит от конкретных ограничений аппаратного обеспечения и требований к точности.

В чем превосходит YOLO26

1. Edge AI и IoT: Благодаря ускоренному на 43 % CPU , YOLO26 является бесспорным лидером в области edge. Для приложений, работающих на Raspberry Pi, NVIDIA Nano или мобильных телефонах, накладные расходы на блоки трансформаторов RTDETRv2 часто являются непомерно высокими. YOLO26n (Nano) обеспечивает скорость в реальном времени на CPU, где трансформаторы измеряют задержку в секундах, а не в миллисекундах.

2. Робототехника и навигация: Конструкция YOLO26 NMS имеет решающее значение для робототехники. Благодаря устранению этапа NMS , YOLO26 снижает вариативность задержки, обеспечивая стабильное, детерминированное время вывода, необходимое для высокоскоростных задач навигации и манипулирования.

3. Разнообразные задачи по обработке изображений: YOLO26 — это не просто детектор. Ultralytics изначально поддерживает набор задач:

Сегментация экземпляров: для понимания объектов на уровне пикселей.
Оценка позы: использование оценки остаточной логарифмической вероятности (RLE) для высокоточных ключевых точек.
Ориентированная ограничивающая коробка (OBB): специализированные функции угловых потерь для обнаружения вращающихся объектов, таких как корабли или воздушные суда.

Место RTDETRv2

RTDETRv2 — это в первую очередь архитектура, ориентированная на исследования. Она лучше всего подходит для следующих сценариев:

Глобальный контекст имеет большее значение, чем локальные особенности (например, определенные задачи медицинской визуализации).
Ограничений по аппаратному обеспечению нет, и для развертывания доступны высокопроизводительные графические процессоры серверного класса (такие как NVIDIA или H100).
Для решения нишевой исследовательской задачи требуются специфические индуктивные смещения трансформаторов.

Однако в производственных средах отсутствие зрелой экосистемы развертывания по сравнению с Ultralytics создает проблемы.

Преимущество Ultralytics

Помимо сырых показателей, экосистема программного обеспечения играет важную роль в успехе проекта. YOLO26 использует преимущества надежной Ultralytics , которая оптимизирует весь жизненный цикл MLOps.

Простота использования: благодаря подходу «от нуля до героя» вы можете загрузить, обучить и развернуть модель менее чем за 10 строк Python .
Хорошо поддерживаемая экосистема: в отличие от исследовательских репозиториев, которые могут месяцами не обновляться, Ultralytics частые исправления, активную поддержку сообщества и обширную документацию.
Гибкость развертывания: независимо от того, нужно ли вам работать на iOS CoreML, в веб-браузере с TF.js или на пограничном TPU, встроенные режимы экспорта обеспечивают плавный переход.

Пример кода: Начало работы с YOLO26

Следующий пример демонстрирует, насколько просто обучить модель YOLO26 с помощьюPython Ultralytics . Эта простота контрастирует со сложными конфигурационными файлами, которые часто требуются для исследовательских моделей трансформаторов.

from ultralytics import YOLO

# Load the YOLO26 Nano model (efficient for edge devices)
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free prediction ensures low latency
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for broad deployment compatibility
path = model.export(format="onnx")

Заключение

В то время как RTDETRv2 демонстрирует академический потенциал трансформаторов в области обнаружения, Ultralytics предлагает более практичное, эффективное и универсальное решение для подавляющего большинства реальных приложений.

Уникальное сочетание архитектуры End-to-End NMS, оптимизации MuSGD и превосходной производительности на периферии делает YOLO26 перспективным выбором на 2026 год. Независимо от того, создаете ли вы интеллектуальную систему камер, автономный дрон или высокопроизводительный конвейер видеоаналитики, YOLO26 обеспечивает баланс скорости и точности, необходимый для уверенного перехода от прототипа к производству.

Для разработчиков, заинтересованных в других современных опциях, Ultralytics также поддерживает YOLO11 и оригинальную RT-DETR, что позволяет легко проводить тестирование в рамках единого API.