RTDETRv2 против YOLO26: всестороннее техническое сравнение

Ландшафт обнаружения объектов в реальном времени значительно изменился, и исследователи постоянно расширяют границы скорости, точности и эффективности развертывания. Две самые заметные архитектуры, которые сейчас лидируют в этом направлении — это трансформерная RTDETRv2 и передовая сверточная нейронная сеть (CNN), Ultralytics YOLO26. Это руководство предоставляет глубокий анализ их архитектур, показателей производительности и идеальных вариантов использования, чтобы помочь тебе выбрать подходящую модель для твоего следующего проекта по компьютерному зрению.

RTDETRv2: Трансформеры для обнаружения в реальном времени

RTDETRv2 основана на оригинальной архитектуре RT-DETR и нацелена на объединение понимания глобального контекста vision-трансформеров со скоростью, необходимой для работы в реальном времени.

Ключевые характеристики:

  • Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
  • Организация: Baidu
  • Дата: 2024-07-24
  • Ссылки: Arxiv, GitHub, Docs

Архитектура и сильные стороны

В отличие от традиционных детекторов, основанных на якорях (anchor-based), RTDETRv2 использует подход на базе трансформеров, который изначально избавляет от необходимости в NMS (Non-Maximum Suppression) при постобработке. Благодаря использованию гибкого механизма внимания модель очень эффективно понимает сложные сцены и перекрывающиеся объекты. Улучшения "Bag-of-Freebies" значительно повысили ее точность на наборе данных COCO, сохраняя при этом приемлемую скорость инференса на мощных GPU.

Ограничения

Хотя RTDETRv2 достигает впечатляющих академических результатов, она часто создает проблемы в производственных средах. Архитектуры трансформеров по своей природе требуют больше памяти как при обучении, так и при инференсе по сравнению с CNN. Это может затруднить развертывание на устройствах edge AI с ограниченными ресурсами. Кроме того, обучение трансформеров обычно требует больших размеров пакетов (batch sizes) и больше памяти CUDA, что может стать узким местом для исследователей с ограниченным аппаратным обеспечением.

Узнай больше о RTDETRv2

YOLO26: Вершина Edge-First Vision AI

Выпущенная в начале 2026 года, Ultralytics YOLO26 переопределяет возможности обнаружения объектов на базе CNN. Она включает в себя передовые оптимизации, специально разработанные для беспрепятственного развертывания в продакшене и экстремальной аппаратной эффективности.

Ключевые характеристики:

  • Авторы: Гленн Джочер (Glenn Jocher) и Цзин Цю (Jing Qiu)
  • Организация: Ultralytics
  • Дата: 14 января 2026 г.
  • Ссылки: GitHub, Docs

Архитектурные прорывы

YOLO26 представляет несколько революционных функций, которые решают распространенные проблемы при развертывании моделей:

  • Сквозной дизайн без NMS: Основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 является нативно сквозной (end-to-end). Убирая постобработку NMS, она резко снижает вариативность задержек, обеспечивая высокую предсказуемость времени инференса в продакшене.
  • До 43% быстрее инференс на CPU: Благодаря стратегическим архитектурным улучшениям и удалению Distribution Focal Loss (DFL), YOLO26 достигает беспрецедентной скорости на CPU, что делает ее лучшим выбором для edge computing без выделенных GPU.
  • Оптимизатор MuSGD: Вдохновленный техниками обучения больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon). Это обеспечивает высокую стабильность обучения и невероятно быструю сходимость.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов — важное обновление для приложений, связанных с аэрофотосъемкой и наблюдением с дронов.
Специфические для задач улучшения в YOLO26

Помимо стандартного обнаружения, YOLO26 обладает специализированными улучшениями: функция потерь для семантической сегментации и multi-scale proto для задач сегментации, RLE (Residual Log-Likelihood Estimation) для оценки позы и настроенная функция потерь по углу для решения граничных проблем при обнаружении ориентированных BBox (OBB).

Узнай больше о YOLO26

Сравнение производительности

При оценке этих моделей крайне важно достичь баланса между точностью (mAP) и вычислительной эффективностью. В таблице ниже показано, как YOLO26 стабильно превосходит RTDETRv2 во всех размерных вариантах.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Как видно выше, модель YOLO26x достигает впечатляющего показателя 57.5 mAP, значительно превосходя модель RTDETRv2-x при использовании меньшего количества параметров и сохраняя более высокую скорость инференса TensorRT. Более того, требования к памяти для YOLO26 заметно ниже, что делает ее оптимальным выбором для развертывания на периферийных устройствах в реальном времени.

Экосистема и простота использования

Хотя «чистая» производительность важна, именно экосистема определяет, как быстро модель может быть перенесена из исследований в продакшен. Здесь платформа Ultralytics предоставляет непревзойденное преимущество.

Хорошо поддерживаемая, единая экосистема

RTDETRv2 работает в основном как исследовательский репозиторий, что может потребовать сложной настройки окружения и ручного написания скриптов для пользовательских задач. Напротив, Ultralytics YOLO26 выигрывает от зрелого, тщательно протестированного пакета Python. Экосистема Ultralytics обеспечивает невероятно оптимизированный пользовательский опыт, предлагая простой API для обучения, валидации, предсказания и экспорта.

Благодаря встроенным интеграциям с Weights & Biases и Comet ML отслеживание экспериментов происходит бесшовно. Более того, модели Ultralytics обладают высокой универсальностью: в то время как RTDETRv2 фокусируется на обнаружении объектов, YOLO26 нативно поддерживает сегментацию экземпляров, оценку позы и классификацию изображений в рамках того же фреймворка.

Пример кода: простота в действии

API Ultralytics позволяет разработчикам загружать, обучать и запускать инференс с помощью всего нескольких строк кода. Это значительно повышает эффективность обучения и сокращает время выхода на рынок.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the YOLO26 results
results_yolo[0].show()

# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")

Варианты использования и рекомендации

Выбор между RT-DETR и YOLO26 зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.

Когда стоит выбирать RT-DETR

RT-DETR — сильный выбор для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать YOLO26

YOLO26 рекомендуется для:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Изучение других архитектур

Хотя YOLO26 представляет собой текущую вершину производительности, разработчики могут найти пользу в изучении предыдущих итераций. Успешная YOLO11 остается надежной, полностью поддерживаемой моделью для множества устаревших систем. Ты можешь погрузиться в ее возможности, прочитав наше сравнение RTDETR и YOLO11. Кроме того, если ты анализируешь более старые архитектуры, ознакомление со сравнением EfficientDet и YOLO26 даст отличный исторический контекст о том, как далеко продвинулись архитектуры обнаружения объектов.

Заключительные мысли

И RTDETRv2, и YOLO26 предлагают невероятные достижения в области ИИ. Однако для команд, которые отдают приоритет бесшовному переходу в продакшен, минимальному потреблению памяти и широкой универсальности задач, Ultralytics YOLO26 является очевидной рекомендацией. Ее архитектура без NMS, высокая скорость работы на CPU и поддержка надежной экосистемы Ultralytics гарантируют, что твои проекты в области компьютерного зрения останутся масштабируемыми, эффективными и перспективными. Независимо от того, выполняешь ли ты развертывание на облачном сервере или на устройстве с ограниченными ресурсами, таким как Raspberry Pi, YOLO26 обеспечивает бескомпромиссную производительность "из коробки".

Комментарии