Перейти к содержанию

RTDETRv2 vs. YOLO26: Комплексное техническое сравнение

Ландшафт обнаружения объектов в реальном времени значительно изменился, исследователи постоянно расширяют границы скорости, точности и эффективности развертывания. Двумя наиболее выдающимися архитектурами, возглавляющими этот процесс, являются RTDETRv2 на основе трансформеров и современная сверточная нейронная сеть (CNN) Ultralytics YOLO26. Это руководство предоставляет углубленный анализ их архитектур, показателей производительности и идеальных сценариев использования, чтобы помочь вам выбрать правильную модель для вашего следующего проекта компьютерного зрения.

RTDETRv2: Трансформеры обнаружения в реальном времени

RTDETRv2 основывается на оригинальной архитектуре RT-DETR, стремясь объединить глобальное контекстное понимание Vision Transformers со скоростью, необходимой для приложений реального времени.

Ключевые характеристики:

  • Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
  • Организация:Baidu
  • Дата: 2024-07-24
  • Ссылки:Arxiv, GitHub, Документация

Архитектура и сильные стороны

В отличие от традиционных детекторов на основе якорей, RTDETRv2 использует подход на основе трансформеров, который изначально устраняет необходимость в подавлении немаксимумов (NMS) во время постобработки. Используя гибкий механизм внимания, модель очень эффективно понимает сложные сцены и перекрывающиеся объекты. Ее улучшения "Bag-of-Freebies" значительно повысили точность на наборе данных COCO, сохраняя при этом приемлемую скорость вывода на высокопроизводительных GPU.

Ограничения

Хотя RTDETRv2 достигает впечатляющих академических результатов, он часто представляет проблемы в производственных средах. Архитектуры Transformer по своей природе требуют более высокого использования памяти как во время обучения, так и во время инференса по сравнению с CNN. Это может затруднить развертывание на периферийных AI-устройствах с ограниченными ресурсами. Кроме того, обучение трансформеров обычно требует больших размеров пакетов и больше памяти CUDA, что может стать узким местом для исследователей с ограниченным оборудованием.

Узнайте больше о RTDETRv2

YOLO26: Вершина Vision AI, ориентированного на периферийные устройства

Выпущенный в начале 2026 года, Ultralytics YOLO26 переопределяет возможности обнаружения объектов на основе CNN. Он включает передовые оптимизации, специально разработанные для бесшовного производственного развертывания и экстремальной аппаратной эффективности.

Ключевые характеристики:

Архитектурные прорывы

YOLO26 представляет несколько революционных функций, которые решают распространенные проблемы при развертывании моделей:

  • Сквозная архитектура без NMS: Основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 изначально является сквозной системой. Устраняя постобработку NMS, она значительно снижает изменчивость задержки, обеспечивая высокопредсказуемое время вывода в производственных условиях.
  • До 43% более быстрый инференс на CPU: Благодаря стратегическим архитектурным усовершенствованиям и удалению Distribution Focal Loss (DFL) YOLO26 достигает беспрецедентных скоростей на CPU, что делает его лучшим выбором для периферийных вычислений без выделенных GPU.
  • Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon). Это обеспечивает высокостабильные циклы обучения и невероятно быструю сходимость.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают выдающиеся улучшения в распознавании мелких объектов, что является существенным обновлением для приложений, включающих аэрофотосъемку и наблюдение с помощью дронов.

Усовершенствования, специфичные для задачи, в YOLO26

Помимо стандартной детекции, YOLO26 предлагает специализированные улучшения: функцию потерь семантической сегментации и многомасштабный прототип для задач сегментации, оценку остаточного логарифмического правдоподобия (RLE) для оценки позы и настраиваемую функцию потерь угла для решения проблем границ при обнаружении ориентированных ограничивающих рамок (OBB).

Узнайте больше о YOLO26

Сравнение производительности

При оценке этих моделей крайне важно достичь сильного баланса производительности между точностью (mAP) и вычислительной эффективностью. В таблице ниже показано, как YOLO26 стабильно превосходит RTDETRv2 для различных вариантов размера.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Как показано выше, модель YOLO26x достигает выдающегося показателя 57.5 mAP, значительно превосходя модель RTDETRv2-x, при этом используя меньше параметров и поддерживая более высокую скорость инференса на TensorRT. Кроме того, требования к памяти для YOLO26 заметно ниже, что делает его оптимальным выбором для развертываний на периферии в реальном времени.

Экосистема и простота использования

Хотя сырая производительность жизненно важна, окружающая экосистема определяет, насколько быстро модель может быть переведена из исследования в производство. Именно здесь платформа Ultralytics предоставляет беспрецедентное преимущество.

Хорошо поддерживаемая, унифицированная экосистема

RTDETRv2 функционирует преимущественно как репозиторий исследовательского уровня, что может потребовать сложной настройки окружения и ручного написания скриптов для пользовательских задач. Напротив, Ultralytics YOLO26 выигрывает от зрелого, тщательно протестированного пакета Python. Экосистема Ultralytics обеспечивает невероятно оптимизированный пользовательский опыт, предлагая простой API для обучения, валидации, предсказания и экспорта.

Благодаря встроенным интеграциям с Weights & Biases и Comet ML отслеживание экспериментов становится бесшовным. Кроме того, модели Ultralytics очень универсальны; в то время как RTDETRv2 фокусируется на detect объектов, YOLO26 нативно поддерживает segment экземпляров, оценку позы и классификацию изображений в рамках одной и той же структуры.

Пример кода: Простота в действии

API Ultralytics позволяет разработчикам загружать, обучать и выполнять инференс всего несколькими строками кода. Это значительно повышает эффективность обучения и сокращает время выхода на рынок.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the YOLO26 results
results_yolo[0].show()

# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")

Сценарии использования и рекомендации

Выбор между RT-DETR и YOLO26 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбрать RT-DETR

RT-DETR — отличный выбор для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда выбирать YOLO26

YOLO26 рекомендуется для:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Исследование других архитектур

Хотя YOLO26 представляет собой текущую вершину производительности, разработчики могут также найти ценность в изучении предыдущих итераций. Весьма успешная YOLO11 остается надежной, полностью поддерживаемой моделью для различных устаревших систем. Вы можете глубже изучить ее возможности, прочитав наше сравнение RTDETR и YOLO11. Кроме того, если вы анализируете старые архитектуры, ознакомление со сравнением EfficientDet и YOLO26 дает отличный исторический контекст того, насколько далеко продвинулись архитектуры обнаружения объектов.

В заключение

Как RTDETRv2, так и YOLO26 предлагают невероятные достижения в области ИИ. Однако для команд, приоритетом которых является беспрепятственный переход к производству, минимальное потребление памяти и широкая универсальность задач, Ultralytics YOLO26 является очевидной рекомендацией. Его NMS-free архитектура, высокая скорость CPU и поддержка надежной экосистемы Ultralytics гарантируют, что ваши проекты в области компьютерного зрения останутся масштабируемыми, эффективными и перспективными. Будь то развертывание на облачном сервере или на Raspberry Pi с ограниченными ресурсами, YOLO26 обеспечивает бескомпромиссную производительность "из коробки".


Комментарии