Перейти к содержанию

YOLO26 против RTDETRv2: Техническое сравнение детекторов реального времени нового поколения

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для баланса скорости, точности и гибкости развертывания. В этом руководстве представлено всестороннее техническое сравнение между Ultralytics YOLO26 и RTDETRv2 — двумя передовыми архитектурами, разработанными для работы в реальном времени.

Хотя обе модели используют современные инновации для достижения высокой точности, они значительно различаются по своим архитектурным концепциям, стратегиям оптимизации и простоте развертывания. Этот анализ углубляется в их метрики, структурные различия и идеальные сценарии использования, чтобы помочь вам принять обоснованное решение для ваших приложений компьютерного зрения.

Краткое изложение

Ultralytics YOLO26 представляет собой последнюю эволюцию в семействе YOLO, выпущенную в январе 2026 года. Она представляет собой нативную сквозную (без NMS) архитектуру, устраняющую необходимость в этапах постобработки, таких как подавление немаксимумов. Благодаря оптимизациям, таким как удаление DFL и новый оптимизатор MuSGD, YOLO26 разработана для максимальной эффективности на периферийных устройствах, предлагая до 43% более быструю инференцию на CPU по сравнению с предшественниками. Она является частью интегрированной экосистемы Ultralytics, обеспечивая бесшовное обучение, валидацию и развертывание.

RTDETRv2 (Трансформер для обнаружения в реальном времени v2), разработанная Baidu, улучшает оригинальный RT-DETR путем доработки гибридного кодировщика и внедрения гибкого дискретного выбора запросов. Она сосредоточена на привнесении преимуществ точности трансформеров в сценарии реального времени. Хотя она устраняет NMS благодаря своей архитектуре трансформера, она обычно требует больше вычислительных ресурсов и памяти GPU по сравнению с моделями YOLO на основе CNN или гибридно-оптимизированными моделями.

Сравнение метрик производительности

В таблице ниже показана производительность обеих моделей на наборе данных COCO. YOLO26 демонстрирует превосходную эффективность, особенно по количеству параметров и скорости инференции, что делает ее очень подходящей для приложений периферийного ИИ.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Баланс производительности

YOLO26 достигает более высокого mAP со значительно меньшим количеством параметров и FLOPs. Например, YOLO26s превосходит RTDETRv2-s (48.6 против 48.1 mAP), будучи примерно в 2 раза быстрее на GPU T4 и используя менее половины параметров (9.5M против 20M).

Архитектурное Глубокое Погружение

Ultralytics YOLO26

YOLO26 представляет несколько новаторских архитектурных изменений, направленных на упрощение развертывания и повышение скорости без ущерба для точности.

  • Сквозная архитектура без NMS: Значительный отход от традиционных архитектур YOLO, YOLO26 является нативно сквозной. Эта конструкция устраняет этап постобработки подавления немаксимумов (NMS), снижая задержку и сложность при развертывании. Этот подход был впервые применен в YOLOv10 и доработан здесь.
  • Удаление DFL: Путем удаления Distribution Focal Loss структура модели упрощается. Это изменение имеет решающее значение для лучшей совместимости с периферийными и маломощными устройствами, упрощая экспорт в такие форматы, как ONNX и CoreML.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, YOLO26 использует гибридный оптимизатор, сочетающий SGD и Muon. Это приводит к более стабильной динамике обучения и более быстрой сходимости.
  • ProgLoss + STAL: Сочетание Progressive Loss Balancing и Small-Target-Aware Label Assignment значительно улучшает обнаружение мелких объектов — распространенную проблему в задачах компьютерного зрения, таких как анализ аэрофотоснимков.

Узнайте больше о YOLO26

RTDETRv2

RTDETRv2 основывается на фундаменте оригинального RT-DETR — детектора на основе трансформера, разработанного, чтобы бросить вызов доминированию YOLO на основе CNN.

  • Основа трансформера: Использует архитектуру кодировщика-декодировщика на основе трансформера, которая изначально обрабатывает запросы объектов без NMS.
  • Гибкие дискретные запросы: Представляет более гибкий механизм выбора запросов по сравнению со своим предшественником, направленный на улучшение адаптивности в различных масштабах.
  • Гибридный кодировщик: Использует гибридный кодировщик для обработки многомасштабных признаков, пытаясь сбалансировать вычислительные затраты самовнимания с необходимостью глобального контекста.

Простота использования и экосистема

Одним из наиболее значимых отличий является экосистема, окружающая модели.

Ultralytics YOLO26 выигрывает от зрелой и обширной экосистемы Ultralytics. Пользователи могут использовать унифицированный API для обучения, валидации и развертывания в различных задачах, включая detection, segmentation, классификацию, оценку позы и ориентированные ограничивающие рамки (obb). Бесшовная интеграция с такими инструментами, как Ultralytics Platform и Weights & Biases, обеспечивает легкое отслеживание экспериментов и управление моделями.

RTDETRv2, хотя и мощная, часто требует более сложной настройки и конфигурации. Ее зависимость от специфических библиотек трансформеров и более высокие накладные расходы на память могут сделать ее менее доступной для разработчиков, ищущих решение "plug-and-play". Документация и поддержка сообщества, хотя и растут, как правило, менее всеобъемлющи, чем обширные ресурсы, доступные для моделей Ultralytics.

Эффективность обучения и ресурсы

Требования к памяти: Модели на основе трансформеров, такие как RTDETRv2, известны своей требовательностью к памяти. Они обычно требуют значительно больше памяти CUDA во время обучения и инференции по сравнению с CNN-оптимизированной архитектурой YOLO26. Это делает YOLO26 более практичным выбором для обучения на потребительских GPU или развертывания на аппаратуре с ограниченными ресурсами.

Скорость обучения: Благодаря оптимизатору MuSGD и эффективной архитектуре, YOLO26 предлагает более высокие скорости сходимости. Это снижает временные и вычислительные затраты, связанные с обучением пользовательских моделей, будь то работа с набором данных медицинских изображений или системой контроля качества производства.

Пример кода: Обучение YOLO26

Обучение YOLO26 легко осуществляется с помощью Python API Ultralytics:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Рекомендации по вариантам использования

Выберите YOLO26, если:

  • Приоритет — развертывание на периферийных устройствах: Вам необходимо запускать модели на мобильных устройствах (iOS/Android), Raspberry Pi или встроенных системах, где скорость CPU и размер модели являются критическими ограничениями. Увеличение скорости инференса на CPU на 43% здесь является решающим фактором.
  • Требуется универсальность: Ваш проект включает в себя несколько задач. YOLO26 — это унифицированное семейство моделей, поддерживающее detect, segment, pose и obb, в отличие от RTDETRv2, который в основном ориентирован на detect.
  • Быстрая разработка: Вам нужен оптимизированный пользовательский интерфейс с обширной документацией, готовыми предварительно обученными весами и активной поддержкой сообщества.
  • Обнаружение мелких объектов: Ваше приложение включает detect мелких объектов, например, в мониторинге сельского хозяйства с помощью дронов, где ProgLoss и STAL обеспечивают явное преимущество.

Выбирайте RTDETRv2, если:

  • Научный интерес: Вы целенаправленно исследуете архитектуры на основе трансформеров для академических исследований.
  • Специфичное оборудование: У вас есть доступ к высокопроизводительным серверным GPU (например, A100), где накладные расходы на память менее критичны, и вам требуется именно подход на основе трансформеров.

Заключение

Хотя RTDETRv2 демонстрирует потенциал трансформеров в detect в реальном времени, Ultralytics YOLO26 остается лучшим выбором для практического развертывания в реальных условиях. Сочетание сквозного инференса без NMS, значительно более низких требований к ресурсам и интеграции в мощную экосистему Ultralytics делает его идеальным решением для разработчиков и инженеров. Независимо от того, строите ли вы инфраструктуру умного города, автономную робототехнику или мобильные приложения, YOLO26 обеспечивает оптимальный баланс скорости, точности и простоты использования.

Для пользователей, заинтересованных в изучении других моделей семейства Ultralytics, YOLO11 остается полностью поддерживаемой и мощной альтернативой, предлагающей надежную основу для многих задач компьютерного зрения.

Детали модели

YOLO26

RTDETRv2

  • Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
  • Организация: Baidu
  • Дата: 2023-04-17
  • Arxiv:2304.08069
  • GitHub:Репозиторий RT-DETR

Комментарии