YOLO26 против RTDETRv2: Техническое сравнение детекторов реального времени нового поколения
В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для баланса скорости, точности и гибкости развертывания. В этом руководстве представлено всестороннее техническое сравнение между Ultralytics YOLO26 и RTDETRv2 — двумя передовыми архитектурами, разработанными для работы в реальном времени.
Хотя обе модели используют современные инновации для достижения высокой точности, они значительно различаются по своим архитектурным концепциям, стратегиям оптимизации и простоте развертывания. Этот анализ углубляется в их метрики, структурные различия и идеальные сценарии использования, чтобы помочь вам принять обоснованное решение для ваших приложений компьютерного зрения.
Краткое изложение
Ultralytics YOLO26 представляет собой последнюю эволюцию в семействе YOLO, выпущенную в январе 2026 года. Она представляет собой нативную сквозную (без NMS) архитектуру, устраняющую необходимость в этапах постобработки, таких как подавление немаксимумов. Благодаря оптимизациям, таким как удаление DFL и новый оптимизатор MuSGD, YOLO26 разработана для максимальной эффективности на периферийных устройствах, предлагая до 43% более быструю инференцию на CPU по сравнению с предшественниками. Она является частью интегрированной экосистемы Ultralytics, обеспечивая бесшовное обучение, валидацию и развертывание.
RTDETRv2 (Трансформер для обнаружения в реальном времени v2), разработанная Baidu, улучшает оригинальный RT-DETR путем доработки гибридного кодировщика и внедрения гибкого дискретного выбора запросов. Она сосредоточена на привнесении преимуществ точности трансформеров в сценарии реального времени. Хотя она устраняет NMS благодаря своей архитектуре трансформера, она обычно требует больше вычислительных ресурсов и памяти GPU по сравнению с моделями YOLO на основе CNN или гибридно-оптимизированными моделями.
Сравнение метрик производительности
В таблице ниже показана производительность обеих моделей на наборе данных COCO. YOLO26 демонстрирует превосходную эффективность, особенно по количеству параметров и скорости инференции, что делает ее очень подходящей для приложений периферийного ИИ.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Баланс производительности
YOLO26 достигает более высокого mAP со значительно меньшим количеством параметров и FLOPs. Например, YOLO26s превосходит RTDETRv2-s (48.6 против 48.1 mAP), будучи примерно в 2 раза быстрее на GPU T4 и используя менее половины параметров (9.5M против 20M).
Архитектурное Глубокое Погружение
Ultralytics YOLO26
YOLO26 представляет несколько новаторских архитектурных изменений, направленных на упрощение развертывания и повышение скорости без ущерба для точности.
- Сквозная архитектура без NMS: Значительный отход от традиционных архитектур YOLO, YOLO26 является нативно сквозной. Эта конструкция устраняет этап постобработки подавления немаксимумов (NMS), снижая задержку и сложность при развертывании. Этот подход был впервые применен в YOLOv10 и доработан здесь.
- Удаление DFL: Путем удаления Distribution Focal Loss структура модели упрощается. Это изменение имеет решающее значение для лучшей совместимости с периферийными и маломощными устройствами, упрощая экспорт в такие форматы, как ONNX и CoreML.
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, YOLO26 использует гибридный оптимизатор, сочетающий SGD и Muon. Это приводит к более стабильной динамике обучения и более быстрой сходимости.
- ProgLoss + STAL: Сочетание Progressive Loss Balancing и Small-Target-Aware Label Assignment значительно улучшает обнаружение мелких объектов — распространенную проблему в задачах компьютерного зрения, таких как анализ аэрофотоснимков.
RTDETRv2
RTDETRv2 основывается на фундаменте оригинального RT-DETR — детектора на основе трансформера, разработанного, чтобы бросить вызов доминированию YOLO на основе CNN.
- Основа трансформера: Использует архитектуру кодировщика-декодировщика на основе трансформера, которая изначально обрабатывает запросы объектов без NMS.
- Гибкие дискретные запросы: Представляет более гибкий механизм выбора запросов по сравнению со своим предшественником, направленный на улучшение адаптивности в различных масштабах.
- Гибридный кодировщик: Использует гибридный кодировщик для обработки многомасштабных признаков, пытаясь сбалансировать вычислительные затраты самовнимания с необходимостью глобального контекста.
Простота использования и экосистема
Одним из наиболее значимых отличий является экосистема, окружающая модели.
Ultralytics YOLO26 выигрывает от зрелой и обширной экосистемы Ultralytics. Пользователи могут использовать унифицированный API для обучения, валидации и развертывания в различных задачах, включая detection, segmentation, классификацию, оценку позы и ориентированные ограничивающие рамки (obb). Бесшовная интеграция с такими инструментами, как Ultralytics Platform и Weights & Biases, обеспечивает легкое отслеживание экспериментов и управление моделями.
RTDETRv2, хотя и мощная, часто требует более сложной настройки и конфигурации. Ее зависимость от специфических библиотек трансформеров и более высокие накладные расходы на память могут сделать ее менее доступной для разработчиков, ищущих решение "plug-and-play". Документация и поддержка сообщества, хотя и растут, как правило, менее всеобъемлющи, чем обширные ресурсы, доступные для моделей Ultralytics.
Эффективность обучения и ресурсы
Требования к памяти: Модели на основе трансформеров, такие как RTDETRv2, известны своей требовательностью к памяти. Они обычно требуют значительно больше памяти CUDA во время обучения и инференции по сравнению с CNN-оптимизированной архитектурой YOLO26. Это делает YOLO26 более практичным выбором для обучения на потребительских GPU или развертывания на аппаратуре с ограниченными ресурсами.
Скорость обучения: Благодаря оптимизатору MuSGD и эффективной архитектуре, YOLO26 предлагает более высокие скорости сходимости. Это снижает временные и вычислительные затраты, связанные с обучением пользовательских моделей, будь то работа с набором данных медицинских изображений или системой контроля качества производства.
Пример кода: Обучение YOLO26
Обучение YOLO26 легко осуществляется с помощью Python API Ultralytics:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Рекомендации по вариантам использования
Выберите YOLO26, если:
- Приоритет — развертывание на периферийных устройствах: Вам необходимо запускать модели на мобильных устройствах (iOS/Android), Raspberry Pi или встроенных системах, где скорость CPU и размер модели являются критическими ограничениями. Увеличение скорости инференса на CPU на 43% здесь является решающим фактором.
- Требуется универсальность: Ваш проект включает в себя несколько задач. YOLO26 — это унифицированное семейство моделей, поддерживающее detect, segment, pose и obb, в отличие от RTDETRv2, который в основном ориентирован на detect.
- Быстрая разработка: Вам нужен оптимизированный пользовательский интерфейс с обширной документацией, готовыми предварительно обученными весами и активной поддержкой сообщества.
- Обнаружение мелких объектов: Ваше приложение включает detect мелких объектов, например, в мониторинге сельского хозяйства с помощью дронов, где ProgLoss и STAL обеспечивают явное преимущество.
Выбирайте RTDETRv2, если:
- Научный интерес: Вы целенаправленно исследуете архитектуры на основе трансформеров для академических исследований.
- Специфичное оборудование: У вас есть доступ к высокопроизводительным серверным GPU (например, A100), где накладные расходы на память менее критичны, и вам требуется именно подход на основе трансформеров.
Заключение
Хотя RTDETRv2 демонстрирует потенциал трансформеров в detect в реальном времени, Ultralytics YOLO26 остается лучшим выбором для практического развертывания в реальных условиях. Сочетание сквозного инференса без NMS, значительно более низких требований к ресурсам и интеграции в мощную экосистему Ultralytics делает его идеальным решением для разработчиков и инженеров. Независимо от того, строите ли вы инфраструктуру умного города, автономную робототехнику или мобильные приложения, YOLO26 обеспечивает оптимальный баланс скорости, точности и простоты использования.
Для пользователей, заинтересованных в изучении других моделей семейства Ultralytics, YOLO11 остается полностью поддерживаемой и мощной альтернативой, предлагающей надежную основу для многих задач компьютерного зрения.
Детали модели
YOLO26
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 2026-01-14
- GitHub:Репозиторий Ultralytics
- Документация:Официальная документация
RTDETRv2
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 2023-04-17
- Arxiv:2304.08069
- GitHub:Репозиторий RT-DETR