RTDETRv2 против YOLO26: Техническое сравнение детекторов объектов следующего поколения
Выбор подходящей модели обнаружения объектов для вашего проекта в области компьютерного зрения часто включает навигацию по сложному ландшафту архитектурных решений, компромиссов между скоростью и точностью, а также ограничений развертывания. Это руководство предоставляет углубленное техническое сравнение между RTDETRv2, трансформером для детектирования в реальном времени от Baidu, и YOLO26, последней эволюцией в серии YOLO от Ultralytics. Мы проанализируем их архитектуры, эталонные показатели производительности и идеальные сценарии использования, чтобы помочь вам принять обоснованное решение.
Краткое изложение
Обе модели представляют собой передовые разработки в области детектирования в реальном времени по состоянию на 2026 год. RTDETRv2 продолжает расширять границы детектирования на основе трансформеров, предлагая превосходную точность благодаря своим механизмам внимания, особенно в сложных сценах. YOLO26, выпущенный в январе 2026 года, революционизирует линейку YOLO, принимая нативную сквозную архитектуру без NMS, значительно увеличивая скорость инференса на CPU и упрощая развертывание при сохранении современной точности.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
RTDETRv2: Усовершенствование трансформера реального времени
RTDETRv2 основывается на успехе оригинального RT-DETR, который был первым детектором на основе трансформеров, по-настоящему бросившим вызов моделям YOLO в сценариях реального времени. Разработанный Baidu, он фокусируется на оптимизации архитектуры Vision Transformer (ViT) для достижения практической скорости и точности.
Архитектурные особенности
Основная инновация RTDETRv2 заключается в его гибком гибридном кодировщике и эффективном выборе запросов. В отличие от традиционных детекторов на основе CNN, он использует механизмы самовнимания для захвата глобального контекста, что особенно полезно для обнаружения объектов со сложными взаимосвязями или перекрытиями. Обновление v2 представляет «набор бесплатных приемов», который улучшает стабильность и производительность обучения без увеличения затрат на инференс. Он использует стратегию дискретной выборки для запросов, позволяя модели фокусироваться на наиболее релевантных областях изображения.
Производительность и Обучение
RTDETRv2 превосходит по точности, часто опережая YOLO предыдущего поколения в сценариях, требующих высокой точности. Однако это имеет свою цену. Архитектуры трансформеров обычно требуют значительно больше памяти GPU и вычислительных ресурсов во время обучения по сравнению с CNN. Хотя скорость инференса является «реального времени» на мощных GPU (например, NVIDIA T4), он может испытывать трудности на устройствах только с CPU или периферийном оборудовании, где операции трансформеров менее оптимизированы, чем свертки.
Основные авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация:Baidu
Дата: Июль 2024 (Arxiv v2)
Ссылки:Arxiv | GitHub
YOLO26: Мощное комплексное решение для периферийных устройств
YOLO26 представляет собой значительный архитектурный сдвиг для Ultralytics. Он отказывается от традиционной зависимости от Non-Maximum Suppression (NMS) в пользу нативной сквозной архитектуры. Это проектное решение устраняет одно из давних узких мест в развертывании систем обнаружения объектов: задержку и сложность постобработки.
Архитектурные инновации
Архитектура YOLO26 оптимизирована для эффективности и универсальности:
- Сквозная архитектура без NMS: Предсказывая однозначные соответствия во время обучения, YOLO26 устраняет необходимость в шагах инференса NMS. Это снижает непредсказуемость задержки и упрощает конвейеры развертывания, особенно на нестандартном оборудовании, таком как FPGA или NPU.
- Удаление DFL: Удаление Distribution Focal Loss (DFL) упрощает выходную головку, облегчая экспорт модели в форматы, такие как ONNX и CoreML, одновременно улучшая совместимость с 8-битным квантованием.
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, YOLO26 использует гибридный оптимизатор, сочетающий SGD и Muon. Это приводит к более быстрой сходимости и более стабильным процессам обучения.
- ProgLoss + STAL: Новые функции потерь — Прогрессивная балансировка потерь и Присвоение меток с учетом малых целей — специально нацелены на обнаружение мелких объектов, что является традиционной слабостью одностадийных детекторов.
Производительность и Универсальность
YOLO26 предлагает привлекательный баланс скорости и точности. Модель YOLO26n (nano) работает до на 43% быстрее на CPU по сравнению с предыдущими итерациями, что делает ее лучшим выбором для мобильных и IoT-приложений. Кроме того, YOLO26 — это унифицированное семейство моделей; пользователи могут бесшовно переключаться между задачами Обнаружения объектов, Сегментации экземпляров, Оценки позы, Классификации и Обнаружения ориентированных объектов (OBB), используя тот же API.
Основные авторы: Гленн Джочер и Цзин Цю
Организация:Ultralytics
Дата: 14 января 2026 г.
Ссылки:Документация Ultralytics | GitHub
Подробное сравнение
1. Скорость и Эффективность на периферийных устройствах
Это наиболее существенное отличие. RTDETRv2 сильно зависит от матричных умножений, которые хорошо масштабируются на GPU, но могут создавать узкие места для CPU. YOLO26, с его бэкбоном на основе CNN и головкой без NMS, значительно более эффективен на устройствах с ограниченными ресурсами. Например, модель YOLO26n достигает задержки в 38,9 мс на стандартном CPU, тогда как модели на основе трансформеров часто испытывают трудности с достижением производительности в реальном времени без специализированного ускорения.
Развертывание на периферии
Для развертывания на Raspberry Pi, Jetson Nano или мобильных устройствах YOLO26 является, как правило, превосходящим выбором благодаря оптимизированному набору операций и меньшему объему занимаемой памяти. Удаление DFL еще больше упрощает процесс экспорта в TFLite и CoreML.
2. Требования к ресурсам для обучения
Модели Ultralytics известны своими эффективными циклами обучения. YOLO26 требует значительно меньше VRAM для обучения по сравнению с RTDETRv2. Трансформерам обычно требуются большие размеры пакетов и обширные графики обучения для сходимости, что приводит к более высоким затратам на облачные вычисления. Оптимизатор MuSGD YOLO26 дополнительно ускоряет этот процесс, позволяя исследователям быстрее итерировать даже на установках с одним GPU.
3. Универсальность задач
В то время как RTDETRv2 в основном ориентирован на обнаружение объектов, экосистема YOLO26 по своей сути многозадачна.
- RTDETRv2: Отлично подходит для обнаружения ограничивающих рамок.
- YOLO26: Нативно поддерживает Обнаружение, Сегментацию, Оценку позы, OBB и Классификацию. Это делает YOLO26 «швейцарским армейским ножом» для разработчиков, которым может потребоваться перейти от обнаружения ограничивающих рамок к сегментации масок или оценке ключевых точек без изменения всего их программного стека.
4. Экосистема и Простота использования
Экосистема Ultralytics предоставляет значительное преимущество в опыте разработчиков. Благодаря унифицированному пакету python, обширной документации и бесшовной интеграции с такими инструментами, как Weights & Biases и Roboflow, получение модели YOLO26 от набора данных до развертывания является простым. RTDETRv2, хотя и мощный, часто требует больше ручной настройки и имеет более крутую кривую обучения для пользователей, менее знакомых с архитектурами трансформеров.
Пример кода: Запуск YOLO26
Простота API Ultralytics позволяет немедленно тестировать и интегрировать.
from ultralytics import YOLO
# Load a pretrained YOLO26s model
model = YOLO("yolo26s.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Заключение
Обе модели являются выдающимися достижениями в компьютерном зрении. RTDETRv2 — сильный кандидат для развертывания на высокопроизводительных GPU, где максимальная точность в сложных сценах имеет первостепенное значение, и вычислительная стоимость трансформеров приемлема.
Однако YOLO26 рекомендуется как универсальное решение для подавляющего большинства реальных приложений. Его сквозная архитектура без NMS, превосходная производительность CPU, более низкие требования к памяти и поддержка множества задач компьютерного зрения делают его прагматичным выбором для инженеров, создающих масштабируемые, эффективные и универсальные системы ИИ. Развертываете ли вы его на серверной ферме или в умной камере, YOLO26 обеспечивает сбалансированный профиль производительности, который трудно превзойти.
Другие модели для рассмотрения
- YOLO11: Надежный предшественник YOLO26, по-прежнему широко используется и полностью поддерживается.
- YOLO-World: Идеально подходит для обнаружения с открытым словарем, где вам нужно detect объекты, отсутствующие в вашем обучающем наборе.
- FastSAM: Если вам специально нужны возможности segment-anything с производительностью в реальном времени.