RTDETRv2 против YOLO26: всестороннее техническое сравнение
Ландшафт обнаружения объектов в реальном времени значительно изменился, и исследователи постоянно расширяют границы скорости, точности и эффективности развертывания. Две самые заметные архитектуры, которые сейчас лидируют в этом направлении — это трансформерная RTDETRv2 и передовая сверточная нейронная сеть (CNN), Ultralytics YOLO26. Это руководство предоставляет глубокий анализ их архитектур, показателей производительности и идеальных вариантов использования, чтобы помочь тебе выбрать подходящую модель для твоего следующего проекта по компьютерному зрению.
RTDETRv2: Трансформеры для обнаружения в реальном времени
RTDETRv2 основана на оригинальной архитектуре RT-DETR и нацелена на объединение понимания глобального контекста vision-трансформеров со скоростью, необходимой для работы в реальном времени.
Ключевые характеристики:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 2024-07-24
- Ссылки: Arxiv, GitHub, Docs
Архитектура и сильные стороны
В отличие от традиционных детекторов, основанных на якорях (anchor-based), RTDETRv2 использует подход на базе трансформеров, который изначально избавляет от необходимости в NMS (Non-Maximum Suppression) при постобработке. Благодаря использованию гибкого механизма внимания модель очень эффективно понимает сложные сцены и перекрывающиеся объекты. Улучшения "Bag-of-Freebies" значительно повысили ее точность на наборе данных COCO, сохраняя при этом приемлемую скорость инференса на мощных GPU.
Ограничения
Хотя RTDETRv2 достигает впечатляющих академических результатов, она часто создает проблемы в производственных средах. Архитектуры трансформеров по своей природе требуют больше памяти как при обучении, так и при инференсе по сравнению с CNN. Это может затруднить развертывание на устройствах edge AI с ограниченными ресурсами. Кроме того, обучение трансформеров обычно требует больших размеров пакетов (batch sizes) и больше памяти CUDA, что может стать узким местом для исследователей с ограниченным аппаратным обеспечением.
YOLO26: Вершина Edge-First Vision AI
Выпущенная в начале 2026 года, Ultralytics YOLO26 переопределяет возможности обнаружения объектов на базе CNN. Она включает в себя передовые оптимизации, специально разработанные для беспрепятственного развертывания в продакшене и экстремальной аппаратной эффективности.
Ключевые характеристики:
- Авторы: Гленн Джочер (Glenn Jocher) и Цзин Цю (Jing Qiu)
- Организация: Ultralytics
- Дата: 14 января 2026 г.
- Ссылки: GitHub, Docs
Архитектурные прорывы
YOLO26 представляет несколько революционных функций, которые решают распространенные проблемы при развертывании моделей:
- Сквозной дизайн без NMS: Основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 является нативно сквозной (end-to-end). Убирая постобработку NMS, она резко снижает вариативность задержек, обеспечивая высокую предсказуемость времени инференса в продакшене.
- До 43% быстрее инференс на CPU: Благодаря стратегическим архитектурным улучшениям и удалению Distribution Focal Loss (DFL), YOLO26 достигает беспрецедентной скорости на CPU, что делает ее лучшим выбором для edge computing без выделенных GPU.
- Оптимизатор MuSGD: Вдохновленный техниками обучения больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon). Это обеспечивает высокую стабильность обучения и невероятно быструю сходимость.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов — важное обновление для приложений, связанных с аэрофотосъемкой и наблюдением с дронов.
Помимо стандартного обнаружения, YOLO26 обладает специализированными улучшениями: функция потерь для семантической сегментации и multi-scale proto для задач сегментации, RLE (Residual Log-Likelihood Estimation) для оценки позы и настроенная функция потерь по углу для решения граничных проблем при обнаружении ориентированных BBox (OBB).
Сравнение производительности
При оценке этих моделей крайне важно достичь баланса между точностью (mAP) и вычислительной эффективностью. В таблице ниже показано, как YOLO26 стабильно превосходит RTDETRv2 во всех размерных вариантах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Как видно выше, модель YOLO26x достигает впечатляющего показателя 57.5 mAP, значительно превосходя модель RTDETRv2-x при использовании меньшего количества параметров и сохраняя более высокую скорость инференса TensorRT. Более того, требования к памяти для YOLO26 заметно ниже, что делает ее оптимальным выбором для развертывания на периферийных устройствах в реальном времени.
Экосистема и простота использования
Хотя «чистая» производительность важна, именно экосистема определяет, как быстро модель может быть перенесена из исследований в продакшен. Здесь платформа Ultralytics предоставляет непревзойденное преимущество.
Хорошо поддерживаемая, единая экосистема
RTDETRv2 работает в основном как исследовательский репозиторий, что может потребовать сложной настройки окружения и ручного написания скриптов для пользовательских задач. Напротив, Ultralytics YOLO26 выигрывает от зрелого, тщательно протестированного пакета Python. Экосистема Ultralytics обеспечивает невероятно оптимизированный пользовательский опыт, предлагая простой API для обучения, валидации, предсказания и экспорта.
Благодаря встроенным интеграциям с Weights & Biases и Comet ML отслеживание экспериментов происходит бесшовно. Более того, модели Ultralytics обладают высокой универсальностью: в то время как RTDETRv2 фокусируется на обнаружении объектов, YOLO26 нативно поддерживает сегментацию экземпляров, оценку позы и классификацию изображений в рамках того же фреймворка.
Пример кода: простота в действии
API Ultralytics позволяет разработчикам загружать, обучать и запускать инференс с помощью всего нескольких строк кода. Это значительно повышает эффективность обучения и сокращает время выхода на рынок.
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the YOLO26 results
results_yolo[0].show()
# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")Варианты использования и рекомендации
Выбор между RT-DETR и YOLO26 зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.
Когда стоит выбирать RT-DETR
RT-DETR — сильный выбор для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать YOLO26
YOLO26 рекомендуется для:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Изучение других архитектур
Хотя YOLO26 представляет собой текущую вершину производительности, разработчики могут найти пользу в изучении предыдущих итераций. Успешная YOLO11 остается надежной, полностью поддерживаемой моделью для множества устаревших систем. Ты можешь погрузиться в ее возможности, прочитав наше сравнение RTDETR и YOLO11. Кроме того, если ты анализируешь более старые архитектуры, ознакомление со сравнением EfficientDet и YOLO26 даст отличный исторический контекст о том, как далеко продвинулись архитектуры обнаружения объектов.
Заключительные мысли
И RTDETRv2, и YOLO26 предлагают невероятные достижения в области ИИ. Однако для команд, которые отдают приоритет бесшовному переходу в продакшен, минимальному потреблению памяти и широкой универсальности задач, Ultralytics YOLO26 является очевидной рекомендацией. Ее архитектура без NMS, высокая скорость работы на CPU и поддержка надежной экосистемы Ultralytics гарантируют, что твои проекты в области компьютерного зрения останутся масштабируемыми, эффективными и перспективными. Независимо от того, выполняешь ли ты развертывание на облачном сервере или на устройстве с ограниченными ресурсами, таким как Raspberry Pi, YOLO26 обеспечивает бескомпромиссную производительность "из коробки".