Link to this sectionRTDETRv2 против YOLO26#
Ландшафт детектирования объектов в реальном времени сильно изменился: исследователи постоянно расширяют границы скорости, точности и эффективности развертывания. Две самые выдающиеся архитектуры, лидирующие в этом направлении — это RTDETRv2 на основе Transformer и передовая сверточная нейронная сеть (CNN) Ultralytics YOLO26. В этом руководстве представлен глубокий анализ их архитектур, показателей производительности и оптимальных вариантов использования, чтобы помочь тебе выбрать подходящую модель для твоего следующего проекта computer vision.
Link to this sectionRTDETRv2: Трансформеры для детектирования в реальном времени#
RTDETRv2 базируется на оригинальной архитектуре RT-DETR и стремится объединить глобальное понимание контекста от vision transformers со скоростью, необходимой для приложений реального времени.
Основные характеристики:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Ссылки: Arxiv, GitHub, Docs
Link to this sectionАрхитектура и преимущества#
В отличие от традиционных детекторов на основе якорей (anchor-based), RTDETRv2 использует подход на базе Transformer, который естественным образом избавляет от необходимости в Non-Maximum Suppression (NMS) при постобработке. Благодаря гибкому механизму внимания модель крайне эффективна в понимании сложных сцен и перекрывающихся объектов. Улучшения "Bag-of-Freebies" значительно повысили ее точность на наборе данных COCO, сохранив при этом приемлемую скорость вывода на мощных GPU.
Link to this sectionОграничения#
Хотя RTDETRv2 показывает впечатляющие академические результаты, она часто создает трудности в производственных средах. Архитектуры Transformer по своей природе требуют большего объема памяти как при обучении, так и при выводе по сравнению с CNN. Это может затруднить развертывание на edge AI устройствах с ограниченными ресурсами. Кроме того, обучение трансформеров обычно требует больших размеров пакетов и больше памяти CUDA, что может стать узким местом для исследователей с ограниченным аппаратным обеспечением.
Link to this sectionYOLO26: Вершина Edge-First Vision AI#
Выпущенная в начале 2026 года, Ultralytics YOLO26 меняет представление о том, что возможно с помощью детектирования объектов на базе CNN. Она включает передовые оптимизации, специально разработанные для беспрепятственного развертывания в продакшене и экстремальной аппаратной эффективности.
Основные характеристики:
- Авторы: Glenn Jocher и Jing Qiu
- Организация: Ultralytics
- Дата: 14 января 2026 г.
- Ссылки: GitHub, Docs
Link to this sectionАрхитектурные прорывы#
YOLO26 представляет несколько революционных функций, которые решают распространенные проблемы при развертывании моделей:
- End-to-End дизайн без NMS: основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 является нативно end-to-end моделью. Устраняя постобработку NMS, она резко снижает вариативность задержек, обеспечивая высокую предсказуемость времени вывода в продакшене.
- До 43% быстрее при выводе на CPU: благодаря стратегическим архитектурным доработкам и удалению Distribution Focal Loss (DFL), YOLO26 достигает беспрецедентной скорости на CPU, что делает её лучшим выбором для edge computing без выделенных GPU.
- Оптимизатор MuSGD: вдохновленный методами обучения LLM, такими как Kimi K2 от Moonshot AI, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon). Это обеспечивает высокую стабильность обучения и невероятно быструю сходимость.
- ProgLoss + STAL: эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов — важное обновление для приложений, связанных с аэросъемкой и наблюдением с дронов.
Помимо стандартного детектирования, YOLO26 включает специализированные улучшения: функцию потерь для семантической сегментации и multi-scale proto для задач сегментации, Residual Log-Likelihood Estimation (RLE) для оценки позы и настроенную функцию потерь угла для решения граничных проблем в детектировании Oriented Bounding Box (OBB).
Link to this sectionСравнение производительности#
При оценке этих моделей крайне важно достичь баланса производительности между точностью (mAP) и вычислительной эффективностью. Таблица ниже демонстрирует, как YOLO26 стабильно превосходит RTDETRv2 во всех размерных вариантах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Как показано выше, модель YOLO26x достигает впечатляющего показателя 57.5 mAP, значительно превосходя модель RTDETRv2-x при использовании меньшего количества параметров и поддерживая более высокую скорость вывода TensorRT. Кроме того, требования YOLO26 к памяти заметно ниже, что делает её оптимальным выбором для развертывания на граничных устройствах в реальном времени.
Link to this sectionЭкосистема и простота использования#
Хотя «сырая» производительность важна, именно экосистема определяет, как быстро модель можно перевести из исследований в продакшен. Именно здесь Ultralytics Platform предоставляет непревзойденное преимущество.
Link to this sectionХорошо поддерживаемая, единая экосистема#
RTDETRv2 в основном функционирует как репозиторий исследовательского уровня, что может потребовать сложной настройки окружения и написания скриптов вручную для пользовательских задач. Напротив, Ultralytics YOLO26 выигрывает от зрелого, тщательно протестированного пакета Python. Экосистема Ultralytics обеспечивает невероятно простой пользовательский опыт, предлагая простой API для обучения, валидации, предсказания и экспорта.
Благодаря встроенным интеграциям с Weights & Biases и Comet ML отслеживание экспериментов происходит бесшовно. Более того, модели Ultralytics обладают высокой универсальностью: пока RTDETRv2 фокусируется на детектировании объектов, YOLO26 нативно поддерживает сегментацию экземпляров, оценку позы и классификацию изображений в рамках одной и той же среды.
Link to this sectionПример кода: Простота в действии#
API Ultralytics позволяет тебе загружать, обучать и запускать вывод всего несколькими строками кода. Это значительно повышает эффективность обучения и сокращает время выхода на рынок.
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the YOLO26 results
results_yolo[0].show()
# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")Link to this sectionСценарии использования и рекомендации#
Выбор между RT-DETR и YOLO26 зависит от твоих конкретных проектных требований, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR — отличный выбор для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда стоит выбрать YOLO26#
YOLO26 рекомендуется для:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionИзучение других архитектур#
В то время как YOLO26 представляет собой текущую вершину производительности, тебе также может быть полезно изучить предыдущие итерации. Успешная YOLO11 остается надежной, полностью поддерживаемой моделью для множества устаревших систем. Ты можешь глубже погрузиться в ее возможности, прочитав наше сравнение RTDETR и YOLO11. Кроме того, если ты анализируешь более старые архитектуры, ознакомление со сравнением EfficientDet и YOLO26 даст отличный исторический контекст того, как далеко продвинулись архитектуры детектирования объектов.
Link to this sectionЗаключительные мысли#
И RTDETRv2, и YOLO26 предлагают невероятные достижения в области ИИ. Однако для команд, которые отдают приоритет бесшовному переходу к продакшену, минимальному потреблению памяти и широкой универсальности задач, Ultralytics YOLO26 является очевидной рекомендацией. Ее архитектура без NMS, высокая скорость на CPU и поддержка надежной экосистемы Ultralytics гарантируют, что твои проекты Vision AI останутся масштабируемыми, эффективными и готовыми к будущему. Независимо от того, разворачиваешь ли ты решение на облачном сервере или на устройстве с ограниченными ресурсами, таком как Raspberry Pi, YOLO26 обеспечивает бескомпромиссную производительность "из коробки".