RTDETRv2 vs. YOLO26: Комплексное техническое сравнение
Ландшафт обнаружения объектов в реальном времени значительно изменился, исследователи постоянно расширяют границы скорости, точности и эффективности развертывания. Двумя наиболее выдающимися архитектурами, возглавляющими этот процесс, являются RTDETRv2 на основе трансформеров и современная сверточная нейронная сеть (CNN) Ultralytics YOLO26. Это руководство предоставляет углубленный анализ их архитектур, показателей производительности и идеальных сценариев использования, чтобы помочь вам выбрать правильную модель для вашего следующего проекта компьютерного зрения.
RTDETRv2: Трансформеры обнаружения в реальном времени
RTDETRv2 основывается на оригинальной архитектуре RT-DETR, стремясь объединить глобальное контекстное понимание Vision Transformers со скоростью, необходимой для приложений реального времени.
Ключевые характеристики:
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2024-07-24
- Ссылки:Arxiv, GitHub, Документация
Архитектура и сильные стороны
В отличие от традиционных детекторов на основе якорей, RTDETRv2 использует подход на основе трансформеров, который изначально устраняет необходимость в подавлении немаксимумов (NMS) во время постобработки. Используя гибкий механизм внимания, модель очень эффективно понимает сложные сцены и перекрывающиеся объекты. Ее улучшения "Bag-of-Freebies" значительно повысили точность на наборе данных COCO, сохраняя при этом приемлемую скорость вывода на высокопроизводительных GPU.
Ограничения
Хотя RTDETRv2 достигает впечатляющих академических результатов, он часто представляет проблемы в производственных средах. Архитектуры Transformer по своей природе требуют более высокого использования памяти как во время обучения, так и во время инференса по сравнению с CNN. Это может затруднить развертывание на периферийных AI-устройствах с ограниченными ресурсами. Кроме того, обучение трансформеров обычно требует больших размеров пакетов и больше памяти CUDA, что может стать узким местом для исследователей с ограниченным оборудованием.
YOLO26: Вершина Vision AI, ориентированного на периферийные устройства
Выпущенный в начале 2026 года, Ultralytics YOLO26 переопределяет возможности обнаружения объектов на основе CNN. Он включает передовые оптимизации, специально разработанные для бесшовного производственного развертывания и экстремальной аппаратной эффективности.
Ключевые характеристики:
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 14 января 2026 года
- Ссылки:GitHub, Документация
Архитектурные прорывы
YOLO26 представляет несколько революционных функций, которые решают распространенные проблемы при развертывании моделей:
- Сквозная архитектура без NMS: Основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 изначально является сквозной системой. Устраняя постобработку NMS, она значительно снижает изменчивость задержки, обеспечивая высокопредсказуемое время вывода в производственных условиях.
- До 43% более быстрый инференс на CPU: Благодаря стратегическим архитектурным усовершенствованиям и удалению Distribution Focal Loss (DFL) YOLO26 достигает беспрецедентных скоростей на CPU, что делает его лучшим выбором для периферийных вычислений без выделенных GPU.
- Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon). Это обеспечивает высокостабильные циклы обучения и невероятно быструю сходимость.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают выдающиеся улучшения в распознавании мелких объектов, что является существенным обновлением для приложений, включающих аэрофотосъемку и наблюдение с помощью дронов.
Усовершенствования, специфичные для задачи, в YOLO26
Помимо стандартной детекции, YOLO26 предлагает специализированные улучшения: функцию потерь семантической сегментации и многомасштабный прототип для задач сегментации, оценку остаточного логарифмического правдоподобия (RLE) для оценки позы и настраиваемую функцию потерь угла для решения проблем границ при обнаружении ориентированных ограничивающих рамок (OBB).
Сравнение производительности
При оценке этих моделей крайне важно достичь сильного баланса производительности между точностью (mAP) и вычислительной эффективностью. В таблице ниже показано, как YOLO26 стабильно превосходит RTDETRv2 для различных вариантов размера.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Как показано выше, модель YOLO26x достигает выдающегося показателя 57.5 mAP, значительно превосходя модель RTDETRv2-x, при этом используя меньше параметров и поддерживая более высокую скорость инференса на TensorRT. Кроме того, требования к памяти для YOLO26 заметно ниже, что делает его оптимальным выбором для развертываний на периферии в реальном времени.
Экосистема и простота использования
Хотя сырая производительность жизненно важна, окружающая экосистема определяет, насколько быстро модель может быть переведена из исследования в производство. Именно здесь платформа Ultralytics предоставляет беспрецедентное преимущество.
Хорошо поддерживаемая, унифицированная экосистема
RTDETRv2 функционирует преимущественно как репозиторий исследовательского уровня, что может потребовать сложной настройки окружения и ручного написания скриптов для пользовательских задач. Напротив, Ultralytics YOLO26 выигрывает от зрелого, тщательно протестированного пакета Python. Экосистема Ultralytics обеспечивает невероятно оптимизированный пользовательский опыт, предлагая простой API для обучения, валидации, предсказания и экспорта.
Благодаря встроенным интеграциям с Weights & Biases и Comet ML отслеживание экспериментов становится бесшовным. Кроме того, модели Ultralytics очень универсальны; в то время как RTDETRv2 фокусируется на detect объектов, YOLO26 нативно поддерживает segment экземпляров, оценку позы и классификацию изображений в рамках одной и той же структуры.
Пример кода: Простота в действии
API Ultralytics позволяет разработчикам загружать, обучать и выполнять инференс всего несколькими строками кода. Это значительно повышает эффективность обучения и сокращает время выхода на рынок.
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the YOLO26 results
results_yolo[0].show()
# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")
Сценарии использования и рекомендации
Выбор между RT-DETR и YOLO26 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбрать RT-DETR
RT-DETR — отличный выбор для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда выбирать YOLO26
YOLO26 рекомендуется для:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Исследование других архитектур
Хотя YOLO26 представляет собой текущую вершину производительности, разработчики могут также найти ценность в изучении предыдущих итераций. Весьма успешная YOLO11 остается надежной, полностью поддерживаемой моделью для различных устаревших систем. Вы можете глубже изучить ее возможности, прочитав наше сравнение RTDETR и YOLO11. Кроме того, если вы анализируете старые архитектуры, ознакомление со сравнением EfficientDet и YOLO26 дает отличный исторический контекст того, насколько далеко продвинулись архитектуры обнаружения объектов.
В заключение
Как RTDETRv2, так и YOLO26 предлагают невероятные достижения в области ИИ. Однако для команд, приоритетом которых является беспрепятственный переход к производству, минимальное потребление памяти и широкая универсальность задач, Ultralytics YOLO26 является очевидной рекомендацией. Его NMS-free архитектура, высокая скорость CPU и поддержка надежной экосистемы Ultralytics гарантируют, что ваши проекты в области компьютерного зрения останутся масштабируемыми, эффективными и перспективными. Будь то развертывание на облачном сервере или на Raspberry Pi с ограниченными ресурсами, YOLO26 обеспечивает бескомпромиссную производительность "из коробки".