RTDETRv2 против YOLOv6-3.0: оценка трансформеров реального времени в сравнении с промышленными CNN
Ландшафт компьютерного зрения постоянно развивается, предлагая разработчикам множество архитектурных решений для обнаружения объектов. Две заметные модели, представляющие различные подходы, — это RTDETRv2, современный трансформер зрения, и YOLOv6-3.0, высокооптимизированная сверточная нейронная сеть (CNN), созданная для промышленных задач.
В этом подробном техническом сравнении исследуются их архитектуры, показатели производительности и идеальные сценарии развертывания. Мы также рассмотрим, как более широкая экосистема Ultralytics обеспечивает превосходный опыт для разработчика, и в конечном итоге заглянем в возможности следующего поколения Ultralytics YOLO26.
RTDETRv2: подход на основе трансформеров зрения
Разработанный исследователями из Baidu, RTDETRv2 базируется на фундаменте оригинального RT-DETR, представляя собой значительный шаг вперед в области обнаружения объектов на основе трансформеров.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 2024-07-24
- Arxiv: 2407.17140
- GitHub: lyuwenyu/RT-DETR
- Документация: RTDETRv2 GitHub README
Ключевые архитектурные особенности
RTDETRv2 использует гибридную архитектуру, которая сочетает экстрактор признаков CNN с мощным трансформерным декодером. Самой определяющей характеристикой этой модели является ее дизайн, изначально не требующий NMS. Благодаря исключению Non-Maximum Suppression (NMS) из этапа постобработки, модель предсказывает ограничивающие рамки напрямую, что упрощает развертывание и стабилизирует задержку вывода.
Набор "Bag-of-Freebies", встроенный в RTDETRv2, расширяет его способность обрабатывать сложные сцены и перекрывающиеся объекты, поскольку механизмы глобального внимания лучше понимают пространственные отношения, чем локализованные свертки.
Хотя трансформеры отлично справляются с пониманием сложных сцен, они обычно требуют значительно больше памяти CUDA при обучении по сравнению с CNN. Это может ограничивать размеры батчей на обычных потребительских GPU и увеличивать общее время обучения.
YOLOv6-3.0: максимизация промышленной пропускной способности
Созданный в отделе Vision AI компании Meituan, YOLOv6-3.0 был специально спроектирован как детектор следующего поколения для промышленных конвейеров, где пропускная способность GPU имеет первостепенное значение.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Гэн, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация: Meituan
- Дата: 2023-01-13
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
Архитектурная направленность
YOLOv6-3.0 опирается на бэкбон EfficientRep, тщательно разработанный для минимизации затрат на доступ к памяти на аппаратных ускорителях, таких как GPU NVIDIA. Архитектура "шеи" включает модуль двунаправленной конкатенации (BiC) для улучшения слияния признаков на разных масштабах.
Во время обучения используется стратегия обучения с поддержкой анкоров (AAT), чтобы воспользоваться преимуществами парадигм на основе анкоров, сохраняя при этом режим вывода без анкоров для более быстрого выполнения. Хотя модель достигает исключительной пропускной способности на серверных GPU (например, T4, A100), ее специализированная архитектура может приводить к неоптимальной задержке при развертывании на граничных устройствах только с CPU.
Сравнение производительности
При оценке моделей для продакшена важно сбалансировать точность (mAP) со скоростью вывода и вычислительными затратами (FLOPs). Таблица ниже показывает, как эти модели соотносятся друг с другом.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
В то время как YOLOv6-3.0 доминирует по чистой скорости обработки на TensorRT, RTDETRv2 обеспечивает более высокие показатели mAP, особенно лучше масштабируясь с более крупными вариантами моделей. Тем не менее, обеим моделям не хватает обширной универсальности, присущей современным унифицированным фреймворкам. YOLOv6-3.0 — это в первую очередь специалист по обнаружению, у которого отсутствует встроенная поддержка задач типа сегментации экземпляров и оценки позы "из коробки".
Варианты использования и рекомендации
Выбор между RT-DETR и YOLOv6 зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Когда стоит выбирать RT-DETR
RT-DETR — сильный выбор для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать YOLOv6
YOLOv6 рекомендуется для:
- Развертывания с учетом промышленного оборудования: Сценарии, где аппаратная оптимизация модели и эффективная репараметризация обеспечивают наилучшую производительность на конкретном целевом оборудовании.
- Быстрой одностадийной детекции: Приложения, ставящие во главу угла скорость логического вывода на GPU для обработки видео в реальном времени в контролируемых средах.
- Интеграции в экосистему Meituan: Команды, уже работающие внутри технологического стека и инфраструктуры развертывания Meituan.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Преимущество Ultralytics
Выбор подходящей модели включает в себя не только сухие цифры бенчмарков; опыт разработчика, гибкость развертывания и поддержка экосистемы не менее важны. Используя модели, интегрированные в платформу Ultralytics, ты получаешь значительные преимущества перед статичными исследовательскими репозиториями.
- Простота использования: Python-пакет
ultralyticsпредлагает бесшовный API. Обучение, валидация и экспорт моделей занимают всего несколько строк кода. - Хорошо поддерживаемая экосистема: В отличие от изолированных академических репозиториев, платформа Ultralytics активно обновляется. Она может похвастаться надежными интеграциями для таких инструментов, как ONNX, OpenVINO и CoreML.
- Эффективность обучения: Модели Ultralytics обычно потребляют значительно меньше VRAM при обучении по сравнению с трансформерными архитектурами, такими как RTDETRv2, что позволяет использовать большие размеры батчей на потребительском оборудовании.
- Универсальность: В отличие от узкой направленности YOLOv6-3.0, модели Ultralytics являются мультимодальными и изначально поддерживают классификацию изображений, ориентированные ограничивающие рамки (OBB) и сегментацию в рамках одного унифицированного фреймворка.
Используя CLI Ultralytics, экспортировать обученную модель для граничного развертывания так же просто, как выполнить: yolo export model=yolo11n.pt format=tensorrt.
Представляем YOLO26: окончательное решение
Хотя RTDETRv2 и YOLOv6-3.0 предлагают определенные преимущества, область развивается стремительно. Для команд, начинающих новые проекты по компьютерному зрению, мы настоятельно рекомендуем YOLO26, выпущенный Ultralytics в январе 2026 года.
YOLO26 синтезирует сильные стороны промышленных CNN и современных трансформеров, устраняя при этом их соответствующие недостатки:
- Комплексный дизайн без NMS: Перенимая прорыв, впервые представленный в YOLOv10, YOLO26 изначально исключает постобработку NMS, обеспечивая стабильное и предсказуемое развертывание, подобное RTDETRv2, но с гораздо меньшими накладными расходами.
- Оптимизатор MuSGD: Вдохновленный передовыми методами обучения LLM (такими как Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает стабильное обучение и более быструю сходимость, преодолевая печально известную нестабильность традиционных трансформеров зрения.
- Оптимизация для Edge: Благодаря увеличению скорости вывода на CPU до 43% по сравнению с предыдущими поколениями и стратегическому удалению Distribution Focal Loss (DFL), YOLO26 идеально подходит для мобильных и IoT-устройств, где недоступно ускорение на GPU.
- ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов — исторической проблеме для CNN, что делает YOLO26 идеальным решением для аэрофотосъемки и робототехники.
Пример обучения
Интуитивно понятный API Ultralytics позволяет тебе легко обучать передовые модели. Ниже приведен запускаемый пример, демонстрирующий, как обучить модель YOLO26 Nano на датасете COCO8:
from ultralytics import YOLO
# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the trained model to ONNX format for production
model.export(format="onnx")Резюме
При сравнении RTDETRv2 и YOLOv6-3.0 решение во многом зависит от твоего конкретного оборудования и ограничений по задержке. RTDETRv2 блистает в исследовательских средах и серверной обработке, где критически важна обработка сложных перекрывающихся объектов. YOLOv6-3.0 остается сильным выбором для высокопроизводительных производственных линий, оснащенных мощными GPU NVIDIA.
Однако для разработчиков, ищущих лучшее из обоих миров — сочетание элегантности трансформеров без NMS с невероятной скоростью и низким потреблением памяти CNN, — YOLO26 остается вне конкуренции. Поддерживаемый исчерпывающей документацией и активным сообществом экосистемы Ultralytics, YOLO26 гарантирует, что твои проекты в области AI зрения будут надежными, масштабируемыми и ориентированными на будущее.