Перейти к содержанию

RTDETRv2 vs. YOLOv6-3.0: Оценка трансформеров реального времени в сравнении с промышленными CNN

Ландшафт компьютерного зрения постоянно развивается, предоставляя разработчикам множество архитектурных решений для обнаружения объектов. Две выдающиеся модели, представляющие расходящиеся подходы, это RTDETRv2, современный Vision Transformer, и YOLOv6-3.0, высокооптимизированная сверточная нейронная сеть (CNN), адаптированная для промышленных приложений.

Этот всесторонний технический обзор исследует их соответствующие архитектуры, метрики производительности и идеальные сценарии развертывания. Мы также рассмотрим, как более широкая экосистема Ultralytics обеспечивает превосходный опыт для разработчиков, в конечном итоге ориентируясь на возможности следующего поколения Ultralytics YOLO26.

RTDETRv2: Подход с использованием Vision Transformer

Разработанный исследователями Baidu, RTDETRv2 основывается на фундаменте оригинального RT-DETR, представляя собой значительный шаг вперед в трансформер-ориентированном обнаружении объектов.

Архитектурные особенности

RTDETRv2 использует гибридную архитектуру, которая сочетает экстрактор признаков CNN с мощным декодером трансформера. Наиболее определяющей характеристикой этой модели является ее изначально NMS-свободная конструкция. Устраняя Non-Maximum Suppression (NMS) во время постобработки, модель напрямую предсказывает ограничивающие рамки, что упрощает развертывание и стабилизирует задержку инференса.

«Bag-of-Freebies», включенные в RTDETRv2, повышают его способность обрабатывать сложные сцены и перекрывающиеся объекты, поскольку механизмы глобального внимания по своей природе лучше понимают пространственные отношения, чем локализованные свертки.

Использование памяти Transformer

Хотя трансформеры превосходно справляются со сложным пониманием сцен, они обычно требуют значительно больше памяти CUDA во время обучения по сравнению с CNN. Это может ограничивать размеры пакетов на стандартных потребительских GPU и увеличивать общее время обучения.

Узнайте больше о RTDETR

YOLOv6-3.0: Максимизация промышленной пропускной способности

Разработанный отделом Vision AI в Meituan, YOLOv6-3.0 был специально спроектирован как детектор нового поколения для промышленных конвейеров, где пропускная способность GPU имеет первостепенное значение.

  • Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
  • Организация: Meituan
  • Дата: 13.01.2023
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Архитектурный фокус

YOLOv6-3.0 использует бэкбон EfficientRep, тщательно разработанный для минимизации затрат на доступ к памяти на аппаратных ускорителях, таких как NVIDIA GPU. Архитектура шейки включает модуль двунаправленной конкатенации (BiC) для улучшения слияния признаков на разных масштабах.

Во время обучения он использует стратегию обучения с использованием якорей (AAT), чтобы извлечь выгоду из парадигм на основе якорей, сохраняя при этом безаякорный режим вывода для более быстрого выполнения. Хотя он достигает исключительной пропускной способности на серверных GPU (например, T4, A100), его специализированная архитектура может приводить к субоптимальной задержке при развертывании на периферийных устройствах, работающих только на CPU.

Узнайте больше о YOLOv6

Сравнение производительности

При оценке моделей для производства критически важен баланс между точностью (mAP), скоростью инференса и вычислительными затратами (FLOPs). В таблице ниже показано, как эти модели соотносятся друг с другом.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Хотя YOLOv6-3.0 доминирует по чистой скорости обработки на TensorRT, RTDETRv2 показывает более высокие значения mAP, особенно лучше масштабируясь с более крупными вариантами моделей. Однако обе модели не обладают широкой универсальностью, присущей современным унифицированным фреймворкам. YOLOv6-3.0 в основном специализируется на detect, не имея встроенной поддержки для таких задач, как сегментация экземпляров и оценка позы из коробки.

Сценарии использования и рекомендации

Выбор между RT-DETR и YOLOv6 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбрать RT-DETR

RT-DETR — отличный выбор для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда выбирать YOLOv6

YOLOv6 рекомендуется для:

  • Промышленное развертывание с учетом аппаратного обеспечения: Сценарии, где аппаратно-ориентированный дизайн модели и эффективная репараметризация обеспечивают оптимизированную производительность на конкретном целевом оборудовании.
  • Быстрое одностадийное detect: Приложения, отдающие приоритет чистой скорости инференции на GPU для обработки видео в реальном времени в контролируемых средах.
  • Интеграция в экосистему Meituan: Команды, уже работающие в технологическом стеке и инфраструктуре развертывания Meituan.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Преимущество Ultralytics

Выбор правильной модели включает в себя нечто большее, чем просто необработанные показатели бенчмарков; опыт разработчика, гибкость развертывания и поддержка экосистемы одинаково важны. Используя модели, интегрированные в платформу Ultralytics, пользователи получают значительные преимущества по сравнению со статическими исследовательскими репозиториями.

  • Простота использования: Параметр ultralytics Пакет python предлагает бесшовный API. Обучение, валидация и экспорт моделей занимают всего несколько строк кода.
  • Хорошо поддерживаемая экосистема: В отличие от изолированных академических репозиториев, Ultralytics Platform активно обновляется. Она может похвастаться надежной интеграцией с такими инструментами, как ONNX, OpenVINO и CoreML.
  • Эффективность обучения: Модели Ultralytics обычно потребляют значительно меньше VRAM во время обучения по сравнению с архитектурами трансформеров, такими как RTDETRv2, что позволяет использовать большие размеры пакетов на потребительском оборудовании.
  • Универсальность: В отличие от сфокусированной области применения YOLOv6-3.0, модели Ultralytics являются мультимодальными, нативно поддерживая классификацию изображений, ориентированные ограничивающие рамки (OBB) и segment в рамках единой унифицированной среды.

Оптимизированное развертывание

Используя CLI Ultralytics, экспорт обученной модели для развертывания на периферийных устройствах так же прост, как запуск: yolo export model=yolo11n.pt format=tensorrt.

Представляем YOLO26: Оптимальное решение

Хотя RTDETRv2 и YOLOv6-3.0 предлагают определенные преимущества, область быстро развивается. Для команд, начинающих новые проекты в области компьютерного зрения, мы настоятельно рекомендуем YOLO26, выпущенный Ultralytics в январе 2026 года.

YOLO26 синтезирует сильные стороны промышленных CNN и современных трансформеров, устраняя при этом их соответствующие недостатки:

  • Сквозная архитектура без NMS: Применяя прорыв, впервые представленный в YOLOv10, YOLO26 изначально исключает постобработку NMS, обеспечивая стабильное, предсказуемое развертывание, аналогичное RTDETRv2, но со значительно меньшими накладными расходами.
  • Оптимизатор MuSGD: Вдохновленный передовыми методами обучения LLM (такими как Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает стабильное обучение и более быструю сходимость, преодолевая известную нестабильность традиционных визуальных трансформеров.
  • Оптимизировано для граничных вычислений: Благодаря до 43% более быстрому инференсу на CPU по сравнению с предыдущими поколениями и стратегическому удалению Distribution Focal Loss (DFL), YOLO26 идеально подходит для мобильных и IoT-устройств, где ускорение GPU недоступно.
  • ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является исторической проблемой для CNN, делая YOLO26 идеальным для аэроснимков и робототехники.

Пример обучения

Интуитивно понятный API Ultralytics позволяет беспрепятственно обучать передовые модели. Ниже приведен исполняемый пример, демонстрирующий, как обучить модель YOLO26 Nano на наборе данных COCO8:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Обзор

При сравнении RTDETRv2 и YOLOv6-3.0 решение во многом зависит от вашего конкретного оборудования и ограничений по задержке. RTDETRv2 превосходно проявляет себя в исследовательских средах и при серверной обработке, где обработка сложных перекрывающихся объектов имеет решающее значение. YOLOv6-3.0 остается сильным выбором для высокопроизводительных производственных линий, оснащенных мощными NVIDIA GPU.

Однако для разработчиков, ищущих лучшее из двух миров — сочетание элегантности трансформеров без NMS с ослепительной скоростью и низким потреблением памяти CNN — YOLO26 остается непревзойденным. Поддерживаемый всесторонней документацией и активным сообществом экосистемы Ultralytics, YOLO26 гарантирует, что ваши проекты в области ИИ-зрения будут надежными, масштабируемыми и перспективными.


Комментарии