Перейти к содержанию

RTDETRv2 противYOLO: битва за точность в реальном времени

Поиск оптимальной архитектуры для обнаружения объектов часто сопряжен с необходимостью выбора между глобальным моделированием контекста трансформаторами и скоростью сверточных нейронных сетей (CNN). Двумя ведущими конкурентами в этой области являются RTDETRv2 и YOLO. RTDETRv2, вторая итерация Real-Time Detection Transformer от Baidu, использует механизмы внимания, чтобы устранить необходимость в немаксимальном подавлении (NMS). В отличие от этого,YOLO Alibaba Group фокусируется на поиске нейронной архитектуры (NAS) и эффективной перепараметризации, чтобы извлечь максимальную производительность из традиционных структур CNN.

В этом руководстве подробно описаны их архитектуры, тесты производительности и идеальные сценарии развертывания, что дает разработчикам необходимую информацию для выбора подходящего инструмента для своих проектов в области компьютерного зрения.

Краткое изложение

RTDETRv2 — отличный выбор для приложений, требующих высокой точности в сложных средах, где объекты могут значительно перекрываться. Его конструкция на основе трансформатора естественным образом обрабатывает глобальный контекст, что делает его устойчивым к окклюзиям. Однако это достигается за счет более высоких вычислительных требований, особенно на периферийных устройствах.

YOLO превосходно подходит для промышленных сценариев, в которых приоритетом является низкая задержка на стандартном оборудовании. Использование NAS и эффективная конструкция магистрали делают его высокоэффективным для задач производства и контроля в режиме реального времени. Несмотря на высокую скорость, он основан на традиционных методологиях, основанных на якорях, которые могут быть чувствительны к настройке гиперпараметров по сравнению с сквозной природой трансформаторов.

Для тех, кто ищет лучшее из обоих миров — передовую скорость, сквозное выведение NMS и простоту использования — модель Ultralytics предлагает превосходную альтернативу, сочетающую в себе новейшие оптимизации функций потерь и улучшенную CPU .

RTDETRv2: Усовершенствование трансформера реального времени

RTDETRv2 (Real-Time Detection Transformer v2) основан на успехе оригинального RT-DETR, дополнительно усовершенствовав гибридный кодировщик и выбор запросов с учетом неопределенности. Он направлен на устранение типичного для трансформаторных моделей узкого места в виде задержки, сохраняя при этом их превосходную точность.

Авторы: Вэнью Лв, Янь Чжао, Циньяо Чан, Куй Хуан, Гуанчжун Ван и И Лю
Организация:Baidu
Дата: 17 апреля 2023 г.
Arxiv:RTDETRv2 Статья
GitHub:RT-DETR

Узнайте больше о RT-DETR

Ключевые архитектурные инновации

  • Гибридный кодер: эффективно обрабатывает многомасштабные особенности путем развязки внутримасштабного взаимодействия и межмасштабного слияния, что значительно снижает вычислительные затраты по сравнению со стандартными деформируемыми кодерами DETR.
  • Выбор запросов с минимальной неопределенностью: улучшает инициализацию запросов объектов путем выбора функций с наивысшими оценками классификации, что приводит к более быстрой конвергенции и более качественному первоначальному обнаружению.
  • ВыводNMS: как модель на основе трансформатора, RTDETRv2 напрямую прогнозирует фиксированный набор объектов, устраняя необходимость в подавлении не максимальных значений (NMS). Это упрощает процессы развертывания и устраняет изменчивость задержек, связанную с постобработкой плотных прогнозов.
  • Гибкая поддержка магистральных сетей: архитектура поддерживает различные магистральные сети, включая ResNet и HGNetv2, что позволяет пользователям масштабировать модель в зависимости от доступных вычислительных ресурсов.

Преимущества Transformer

В отличие от CNN, которые обрабатывают локальные соседства пикселей, механизм самовнимания в RTDETRv2 позволяет каждой части изображения обращать внимание на все остальные части. Это «глобальное рецептивное поле» особенно полезно для обнаружения крупных объектов или понимания взаимосвязей между удаленными частями сцены.

YOLO: промышленная эффективность

YOLO на максимальном повышении эффективности парадигмы «You Only Look Once» (ты смотришь только один раз) посредством тщательного поиска нейронной архитектуры (NAS) и новых методов слияния характеристик. Он разработан как надежный детектор общего назначения, который обеспечивает баланс между скоростью и точностью для промышленных применений.

Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 23 ноября 2022 г.
Arxiv:YOLO
GitHub:YOLO

Ключевые архитектурные особенности

  • MAE-NAS Backbone: использует метод вспомогательных собственных значений для поиска нейронной архитектуры, чтобы обнаружить базовые структуры, которые специально оптимизированы для задач обнаружения, а не для прокси классификации.
  • Эффективная RepGFPN: обобщенная сеть пирамиды признаков (GFPN), оптимизированная с помощью методов перепараметризации (Rep). Это позволяет осуществлять сложное слияние признаков во время обучения, которое сводится к простой и быстрой структуре во время вывода.
  • ZeroHead: легкая головка обнаружения, которая значительно сокращает количество параметров и FLOP без ущерба для средней точности (mAP).
  • AlignedOTA: усовершенствованная стратегия присвоения меток, которая решает проблему несоответствия между задачами классификации и регрессии, обеспечивая выбор высококачественных якорей во время обучения.

Сравнение технических характеристик

При сравнении этих архитектур очень важно учитывать компромисс между скоростью чистого вывода и точностью обнаружения (mAP). В приведенной ниже таблице показано, что, хотя RTDETRv2 в целом обеспечивает более высокую точность, особенно на сложном COCO ,YOLO конкурентоспособную производительность с потенциально более низкой задержкой на определенных конфигурациях оборудования.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Развертывание и варианты использования

Идеальные сценарии для RTDETRv2

  • Сложные городские сцены: глобальный механизм внимания отлично справляется с окклюзией на оживленных улицах, что делает его идеальным для автономного вождения или мониторинга дорожного движения.
  • Медицинская визуализация: там, где точность имеет первостепенное значение, а ложноотрицательные результаты обходятся дорого, например при обнаружении опухолей, высокая точность RTDETRv2 является преимуществом.
  • Подсчет количества людей: Возможность различать перекрывающихся людей без NMS делает эту технологию превосходной для приложений управления толпой.

Идеальные сценарии для DAMO-YOLO

  • Высокоскоростное производство: на сборочных линиях, где для обнаружения дефектов требуется задержка в миллисекундах, низкая задержкаYOLO гарантирует, что пропускная способность не будет ограничена.
  • Встроенный IoT: для устройств с ограниченными вычислительными возможностями, где операции трансформатора являются слишком тяжелыми, эффективностьYOLO на основе CNNYOLO преимуществом.
  • Аналитика розничной торговли: для отслеживания товаров на полках или управления запасами, где допустима умеренная точность для значительно более быстрой обработки.

Преимущество Ultralytics: YOLO26

Хотя и RTDETRv2, иYOLO мощными функциями, модель Ultralytics представляет собой вершину эффективности и удобства использования. Выпущенная в январе 2026 года, YOLO26 устраняет разрыв между этими двумя философиями, интегрируя конструкцию трансформаторов NMS в высокооптимизированную архитектуру, удобную для использования на периферии.

Узнайте больше о YOLO26

Почему разработчики выбирают Ultralytics

  1. Единая платформа: в отличие от исследовательских репозиториев, которые часто не обслуживаются должным образом, Ultralytics комплексную платформу для обучения, развертывания и управления моделями. Независимо от того, нужна ли вам оценка позы, сегментация или OBB, все это доступно в одной библиотеке.
  2. Простота использования: для обучения современной модели требуется минимальный объем кода. Такая доступность позволяет исследователям сосредоточиться на данных, а не на отладке сложных циклов обучения.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model (NMS-free by design)
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset with MuSGD optimizer
    results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
    
  3. Эффективность от начала до конца: YOLO26 представляет собой конструкцию NMS от начала до конца, впервые использованную в YOLOv10 усовершенствованную для производства. Это устраняет накладные расходы на постобработку, характерные дляYOLO позволяет избежать высоких вычислительных затрат, связанных с полными слоями внимания RTDETRv2.

  4. Оптимизация на периферии: благодаря удалению Distribution Focal Loss (DFL) и специальным оптимизациям для CPU , YOLO26 работает на периферийных устройствах на 43 % быстрее, чем предыдущие поколения, что делает его лучшим выбором для мобильного развертывания.
  5. Расширенное обучение: такие функции, как MuSGD Optimizer (вдохновленный обучением LLM) и ProgLoss, обеспечивают стабильное обучение и более быструю конвергенцию, сокращая время и затраты, связанные с разработкой модели.

Заключение

Для фундаментальных исследований или сценариев, требующих максимальной теоретической точности на высокопроизводительных графических процессорах, RTDETRv2 является сильным конкурентом. Для строго ограниченных устаревших систем, требующих абсолютно минимального размера CNN, YOLO остается актуальным. Однако для подавляющего большинства реальных приложений, требующих баланса скорости, точности, универсальности и простоты развертывания, рекомендуемым решением является Ultralytics .

Изучите другие сравнения, чтобы увидеть, как Ultralytics соотносятся с YOLOv8 и EfficientDet.


Комментарии