Перейти к содержанию

PP-YOLOE+ против RTDETRv2: сравнение методов глубокого обучения для обнаружения объектов

Развитие архитектур обнаружения объектов было отмечено ожесточенной конкуренцией между сверточными нейронными сетями (CNN) и моделями на основе трансформеров. Двумя важными вехами в этой истории являются PP-YOLOE+, усовершенствованный детектор на основе CNN из PaddlePaddle , и RTDETRv2, передовой трансформер для обнаружения в реальном времени.

В этом техническом сравнении оцениваются их архитектуры, показатели производительности и пригодность для развертывания, чтобы помочь исследователям и инженерам выбрать оптимальную модель для своих конкретных приложений компьютерного зрения.

Краткое изложение

PP-YOLOE+ представляет собой вершинуYOLO , уделяя особое внимание усовершенствованию механизмов без анкеров и стратегий присвоения меток в рамках чистой CNN-структуры. Он отлично работает в средах, глубоко интегрированных с PaddlePaddle Baidu PaddlePaddle , но может сталкиваться с трудностями при экспорте в другие экосистемы.

RTDETRv2 (Real-Time Detection Transformer v2) расширяет границы возможностей за счет внедрения гибкого, настраиваемого декодера и оптимизации гибридного кодера. Он успешно устраняет необходимость в использовании Non-Maximum Suppression (NMS), распространенного узкого места в постобработке, за счет использования глобальных возможностей трансформаторов.

Однако для разработчиков, которые ищут унифицированное решение, сочетающее в себе скорость CNN и удобство трансформаторов NMS, без огромных вычислительных затрат,Ultralytics предлагает превосходную альтернативу. Благодаря своей встроенной сквозной архитектуре и на 43 % более быстрой CPU , YOLO26 устраняет разрыв между высокопроизводительными серверами и периферийными устройствами.

PP-YOLOE+: Мощный CNN без привязки к якорям

Выпущенный в 2022 году, PP-YOLOE+ является обновленной версией PP-YOLOE, в которой используется мощная основа и динамическое присвоение меток для достижения конкурентоспособной точности.

Авторы: PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection

Архитектурные особенности

PP-YOLOE+ использует CSPRepResStage, основу, которая сочетает в себе преимущества градиентного потока CSPNet с методами перепараметризации, используемыми в RepVGG. Это позволяет модели иметь сложную динамику обучения, которая сводится к простым сверткам во время вывода, ускоряя развертывание.

В модели используется головка Anchor-Free со стратегией Task Alignment Learning (TAL). В отличие от старых методов на основе анкоров, которые полагаются на заранее определенные рамки, PP-YOLOE+ предсказывает центр объектов и их расстояние до краев ограничивающей рамки. Это упрощает поиск гиперпараметров и улучшает обобщение на различных наборах данных, таких как COCO.

Ограничения наследия

Хотя PP-YOLOE+ предлагает высокую производительность, его сильная зависимость от PaddlePaddle может усложнить процессы развертывания, стандартизированные на PyTorch ONNX. Пользователям часто требуются специальные конвертеры для переноса моделей на периферийные платформы.

Узнайте больше о PP-YOLOE+

RTDETRv2: эволюция Transformer

RTDETRv2 основан на успехе оригинального RT-DETR и призван доказать, что трансформеры могут превосходить YOLO в сценариях реального времени. Он решает проблему высокой вычислительной стоимости стандартных трансформеров Vision Transformers (ViT) за счет использования гибридного кодировщика, который эффективно обрабатывает многомасштабные особенности.

Авторы: Вэнью Лв, Янь Чжао, Циньяо Чан, Куй Хуан, Гуанчжун Ван и И Лю
Организация: Baidu
Дата: 17.04.2023 (оригинал), 24.07.2024 (версия v2)
Arxiv:2304.08069
GitHub:RT-DETR

Архитектурные особенности

Основной инновацией в RTDETRv2 является гибридный кодировщик и выбор запросовIoU. Традиционные трансформеры сталкиваются с квадратичной сложностью механизмов внимания при обработке карт характеристик с высоким разрешением. RTDETRv2 смягчает эту проблему за счет развязки внутримасштабного взаимодействия и межмасштабного слияния, что значительно сокращает использование памяти.

Важно отметить, что RTDETRv2 является детектором типа «конец-конец ». Во время обучения он использует алгоритм Hungarian Matcher для сопоставления прогнозов с реальными данными в соотношении один к одному. Это означает, что результаты модели не требуют NMS , что позволяет избежать всплесков задержки и настройки параметров, характерных для традиционных YOLO .

Узнайте больше о RTDETR

Сравнение производительности

В следующей таблице сравниваются характеристики обеих архитектур. В то время как PP-YOLOE+ демонстрирует высокую эффективность при меньшем количестве параметров, RTDETRv2 показывает превосходную масштабируемость при больших размерах, хотя и с более высокими вычислительными требованиями (FLOPs).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Преимущества Ultralytics: Почему стоит выбрать YOLO26?

Хотя RTDETRv2 представил преимущества обнаружения NMS, это было достигнуто за счет использования тяжелых блоков трансформаторов, которые часто медленно обучаются и трудно развертываются наGPU . Ultralytics революционизирует эту область, достигая сквозного обнаружения NMS с использованием чистой архитектуры CNN.

Применяя стратегию последовательного двойного назначения (CDA) во время обучения, YOLO26 учится подавлять дубликаты коробок внутри системы. Это устраняет накладные расходы NMS на вывод, NMS приводя к задержкам в работе трансформаторов.

Основные преимущества YOLO26

  1. Оптимизатор MuSGD: Вдохновленный инновациями в области обучения LLM, такими как Kimi K2 от Moonshot AI, оптимизатор MuSGD сочетает в себе SGD Muon для более быстрой конвергенции и стабильного обучения, что является уникальной особенностью поколения YOLO26.
  2. Оптимизированная эффективность: благодаря устранению распределительной фокальной потери (DFL) и сложных слоев внимания, YOLO26 достигает до 43% более быстрой CPU по сравнению с предыдущими итерациями. Это делает его идеальным для запуска на Raspberry Pi или мобильных устройствах, где RTDETR испытывает трудности.
  3. Универсальность задач: в отличие от PP-YOLOE+, который в основном является детектором, YOLO26 изначально поддерживает оценку позы, сегментацию экземпляров и OBB в одной библиотеке.
  4. ProgLoss + STAL: новые функции потери улучшают обнаружение мелких объектов — критический недостаток многих моделей трансформаторов — что делает YOLO26 превосходным инструментом для анализа аэрофотоснимков.

Оптимизированный рабочий процесс с Ultralytics

Забудьте о сложных конфигурационных файлах. Вы можете обучать, версионировать и развертывать модели YOLO26 напрямую через Ultralytics . Экосистема обрабатывает все, от аннотирования наборов данных до экспорта в TensorRT, CoreML и TFLite одним щелчком мыши.

Пример кода: Начало работы с YOLO26

С помощьюPython Ultralytics запуск новейшей современной модели становится невероятно простым:

from ultralytics import YOLO

# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx")

Узнайте больше о YOLO26

Идеальные варианты использования

Когда использовать PP-YOLOE+

  • Устаревшие системы Paddle: если ваша существующая инфраструктура построена полностью на Baidu PaddlePaddle, PP-YOLOE+ предоставляет нативный путь обновления без изменения фреймворков.
  • CNN на стороне сервера: для сценариев, в которых GPU достаточно, но в среде развертывания отсутствует поддержка трансформаторов (например, TensorRT для Multi-Head Attention).

Когда использовать RTDETRv2

  • Перегруженные сцены: глобальный механизм внимания трансформеров помогает в сценах с сильной окклюзией, где CNN могут испытывать трудности с разделением перекрывающихся объектов.
  • Фиксированное оборудование: подходит для высокопроизводительных графических процессоров (таких как NVIDIA или A100), где накладные расходы на умножение матриц трансформаторов незначительны по сравнению с повышением точности.

Когда использовать Ultralytics YOLO26

  • Edge & Mobile AI: Низкое потребление памяти и высокая CPU делают YOLO26 идеальным выбором для Android или встроенных системах.
  • Аналитика видео в реальном времени: для приложений, требующих высокой частоты кадров, таких как мониторинг дорожного движения или производственные линии, конструкция NMS обеспечивает детерминированную задержку.
  • Исследования и быстрое прототипирование: обширная документация и активная поддержка сообщества позволяют исследователям быстро повторять операции, используя предварительно обученные веса для различных задач, выходящих за рамки простого обнаружения ограничивающих рамок.

Заключение

Как PP-YOLOE+, так и RTDETRv2 внесли значительный вклад в область компьютерного зрения. PP-YOLOE+ расширил границы CNN в экосистеме Paddle, а RTDETRv2 продемонстрировал жизнеспособность трансформеров для задач в реальном времени. Однако Ultralytics представляет собой синтез этих достижений: он предлагает архитектурную простоту и скорость CNN с элегантностью трансформатора, NMS. В сочетании с надежной Ultralytics он является наиболее универсальным инструментом для современной разработки ИИ.


Комментарии