Перейти к содержанию

PP-YOLOE+ vs RTDETRv2: техническое сравнение

Выбор правильной модели обнаружения объектов включает в себя критический компромисс между точностью, скоростью вывода и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей, разработанных Baidu: PP-YOLOE+, высокоэффективного детектора на основе CNN, и RTDETRv2, современной модели на основе трансформаторов. Хотя обе происходят из одной и той же организации, они представляют различные архитектурные философии и подходят для различных потребностей приложений.

В этом сравнении будут рассмотрены их основные архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов в области компьютерного зрения. Мы также обсудим, как модели из серии Ultralytics YOLO часто предоставляют более сбалансированную и удобную альтернативу.

PP-YOLOE+: Эффективное обнаружение на основе CNN

PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus) — это высокопроизводительный одноэтапный детектор объектов, разработанный Baidu как часть их фреймворка PaddleDetection. Он разработан, чтобы предложить баланс между точностью и эффективностью, основываясь на хорошо зарекомендовавшей себя архитектуре YOLO с несколькими ключевыми улучшениями.

Архитектура и ключевые особенности

PP-YOLOE+ — это детектор без anchor boxes, который упрощает процесс обнаружения, устраняя необходимость в предварительно определенных anchor boxes и уменьшая настройку гиперпараметров. Его архитектура основана на сверточных нейронных сетях (CNN) и включает в себя несколько современных компонентов:

  • Эффективный бэкбон и шейка: Обычно использует ResNet или CSPRepResNet бэкбон для извлечения признаков и Path Aggregation Network (PAN) для эффективного объединения признаков в разных масштабах.
  • Decoupled Head (Разделенная голова): Модель разделяет задачи классификации и регрессии в голове обнаружения, что, как известно, повышает точность за счет предотвращения интерференции между этими двумя задачами.
  • Обучение выравниванию задач (TAL): PP-YOLOE+ использует специализированную функцию потерь под названием Task Alignment Learning для лучшего выравнивания оценок классификации и точности локализации, что приводит к более точным обнаружениям.

Сильные и слабые стороны

Преимущества:

  • Превосходный баланс скорости и точности: Предлагает конкурентоспособный компромисс между производительностью и скоростью инференса, что делает его подходящим для многих реальных приложений.
  • Простота Anchor-Free (Anchor-Free Simplicity): Дизайн без привязки к якорям снижает сложность модели и упрощает процесс обучения.
  • Экосистема PaddlePaddle: Глубоко интегрирована и оптимизирована для фреймворка глубокого обучения PaddlePaddle.

Слабые стороны:

  • Зависимость от фреймворка: Основная оптимизация для PaddlePaddle может создать проблемы с интеграцией для разработчиков, работающих с более распространенными фреймворками, такими как PyTorch.
  • Ограниченная универсальность: PP-YOLOE+ — это в первую очередь детектор объектов, и ему не хватает встроенной поддержки других задач компьютерного зрения, таких как сегментация или оценка позы, которые есть во фреймворках, таких как Ultralytics.

Узнайте больше о PP-YOLOE+

RTDETRv2: высокая точность с ядром трансформера

RT-DETRv2 (Детектор-трансформер реального времени версии 2) — это еще одна передовая модель от Baidu, но она использует другой архитектурный подход, включая Vision Transformer (ViT). Он направлен на расширение границ точности при сохранении производительности в реальном времени.

Архитектура и ключевые особенности

RTDETRv2 имеет гибридную архитектуру, которая сочетает в себе сильные стороны CNN и трансформеров. Эта конструкция позволяет эффективно захватывать как локальные признаки, так и глобальный контекст.

  • Гибридная базовая сеть: Модель использует CNN backbone для извлечения начальных карт признаков, которые затем подаются в кодировщик Transformer.
  • Transformer Encoder: Механизм самоанализа в слоях transformer позволяет модели понимать долгосрочные зависимости и взаимосвязи между объектами на изображении, что приводит к превосходному контекстному пониманию.
  • Запросы без привязки к якорям (Anchor-Free Queries): Как и модели на основе DETR, он использует набор обучаемых запросов объектов для обнаружения объектов, устраняя необходимость в сложных этапах постобработки, таких как Non-Maximum Suppression (NMS) (Немаксимальное подавление) во время инференса.

Сильные и слабые стороны

Преимущества:

  • Современная точность: Архитектура transformer обеспечивает исключительное извлечение признаков, что часто приводит к более высоким показателям mAP, особенно в сложных сценах со многими объектами.
  • Превосходное контекстное понимание: Отлично обнаруживает объекты в загроможденных средах, где глобальный контекст имеет решающее значение.
  • Оптимизация для реального времени: Несмотря на свою сложность, RTDETRv2 оптимизирован для баланса между высокой точностью и скоростью инференса в реальном времени.

Слабые стороны:

  • Вычислительная сложность: Модели на основе трансформеров по своей сути более сложны и требуют больше ресурсов, чем их аналоги на основе CNN.
  • Высокое потребление памяти: Обучение RTDETRv2 обычно требует значительно больше памяти CUDA и более длительного времени обучения по сравнению с эффективными CNN моделями, такими как серия Ultralytics YOLO.

Узнайте больше о RTDETRv2

Прямое сравнение производительности: точность против скорости

При сравнении PP-YOLOE+ и RTDETRv2 основной компромисс заключается между сбалансированной эффективностью чистой CNN-архитектуры и пиковой точностью гибридной transformer-архитектуры.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

На основании таблицы можно отметить следующее:

  • Точность: Модели RTDETRv2 обычно достигают более высоких показателей mAP, чем модели PP-YOLOE+ аналогичного размера (например, RTDETRv2-l с 53,4 mAP против PP-YOLOE+l с 52,9 mAP). Самая большая модель PP-YOLOE+x немного превосходит RTDETRv2-x, но с большим количеством параметров.
  • Скорость: Модели PP-YOLOE+, особенно небольшие варианты, демонстрируют более высокую скорость инференса. Например, PP-YOLOE+s значительно быстрее, чем любая модель RTDETRv2.
  • Эффективность: Модели PP-YOLOE+ часто достигают своей производительности с меньшим количеством параметров и FLOPs, что делает их более эффективными для развертывания на оборудовании с ограниченными ресурсами.

Преимущество Ultralytics: За пределами сравнения

Несмотря на то, что PP-YOLOE+ и RTDETRv2 являются мощными, разработчикам часто нужно больше, чем просто модель, им нужна комплексная и удобная экосистема. Именно здесь модели Ultralytics, такие как YOLOv8 и новейшая YOLO11, превосходят другие.

  • Простота использования: Ultralytics предоставляет оптимизированный Python API, обширную документацию и простые команды CLI, что невероятно упрощает обучение, проверку и развертывание моделей.
  • Хорошо поддерживаемая экосистема: Платформа Ultralytics активно развивается при мощной поддержке сообщества на GitHub и интегрирована с такими инструментами, как Ultralytics HUB, для бесшовного MLOps.
  • Баланс производительности: Модели Ultralytics YOLO известны своим исключительным балансом скорости и точности, что делает их подходящими для всего, от периферийных устройств до облачных серверов.
  • Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти, обычно требуя меньше памяти CUDA для обучения и инференса по сравнению с моделями на основе трансформеров, такими как RTDETRv2.
  • Универсальность: В отличие от PP-YOLOE+ и RTDETRv2, которые ориентированы на обнаружение, такие модели, как YOLO11, поддерживают несколько задач «из коробки», включая сегментацию экземпляров, классификацию, оценку позы и обнаружение ориентированных объектов.
  • Эффективность обучения: Благодаря готовым предварительно обученным весам и эффективным процессам обучения разработчики могут быстрее достигать самых современных результатов.

Заключение: какая модель подходит именно вам?

Выбор между PP-YOLOE+ и RTDETRv2 во многом зависит от конкретных приоритетов вашего проекта.

  • Выбирайте PP-YOLOE+, если вы работаете в экосистеме PaddlePaddle и вам нужен высокоэффективный, хорошо сбалансированный детектор на основе CNN для задач обнаружения объектов общего назначения, где скорость является ключевым фактором. Он отлично подходит для таких приложений, как умная розничная торговля и промышленная автоматизация.

  • Выбирайте RTDETRv2, если ваша основная цель — достижение максимальной точности, особенно в сложных визуальных сценах, и у вас есть вычислительные ресурсы для обработки его более требовательной архитектуры. Он хорошо подходит для критически важных приложений, таких как автономные транспортные средства и передовая робототехника.

Однако, для большинства разработчиков и исследователей модели Ultralytics YOLO, такие как YOLO11, представляют собой наиболее привлекательный вариант. Они предлагают превосходное сочетание производительности, универсальности и простоты использования, и все это подкреплено надежной и активно поддерживаемой экосистемой, которая ускоряет весь жизненный цикл разработки.

Изучите другие сравнения моделей



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии