PP-YOLOE+ vs RTDETRv2: техническое сравнение
Выбор правильной модели обнаружения объектов включает в себя критический компромисс между точностью, скоростью вывода и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей, разработанных Baidu: PP-YOLOE+, высокоэффективного детектора на основе CNN, и RTDETRv2, современной модели на основе трансформаторов. Хотя обе происходят из одной и той же организации, они представляют различные архитектурные философии и подходят для различных потребностей приложений.
В этом сравнении будут рассмотрены их основные архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов в области компьютерного зрения. Мы также обсудим, как модели из серии Ultralytics YOLO часто предоставляют более сбалансированную и удобную альтернативу.
PP-YOLOE+: Эффективное обнаружение на основе CNN
PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus) — это высокопроизводительный одноэтапный детектор объектов, разработанный Baidu как часть их фреймворка PaddleDetection. Он разработан, чтобы предложить баланс между точностью и эффективностью, основываясь на хорошо зарекомендовавшей себя архитектуре YOLO с несколькими ключевыми улучшениями.
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Архитектура и ключевые особенности
PP-YOLOE+ — это детектор без anchor boxes, который упрощает процесс обнаружения, устраняя необходимость в предварительно определенных anchor boxes и уменьшая настройку гиперпараметров. Его архитектура основана на сверточных нейронных сетях (CNN) и включает в себя несколько современных компонентов:
- Эффективный бэкбон и шейка: Обычно использует ResNet или CSPRepResNet бэкбон для извлечения признаков и Path Aggregation Network (PAN) для эффективного объединения признаков в разных масштабах.
- Decoupled Head (Разделенная голова): Модель разделяет задачи классификации и регрессии в голове обнаружения, что, как известно, повышает точность за счет предотвращения интерференции между этими двумя задачами.
- Обучение выравниванию задач (TAL): PP-YOLOE+ использует специализированную функцию потерь под названием Task Alignment Learning для лучшего выравнивания оценок классификации и точности локализации, что приводит к более точным обнаружениям.
Сильные и слабые стороны
Преимущества:
- Превосходный баланс скорости и точности: Предлагает конкурентоспособный компромисс между производительностью и скоростью инференса, что делает его подходящим для многих реальных приложений.
- Простота Anchor-Free (Anchor-Free Simplicity): Дизайн без привязки к якорям снижает сложность модели и упрощает процесс обучения.
- Экосистема PaddlePaddle: Глубоко интегрирована и оптимизирована для фреймворка глубокого обучения PaddlePaddle.
Слабые стороны:
- Зависимость от фреймворка: Основная оптимизация для PaddlePaddle может создать проблемы с интеграцией для разработчиков, работающих с более распространенными фреймворками, такими как PyTorch.
- Ограниченная универсальность: PP-YOLOE+ — это в первую очередь детектор объектов, и ему не хватает встроенной поддержки других задач компьютерного зрения, таких как сегментация или оценка позы, которые есть во фреймворках, таких как Ultralytics.
RTDETRv2: высокая точность с ядром трансформера
RT-DETRv2 (Детектор-трансформер реального времени версии 2) — это еще одна передовая модель от Baidu, но она использует другой архитектурный подход, включая Vision Transformer (ViT). Он направлен на расширение границ точности при сохранении производительности в реальном времени.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 2023-04-17 (Оригинальная RT-DETR), 2024-07-17 (RT-DETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура и ключевые особенности
RTDETRv2 имеет гибридную архитектуру, которая сочетает в себе сильные стороны CNN и трансформеров. Эта конструкция позволяет эффективно захватывать как локальные признаки, так и глобальный контекст.
- Гибридная базовая сеть: Модель использует CNN backbone для извлечения начальных карт признаков, которые затем подаются в кодировщик Transformer.
- Transformer Encoder: Механизм самоанализа в слоях transformer позволяет модели понимать долгосрочные зависимости и взаимосвязи между объектами на изображении, что приводит к превосходному контекстному пониманию.
- Запросы без привязки к якорям (Anchor-Free Queries): Как и модели на основе DETR, он использует набор обучаемых запросов объектов для обнаружения объектов, устраняя необходимость в сложных этапах постобработки, таких как Non-Maximum Suppression (NMS) (Немаксимальное подавление) во время инференса.
Сильные и слабые стороны
Преимущества:
- Современная точность: Архитектура transformer обеспечивает исключительное извлечение признаков, что часто приводит к более высоким показателям mAP, особенно в сложных сценах со многими объектами.
- Превосходное контекстное понимание: Отлично обнаруживает объекты в загроможденных средах, где глобальный контекст имеет решающее значение.
- Оптимизация для реального времени: Несмотря на свою сложность, RTDETRv2 оптимизирован для баланса между высокой точностью и скоростью инференса в реальном времени.
Слабые стороны:
- Вычислительная сложность: Модели на основе трансформеров по своей сути более сложны и требуют больше ресурсов, чем их аналоги на основе CNN.
- Высокое потребление памяти: Обучение RTDETRv2 обычно требует значительно больше памяти CUDA и более длительного времени обучения по сравнению с эффективными CNN моделями, такими как серия Ultralytics YOLO.
Прямое сравнение производительности: точность против скорости
При сравнении PP-YOLOE+ и RTDETRv2 основной компромисс заключается между сбалансированной эффективностью чистой CNN-архитектуры и пиковой точностью гибридной transformer-архитектуры.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
На основании таблицы можно отметить следующее:
- Точность: Модели RTDETRv2 обычно достигают более высоких показателей mAP, чем модели PP-YOLOE+ аналогичного размера (например, RTDETRv2-l с 53,4 mAP против PP-YOLOE+l с 52,9 mAP). Самая большая модель PP-YOLOE+x немного превосходит RTDETRv2-x, но с большим количеством параметров.
- Скорость: Модели PP-YOLOE+, особенно небольшие варианты, демонстрируют более высокую скорость инференса. Например, PP-YOLOE+s значительно быстрее, чем любая модель RTDETRv2.
- Эффективность: Модели PP-YOLOE+ часто достигают своей производительности с меньшим количеством параметров и FLOPs, что делает их более эффективными для развертывания на оборудовании с ограниченными ресурсами.
Преимущество Ultralytics: За пределами сравнения
Несмотря на то, что PP-YOLOE+ и RTDETRv2 являются мощными, разработчикам часто нужно больше, чем просто модель, им нужна комплексная и удобная экосистема. Именно здесь модели Ultralytics, такие как YOLOv8 и новейшая YOLO11, превосходят другие.
- Простота использования: Ultralytics предоставляет оптимизированный Python API, обширную документацию и простые команды CLI, что невероятно упрощает обучение, проверку и развертывание моделей.
- Хорошо поддерживаемая экосистема: Платформа Ultralytics активно развивается при мощной поддержке сообщества на GitHub и интегрирована с такими инструментами, как Ultralytics HUB, для бесшовного MLOps.
- Баланс производительности: Модели Ultralytics YOLO известны своим исключительным балансом скорости и точности, что делает их подходящими для всего, от периферийных устройств до облачных серверов.
- Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти, обычно требуя меньше памяти CUDA для обучения и инференса по сравнению с моделями на основе трансформеров, такими как RTDETRv2.
- Универсальность: В отличие от PP-YOLOE+ и RTDETRv2, которые ориентированы на обнаружение, такие модели, как YOLO11, поддерживают несколько задач «из коробки», включая сегментацию экземпляров, классификацию, оценку позы и обнаружение ориентированных объектов.
- Эффективность обучения: Благодаря готовым предварительно обученным весам и эффективным процессам обучения разработчики могут быстрее достигать самых современных результатов.
Заключение: какая модель подходит именно вам?
Выбор между PP-YOLOE+ и RTDETRv2 во многом зависит от конкретных приоритетов вашего проекта.
-
Выбирайте PP-YOLOE+, если вы работаете в экосистеме PaddlePaddle и вам нужен высокоэффективный, хорошо сбалансированный детектор на основе CNN для задач обнаружения объектов общего назначения, где скорость является ключевым фактором. Он отлично подходит для таких приложений, как умная розничная торговля и промышленная автоматизация.
-
Выбирайте RTDETRv2, если ваша основная цель — достижение максимальной точности, особенно в сложных визуальных сценах, и у вас есть вычислительные ресурсы для обработки его более требовательной архитектуры. Он хорошо подходит для критически важных приложений, таких как автономные транспортные средства и передовая робототехника.
Однако, для большинства разработчиков и исследователей модели Ultralytics YOLO, такие как YOLO11, представляют собой наиболее привлекательный вариант. Они предлагают превосходное сочетание производительности, универсальности и простоты использования, и все это подкреплено надежной и активно поддерживаемой экосистемой, которая ускоряет весь жизненный цикл разработки.
Изучите другие сравнения моделей
- YOLO11 против RT-DETR
- YOLO11 против PP-YOLOE+
- YOLOv10 vs RT-DETR
- YOLOv8 против RT-DETR
- PP-YOLOE+ против YOLOv8