RTDETRv2 и PP-YOLOE+: Подробное техническое сравнение
На этой странице представлено подробное техническое сравнение двух современных моделей обнаружения объектов от Baidu: RTDETRv2 и PP-YOLOE+. Хотя обе они разработаны для высокопроизводительного обнаружения объектов в реальном времени, они построены на принципиально разных архитектурных принципах. RTDETRv2 использует возможности трансформеров для максимальной точности, тогда как PP-YOLOE+ следует философии YOLO, заключающейся в балансировании скорости и эффективности. Это сравнение углубится в их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение для ваших проектов в области компьютерного зрения.
RTDETRv2: высокая точность на основе трансформеров
RTDETRv2 (Real-Time Detection Transformer version 2) — это передовой детектор объектов, который опирается на фреймворк DETR для достижения современной точности при сохранении скорости работы в реальном времени. Он представляет собой переход от традиционных детекторов на основе CNN к более сложным архитектурам на основе transformer.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 17.04.2023
- Arxiv: https://arxiv.org/abs/2304.08069 (Оригинальная RT-DETR), https://arxiv.org/abs/2407.17140 (Улучшения RT-DETRv2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура и ключевые особенности
RTDETRv2 использует гибридную архитектуру, которая сочетает в себе CNN backbone для эффективного извлечения признаков с Transformer-based encoder-decoder. Эта конструкция использует механизм самовнимания для моделирования долгосрочных зависимостей по всему изображению, позволяя эффективно захватывать глобальный контекст. Это является значительным преимуществом в сложных сценах с окклюдированными или небольшими объектами. Как детектор без привязок, он упрощает конвейер обнаружения, избегая необходимости в предопределенных ограничивающих рамках.
Сильные стороны
- Высокая точность: Архитектура Vision Transformer (ViT) обеспечивает превосходное представление признаков и контекстное понимание, что приводит к самым современным показателям mAP.
- Надёжность в сложных сценах: Его способность обрабатывать глобальную информацию делает его очень эффективным для сложных сценариев, таких как обнаружение плотных объектов, как это видно в автономном вождении.
- Возможности реального времени: Несмотря на свою сложность, RTDETRv2 оптимизирован для быстрого вывода, особенно при ускорении с помощью таких инструментов, как NVIDIA TensorRT.
Слабые стороны
- Высокая вычислительная стоимость: Модели на основе Transformer, как известно, требуют больших ресурсов. RTDETRv2 имеет большее количество параметров и FLOPs по сравнению с эффективными CNN-моделями, такими как Ultralytics YOLO.
- Demanding Training Requirements (Высокие требования к обучению): Обучение RTDETRv2 требует значительных вычислительных ресурсов, особенно большого объема памяти CUDA, и часто занимает больше времени, чем обучение моделей YOLO.
- Архитектурная сложность (Architectural Complexity): Сложная конструкция может затруднить понимание, изменение и развертывание модели по сравнению с более простыми архитектурами CNN.
PP-YOLOE+: Высокоэффективное Anchor-Free обнаружение
PP-YOLOE+ — это эффективный детектор объектов без anchor boxes, разработанный Baidu как часть пакета PaddleDetection. Он основан на успешной серии YOLO, фокусируясь на создании практичной и эффективной модели, которая уравновешивает скорость и точность для широкого спектра применений.
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Архитектура и ключевые особенности
PP-YOLOE+ — это одноэтапный детектор без anchor boxes, который включает в себя несколько современных конструктивных решений. Он имеет разделенную голову, которая разделяет задачи классификации и локализации, что часто повышает производительность. Модель также использует Task Alignment Learning (TAL), специализированную функцию потерь, которая помогает лучше согласовать две задачи. Его архитектура глубоко интегрирована с платформой глубокого обучения PaddlePaddle.
Сильные стороны
- Превосходный баланс производительности: PP-YOLOE+ предлагает отличный компромисс между скоростью инференса и точностью обнаружения для различных размеров моделей (t, s, m, l, x).
- Эффективный дизайн: Подход без anchor упрощает модель и уменьшает сложность, связанную с настройкой anchor boxes.
- Экосистема PaddlePaddle: Он хорошо поддерживается и оптимизирован во фреймворке PaddlePaddle, что делает его предпочтительным выбором для разработчиков в этой экосистеме.
Слабые стороны
- Зависимость от фреймворка: Основная оптимизация для PaddlePaddle может создать проблемы с интеграцией для пользователей, работающих с более распространенными фреймворками, такими как PyTorch.
- Ограниченная экосистема: По сравнению с обширной экосистемой, предоставляемой Ultralytics, поддержка сообщества, учебные пособия и интегрированные инструменты для PP-YOLOE+ могут быть менее полными.
Анализ производительности: скорость в сравнении с точностью
При сравнении RTDETRv2 и PP-YOLOE+ выявляется явный компромисс между пиковой точностью и общей эффективностью. RTDETRv2 расширяет границы точности, но с более высокими вычислительными затратами, в то время как PP-YOLOE+ обеспечивает более сбалансированный профиль производительности.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Из таблицы видно, что модели PP-YOLOE+ в целом быстрее и легче. Например, PP-YOLOE+s достигает самой высокой скорости inference всего за 2,62 мс. Самая большая модель, PP-YOLOE+x, достигает наивысшего mAP, равного 54,7, немного опережая RTDETRv2-x. В отличие от этого, модели RTDETRv2 обеспечивают конкурентоспособную точность, но со значительно более высокой задержкой и вычислительными требованиями (параметры и FLOPs).
Преимущество Ultralytics: Почему модели YOLO выделяются
Хотя RTDETRv2 и PP-YOLOE+ являются эффективными моделями, модели Ultralytics YOLO, такие как YOLOv8 и новейшая YOLO11, предлагают более целостное и удобное для разработчиков решение.
- Простота использования: Модели Ultralytics известны своей оптимизированной работой, с простым Python API, обширной документацией и простыми в использовании командами CLI.
- Хорошо поддерживаемая экосистема: Экосистема Ultralytics включает активную разработку, огромное сообщество с открытым исходным кодом и мощные инструменты, такие как Ultralytics HUB, для простой MLOps от обучения до развертывания.
- Баланс производительности: Модели Ultralytics YOLO разработаны для обеспечения исключительного компромисса между скоростью и точностью, что делает их подходящими для широкого спектра приложений, от периферийных устройств до облачных серверов.
- Эффективность памяти: По сравнению с высокими требованиями к памяти CUDA у моделей-трансформеров, таких как RTDETRv2, модели Ultralytics YOLO значительно более эффективны по памяти во время обучения и инференса, что позволяет разрабатывать их на менее мощном оборудовании.
- Универсальность: Одна модель Ultralytics YOLO может выполнять несколько задач, включая обнаружение объектов, сегментацию, классификацию, оценку позы и обнаружение ориентированных объектов (OBB), предоставляя унифицированную структуру для различных потребностей компьютерного зрения.
- Эффективность обучения: Благодаря готовым предварительно обученным весам на наборах данных, таких как COCO, и более быстрому времени сходимости, обучение пользовательских моделей происходит быстро и эффективно.
Заключение: какая модель подходит именно вам?
Выбор между RTDETRv2 и PP-YOLOE+ во многом зависит от конкретных потребностей и ограничений вашего проекта.
-
Выбирайте RTDETRv2, если ваша основная цель — достижение максимально возможной точности, особенно в сложных визуальных средах, и у вас есть доступ к мощным вычислительным ресурсам для обучения и развертывания. Он идеально подходит для исследований и ответственных приложений, таких как робототехника и автономные системы.
-
Выбирайте PP-YOLOE+, если вы работаете в экосистеме PaddlePaddle и вам нужна модель, обеспечивающая высокую сбалансированную производительность между скоростью и точностью. Это практичный выбор для различных промышленных применений, таких как производство и розничная торговля.
-
Большинству разработчиков и исследователей мы рекомендуем модели Ultralytics YOLO. Они обеспечивают превосходное сочетание производительности, универсальности и простоты использования. Благодаря надежной экосистеме, эффективному обучению и гибкости развертывания Ultralytics YOLO является наиболее практичным и мощным выбором для переноса проектов компьютерного зрения от концепции до производства.
Изучите другие сравнения моделей
Чтобы помочь вам принять решение, изучите эти и другие сравнения с участием RTDETRv2, PP-YOLOE+ и других передовых моделей:
- RTDETRv2 против YOLOv10
- PP-YOLOE+ против YOLOv10
- RTDETRv2 против EfficientDet
- PP-YOLOE+ против YOLOv8
- Ознакомьтесь с последними моделями, такими как YOLO11.