Перейти к содержанию

RTDETRv2 и PP-YOLOE+: Подробное техническое сравнение

На этой странице представлено подробное техническое сравнение двух современных моделей обнаружения объектов от Baidu: RTDETRv2 и PP-YOLOE+. Хотя обе они разработаны для высокопроизводительного обнаружения объектов в реальном времени, они построены на принципиально разных архитектурных принципах. RTDETRv2 использует возможности трансформеров для максимальной точности, тогда как PP-YOLOE+ следует философии YOLO, заключающейся в балансировании скорости и эффективности. Это сравнение углубится в их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение для ваших проектов в области компьютерного зрения.

RTDETRv2: высокая точность на основе трансформеров

RTDETRv2 (Real-Time Detection Transformer version 2) — это передовой детектор объектов, который опирается на фреймворк DETR для достижения современной точности при сохранении скорости работы в реальном времени. Он представляет собой переход от традиционных детекторов на основе CNN к более сложным архитектурам на основе transformer.

Архитектура и ключевые особенности

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе CNN backbone для эффективного извлечения признаков с Transformer-based encoder-decoder. Эта конструкция использует механизм самовнимания для моделирования долгосрочных зависимостей по всему изображению, позволяя эффективно захватывать глобальный контекст. Это является значительным преимуществом в сложных сценах с окклюдированными или небольшими объектами. Как детектор без привязок, он упрощает конвейер обнаружения, избегая необходимости в предопределенных ограничивающих рамках.

Сильные стороны

  • Высокая точность: Архитектура Vision Transformer (ViT) обеспечивает превосходное представление признаков и контекстное понимание, что приводит к самым современным показателям mAP.
  • Надёжность в сложных сценах: Его способность обрабатывать глобальную информацию делает его очень эффективным для сложных сценариев, таких как обнаружение плотных объектов, как это видно в автономном вождении.
  • Возможности реального времени: Несмотря на свою сложность, RTDETRv2 оптимизирован для быстрого вывода, особенно при ускорении с помощью таких инструментов, как NVIDIA TensorRT.

Слабые стороны

  • Высокая вычислительная стоимость: Модели на основе Transformer, как известно, требуют больших ресурсов. RTDETRv2 имеет большее количество параметров и FLOPs по сравнению с эффективными CNN-моделями, такими как Ultralytics YOLO.
  • Demanding Training Requirements (Высокие требования к обучению): Обучение RTDETRv2 требует значительных вычислительных ресурсов, особенно большого объема памяти CUDA, и часто занимает больше времени, чем обучение моделей YOLO.
  • Архитектурная сложность (Architectural Complexity): Сложная конструкция может затруднить понимание, изменение и развертывание модели по сравнению с более простыми архитектурами CNN.

Узнайте больше о RTDETRv2

PP-YOLOE+: Высокоэффективное Anchor-Free обнаружение

PP-YOLOE+ — это эффективный детектор объектов без anchor boxes, разработанный Baidu как часть пакета PaddleDetection. Он основан на успешной серии YOLO, фокусируясь на создании практичной и эффективной модели, которая уравновешивает скорость и точность для широкого спектра применений.

Архитектура и ключевые особенности

PP-YOLOE+ — это одноэтапный детектор без anchor boxes, который включает в себя несколько современных конструктивных решений. Он имеет разделенную голову, которая разделяет задачи классификации и локализации, что часто повышает производительность. Модель также использует Task Alignment Learning (TAL), специализированную функцию потерь, которая помогает лучше согласовать две задачи. Его архитектура глубоко интегрирована с платформой глубокого обучения PaddlePaddle.

Сильные стороны

  • Превосходный баланс производительности: PP-YOLOE+ предлагает отличный компромисс между скоростью инференса и точностью обнаружения для различных размеров моделей (t, s, m, l, x).
  • Эффективный дизайн: Подход без anchor упрощает модель и уменьшает сложность, связанную с настройкой anchor boxes.
  • Экосистема PaddlePaddle: Он хорошо поддерживается и оптимизирован во фреймворке PaddlePaddle, что делает его предпочтительным выбором для разработчиков в этой экосистеме.

Слабые стороны

  • Зависимость от фреймворка: Основная оптимизация для PaddlePaddle может создать проблемы с интеграцией для пользователей, работающих с более распространенными фреймворками, такими как PyTorch.
  • Ограниченная экосистема: По сравнению с обширной экосистемой, предоставляемой Ultralytics, поддержка сообщества, учебные пособия и интегрированные инструменты для PP-YOLOE+ могут быть менее полными.

Узнайте больше о PP-YOLOE+

Анализ производительности: скорость в сравнении с точностью

При сравнении RTDETRv2 и PP-YOLOE+ выявляется явный компромисс между пиковой точностью и общей эффективностью. RTDETRv2 расширяет границы точности, но с более высокими вычислительными затратами, в то время как PP-YOLOE+ обеспечивает более сбалансированный профиль производительности.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59

Из таблицы видно, что модели PP-YOLOE+ в целом быстрее и легче. Например, PP-YOLOE+s достигает самой высокой скорости inference всего за 2,62 мс. Самая большая модель, PP-YOLOE+x, достигает наивысшего mAP, равного 54,7, немного опережая RTDETRv2-x. В отличие от этого, модели RTDETRv2 обеспечивают конкурентоспособную точность, но со значительно более высокой задержкой и вычислительными требованиями (параметры и FLOPs).

Преимущество Ultralytics: Почему модели YOLO выделяются

Хотя RTDETRv2 и PP-YOLOE+ являются эффективными моделями, модели Ultralytics YOLO, такие как YOLOv8 и новейшая YOLO11, предлагают более целостное и удобное для разработчиков решение.

  • Простота использования: Модели Ultralytics известны своей оптимизированной работой, с простым Python API, обширной документацией и простыми в использовании командами CLI.
  • Хорошо поддерживаемая экосистема: Экосистема Ultralytics включает активную разработку, огромное сообщество с открытым исходным кодом и мощные инструменты, такие как Ultralytics HUB, для простой MLOps от обучения до развертывания.
  • Баланс производительности: Модели Ultralytics YOLO разработаны для обеспечения исключительного компромисса между скоростью и точностью, что делает их подходящими для широкого спектра приложений, от периферийных устройств до облачных серверов.
  • Эффективность памяти: По сравнению с высокими требованиями к памяти CUDA у моделей-трансформеров, таких как RTDETRv2, модели Ultralytics YOLO значительно более эффективны по памяти во время обучения и инференса, что позволяет разрабатывать их на менее мощном оборудовании.
  • Универсальность: Одна модель Ultralytics YOLO может выполнять несколько задач, включая обнаружение объектов, сегментацию, классификацию, оценку позы и обнаружение ориентированных объектов (OBB), предоставляя унифицированную структуру для различных потребностей компьютерного зрения.
  • Эффективность обучения: Благодаря готовым предварительно обученным весам на наборах данных, таких как COCO, и более быстрому времени сходимости, обучение пользовательских моделей происходит быстро и эффективно.

Заключение: какая модель подходит именно вам?

Выбор между RTDETRv2 и PP-YOLOE+ во многом зависит от конкретных потребностей и ограничений вашего проекта.

  • Выбирайте RTDETRv2, если ваша основная цель — достижение максимально возможной точности, особенно в сложных визуальных средах, и у вас есть доступ к мощным вычислительным ресурсам для обучения и развертывания. Он идеально подходит для исследований и ответственных приложений, таких как робототехника и автономные системы.

  • Выбирайте PP-YOLOE+, если вы работаете в экосистеме PaddlePaddle и вам нужна модель, обеспечивающая высокую сбалансированную производительность между скоростью и точностью. Это практичный выбор для различных промышленных применений, таких как производство и розничная торговля.

  • Большинству разработчиков и исследователей мы рекомендуем модели Ultralytics YOLO. Они обеспечивают превосходное сочетание производительности, универсальности и простоты использования. Благодаря надежной экосистеме, эффективному обучению и гибкости развертывания Ultralytics YOLO является наиболее практичным и мощным выбором для переноса проектов компьютерного зрения от концепции до производства.

Изучите другие сравнения моделей

Чтобы помочь вам принять решение, изучите эти и другие сравнения с участием RTDETRv2, PP-YOLOE+ и других передовых моделей:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии