Перейти к содержанию

YOLOv9 против PP-YOLOE+: техническое сравнение

Выбор правильной модели обнаружения объектов включает в себя критический компромисс между точностью, скоростью и требованиями к ресурсам. На этой странице представлено подробное техническое сравнение Ultralytics YOLOv9, современной модели, известной своими архитектурными инновациями, и PP-YOLOE+ от Baidu, сильного конкурента из экосистемы PaddlePaddle. Мы проанализируем их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов компьютерного зрения.

YOLOv9: Programmable Gradient Information для расширенного обучения

Ultralytics YOLOv9 представляет собой значительный прогресс в обнаружении объектов в реальном времени, представляя новаторские концепции для решения давних проблем в глубоком обучении.

Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Документация: https://docs.ultralytics.com/models/yolov9/

Основными инновациями YOLOv9 являются Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для решения проблемы потери информации при передаче данных через глубокие сети, гарантируя, что надежная информация о градиенте доступна для точного обновления модели. Это помогает сохранить ключевые функции и улучшает обучение. GELAN — это новая сетевая архитектура, оптимизированная для превосходного использования параметров и вычислительной эффективности. Эта мощная комбинация позволяет YOLOv9 достигать исключительной точности, сохраняя при этом высокую скорость логического вывода.

Ключевым преимуществом YOLOv9 является его интеграция в экосистему Ultralytics. Это обеспечивает оптимизированный пользовательский опыт с простым API, исчерпывающей документацией и надежной сетью поддержки. Экосистема выигрывает от активной разработки, сильного сообщества на таких платформах, как GitHub и Discord, и частых обновлений. Это гарантирует, что разработчики имеют доступ к эффективным процессам обучения, легкодоступным предварительно обученным весам и платформе, которая поддерживает несколько задач, таких как обнаружение объектов и сегментация экземпляров.

Сильные стороны

  • Высокая точность: Достигает самых современных показателей mAP на сложных наборах данных, таких как COCO, при этом модель YOLOv9-E устанавливает новый эталон для детекторов реального времени.
  • Эффективная архитектура: Архитектура GELAN и PGI приводят к отличной производительности со значительно меньшим количеством параметров и FLOPs по сравнению с моделями с аналогичной точностью.
  • Сохранение информации: PGI эффективно смягчает проблему информационного узкого места в глубоких сетях, что приводит к лучшей сходимости и точности модели.
  • Экосистема Ultralytics: Преимущества: простота использования, обширная документация, активная поддержка и сильная поддержка сообщества. Он построен на базе PyTorch, самого популярного фреймворка для AI, что делает его очень доступным.
  • Универсальность: Архитектура универсальна и поддерживает несколько задач компьютерного зрения, помимо простого обнаружения.

Слабые стороны

  • Более новая модель: Будучи недавним релизом, широта примеров, созданных сообществом, и интеграций со сторонними разработчиками все еще растет, хотя ее включение в фреймворк Ultralytics ускоряет внедрение.
  • Ресурсы для обучения: Несмотря на эффективность для своего уровня производительности, обучение самых больших вариантов YOLOv9 может потребовать значительных вычислительных ресурсов.

Идеальные варианты использования

YOLOv9 превосходно подходит для приложений, требующих высочайшего уровня точности и эффективности. Это делает его идеальным для сложных задач, таких как автономное вождение, передовые системы безопасности и высокоточная робототехника. Его эффективная конструкция также делает небольшие варианты подходящими для развертывания в периферийных средах искусственного интеллекта с ограниченными ресурсами.

Узнайте больше о YOLOv9

PP-YOLOE+: Высокая точность в экосистеме PaddlePaddle

PP-YOLOE+ — это высокопроизводительный детектор объектов, разработанный Baidu и являющийся ключевой частью их пакета PaddleDetection. Он разработан для обеспечения надежного баланса скорости и точности, но его реализация тесно связана с платформой глубокого обучения PaddlePaddle.

Авторы: Авторы PaddlePaddle
Организация: Baidu
Дата: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/PaddlePaddle/PaddleDetection/
Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

PP-YOLOE+ — это одноступенчатый детектор без привязки к anchor boxes, разработанный на основе предыдущих версий PP-YOLO. Он включает в себя эффективный backbone, часто основанный на CSPRepResNet, и detection head, использующий Task Alignment Learning (TAL) для улучшения классификации и выравнивания локализации. Серия моделей предлагает различные размеры (s, m, l, x) для удовлетворения различных вычислительных бюджетов.

Сильные стороны

  • Высокая производительность: Обеспечивает конкурентоспособную точность и скорость, что делает его способной моделью для многих задач обнаружения объектов.
  • Оптимизировано для PaddlePaddle: Для команд, уже инвестировавших в экосистему Baidu PaddlePaddle, PP-YOLOE+ предлагает простую интеграцию и оптимизированную производительность.

Слабые стороны

  • Зависимость от фреймворка: Ориентация на фреймворк PaddlePaddle может быть существенным барьером для более широкого сообщества, которое преимущественно использует PyTorch. Миграция проектов или интеграция с инструментами на основе PyTorch может быть сложной.
  • Ограниченная универсальность: PP-YOLOE+ в основном ориентирован на обнаружение объектов. В отличие от этого, модели Ultralytics, такие как YOLOv8 и YOLO11, предлагают унифицированный фреймворк для нескольких задач, включая сегментацию, оценку позы и классификацию, из коробки.
  • Экосистема и поддержка: Экосистема вокруг PP-YOLOE+ менее развита, чем у Ultralytics YOLO. Пользователи могут обнаружить меньше учебных пособий от сообщества, менее отзывчивые каналы поддержки и более медленные обновления по сравнению с активной и поддерживаемой экосистемой Ultralytics.

Идеальные варианты использования

PP-YOLOE+ лучше всего подходит для разработчиков и организаций, которые уже стандартизированы на фреймворке глубокого обучения Baidu PaddlePaddle. Это надежный выбор для стандартных приложений обнаружения объектов, где команда разработчиков имеет существующий опыт работы с PaddlePaddle.

Узнайте больше о PP-YOLOE+

Анализ производительности: YOLOv9 против PP-YOLOE+

При сравнении производительности становится ясно, что YOLOv9 устанавливает более высокий стандарт как для точности, так и для эффективности.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59
  • Пиковая точность: YOLOv9-E достигает самого высокого mAP, равного 55,6, превосходя самую большую модель PP-YOLOE+x (54,7 mAP) при значительно меньшем количестве параметров (57,3 млн против 98,42 млн).
  • Эффективность: YOLOv9 демонстрирует превосходную эффективность параметров по всем направлениям. Например, YOLOv9-C достигает 53.0 mAP всего с 25.3M параметрами, в то время как PP-YOLOE+l требует 52.2M параметров для достижения аналогичного 52.9 mAP. Самая маленькая модель, YOLOv9-T, исключительно легкая, всего с 2.0M параметрами.
  • Компромисс между скоростью и точностью: Хотя PP-YOLOE+s демонстрирует самое быстрое время инференса на GPU T4, это достигается за счет точности (43,7 mAP). В отличие от этого, YOLOv9-S обеспечивает гораздо более высокий показатель 46,8 mAP лишь с незначительным увеличением задержки, что представляет собой лучший компромисс для приложений, где важна точность.

Заключение: какую модель вам следует выбрать?

Для подавляющего большинства разработчиков, исследователей и предприятий YOLOv9 — это превосходный выбор. Его современная точность в сочетании с замечательной вычислительной эффективностью и эффективностью параметров устанавливает новый стандарт в обнаружении объектов в реальном времени.

Основное преимущество YOLOv9 заключается не только в его производительности, но и в его интеграции в экосистему Ultralytics. Построенный на широко распространенном фреймворке PyTorch, он предлагает беспрецедентную простоту использования, обширную документацию, универсальность для решения различных задач и активное, поддерживающее сообщество. Эта целостная среда значительно сокращает время разработки и упрощает развертывание и обслуживание.

PP-YOLOE+ — это эффективная модель, но ее ценность в основном ограничивается пользователями, уже работающими в экосистеме Baidu PaddlePaddle. Для тех, кто находится за пределами этой конкретной среды, затраты на внедрение новой платформы и ограничения в универсальности и поддержке сообщества делают ее менее практичным вариантом по сравнению с мощным и доступным решением, предлагаемым Ultralytics YOLOv9.

Другие модели для рассмотрения

Если вы изучаете различные архитектуры, вас также могут заинтересовать другие модели, доступные в экосистеме Ultralytics:

  • YOLOv8: Универсальная и сбалансированная модель, отлично подходящая для широкого спектра задач и известная своей скоростью и простотой использования.
  • YOLO11: Последняя официальная модель Ultralytics, еще больше расширяющая границы производительности и эффективности.
  • RT-DETR: Детектор на основе трансформера, работающий в реальном времени, который предлагает другой архитектурный подход к обнаружению объектов.


📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии