YOLOv9 против PP-YOLOE+: техническое сравнение
Выбор правильной модели обнаружения объектов включает в себя критический компромисс между точностью, скоростью и требованиями к ресурсам. На этой странице представлено подробное техническое сравнение Ultralytics YOLOv9, современной модели, известной своими архитектурными инновациями, и PP-YOLOE+ от Baidu, сильного конкурента из экосистемы PaddlePaddle. Мы проанализируем их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов компьютерного зрения.
YOLOv9: Programmable Gradient Information для расширенного обучения
Ultralytics YOLOv9 представляет собой значительный прогресс в обнаружении объектов в реальном времени, представляя новаторские концепции для решения давних проблем в глубоком обучении.
Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Документация: https://docs.ultralytics.com/models/yolov9/
Основными инновациями YOLOv9 являются Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для решения проблемы потери информации при передаче данных через глубокие сети, гарантируя, что надежная информация о градиенте доступна для точного обновления модели. Это помогает сохранить ключевые функции и улучшает обучение. GELAN — это новая сетевая архитектура, оптимизированная для превосходного использования параметров и вычислительной эффективности. Эта мощная комбинация позволяет YOLOv9 достигать исключительной точности, сохраняя при этом высокую скорость логического вывода.
Ключевым преимуществом YOLOv9 является его интеграция в экосистему Ultralytics. Это обеспечивает оптимизированный пользовательский опыт с простым API, исчерпывающей документацией и надежной сетью поддержки. Экосистема выигрывает от активной разработки, сильного сообщества на таких платформах, как GitHub и Discord, и частых обновлений. Это гарантирует, что разработчики имеют доступ к эффективным процессам обучения, легкодоступным предварительно обученным весам и платформе, которая поддерживает несколько задач, таких как обнаружение объектов и сегментация экземпляров.
Сильные стороны
- Высокая точность: Достигает самых современных показателей mAP на сложных наборах данных, таких как COCO, при этом модель YOLOv9-E устанавливает новый эталон для детекторов реального времени.
- Эффективная архитектура: Архитектура GELAN и PGI приводят к отличной производительности со значительно меньшим количеством параметров и FLOPs по сравнению с моделями с аналогичной точностью.
- Сохранение информации: PGI эффективно смягчает проблему информационного узкого места в глубоких сетях, что приводит к лучшей сходимости и точности модели.
- Экосистема Ultralytics: Преимущества: простота использования, обширная документация, активная поддержка и сильная поддержка сообщества. Он построен на базе PyTorch, самого популярного фреймворка для AI, что делает его очень доступным.
- Универсальность: Архитектура универсальна и поддерживает несколько задач компьютерного зрения, помимо простого обнаружения.
Слабые стороны
- Более новая модель: Будучи недавним релизом, широта примеров, созданных сообществом, и интеграций со сторонними разработчиками все еще растет, хотя ее включение в фреймворк Ultralytics ускоряет внедрение.
- Ресурсы для обучения: Несмотря на эффективность для своего уровня производительности, обучение самых больших вариантов YOLOv9 может потребовать значительных вычислительных ресурсов.
Идеальные варианты использования
YOLOv9 превосходно подходит для приложений, требующих высочайшего уровня точности и эффективности. Это делает его идеальным для сложных задач, таких как автономное вождение, передовые системы безопасности и высокоточная робототехника. Его эффективная конструкция также делает небольшие варианты подходящими для развертывания в периферийных средах искусственного интеллекта с ограниченными ресурсами.
PP-YOLOE+: Высокая точность в экосистеме PaddlePaddle
PP-YOLOE+ — это высокопроизводительный детектор объектов, разработанный Baidu и являющийся ключевой частью их пакета PaddleDetection. Он разработан для обеспечения надежного баланса скорости и точности, но его реализация тесно связана с платформой глубокого обучения PaddlePaddle.
Авторы: Авторы PaddlePaddle
Организация: Baidu
Дата: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/PaddlePaddle/PaddleDetection/
Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
PP-YOLOE+ — это одноступенчатый детектор без привязки к anchor boxes, разработанный на основе предыдущих версий PP-YOLO. Он включает в себя эффективный backbone, часто основанный на CSPRepResNet, и detection head, использующий Task Alignment Learning (TAL) для улучшения классификации и выравнивания локализации. Серия моделей предлагает различные размеры (s, m, l, x) для удовлетворения различных вычислительных бюджетов.
Сильные стороны
- Высокая производительность: Обеспечивает конкурентоспособную точность и скорость, что делает его способной моделью для многих задач обнаружения объектов.
- Оптимизировано для PaddlePaddle: Для команд, уже инвестировавших в экосистему Baidu PaddlePaddle, PP-YOLOE+ предлагает простую интеграцию и оптимизированную производительность.
Слабые стороны
- Зависимость от фреймворка: Ориентация на фреймворк PaddlePaddle может быть существенным барьером для более широкого сообщества, которое преимущественно использует PyTorch. Миграция проектов или интеграция с инструментами на основе PyTorch может быть сложной.
- Ограниченная универсальность: PP-YOLOE+ в основном ориентирован на обнаружение объектов. В отличие от этого, модели Ultralytics, такие как YOLOv8 и YOLO11, предлагают унифицированный фреймворк для нескольких задач, включая сегментацию, оценку позы и классификацию, из коробки.
- Экосистема и поддержка: Экосистема вокруг PP-YOLOE+ менее развита, чем у Ultralytics YOLO. Пользователи могут обнаружить меньше учебных пособий от сообщества, менее отзывчивые каналы поддержки и более медленные обновления по сравнению с активной и поддерживаемой экосистемой Ultralytics.
Идеальные варианты использования
PP-YOLOE+ лучше всего подходит для разработчиков и организаций, которые уже стандартизированы на фреймворке глубокого обучения Baidu PaddlePaddle. Это надежный выбор для стандартных приложений обнаружения объектов, где команда разработчиков имеет существующий опыт работы с PaddlePaddle.
Анализ производительности: YOLOv9 против PP-YOLOE+
При сравнении производительности становится ясно, что YOLOv9 устанавливает более высокий стандарт как для точности, так и для эффективности.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
- Пиковая точность: YOLOv9-E достигает самого высокого mAP, равного 55,6, превосходя самую большую модель PP-YOLOE+x (54,7 mAP) при значительно меньшем количестве параметров (57,3 млн против 98,42 млн).
- Эффективность: YOLOv9 демонстрирует превосходную эффективность параметров по всем направлениям. Например, YOLOv9-C достигает 53.0 mAP всего с 25.3M параметрами, в то время как PP-YOLOE+l требует 52.2M параметров для достижения аналогичного 52.9 mAP. Самая маленькая модель, YOLOv9-T, исключительно легкая, всего с 2.0M параметрами.
- Компромисс между скоростью и точностью: Хотя PP-YOLOE+s демонстрирует самое быстрое время инференса на GPU T4, это достигается за счет точности (43,7 mAP). В отличие от этого, YOLOv9-S обеспечивает гораздо более высокий показатель 46,8 mAP лишь с незначительным увеличением задержки, что представляет собой лучший компромисс для приложений, где важна точность.
Заключение: какую модель вам следует выбрать?
Для подавляющего большинства разработчиков, исследователей и предприятий YOLOv9 — это превосходный выбор. Его современная точность в сочетании с замечательной вычислительной эффективностью и эффективностью параметров устанавливает новый стандарт в обнаружении объектов в реальном времени.
Основное преимущество YOLOv9 заключается не только в его производительности, но и в его интеграции в экосистему Ultralytics. Построенный на широко распространенном фреймворке PyTorch, он предлагает беспрецедентную простоту использования, обширную документацию, универсальность для решения различных задач и активное, поддерживающее сообщество. Эта целостная среда значительно сокращает время разработки и упрощает развертывание и обслуживание.
PP-YOLOE+ — это эффективная модель, но ее ценность в основном ограничивается пользователями, уже работающими в экосистеме Baidu PaddlePaddle. Для тех, кто находится за пределами этой конкретной среды, затраты на внедрение новой платформы и ограничения в универсальности и поддержке сообщества делают ее менее практичным вариантом по сравнению с мощным и доступным решением, предлагаемым Ultralytics YOLOv9.
Другие модели для рассмотрения
Если вы изучаете различные архитектуры, вас также могут заинтересовать другие модели, доступные в экосистеме Ultralytics:
- YOLOv8: Универсальная и сбалансированная модель, отлично подходящая для широкого спектра задач и известная своей скоростью и простотой использования.
- YOLO11: Последняя официальная модель Ultralytics, еще больше расширяющая границы производительности и эффективности.
- RT-DETR: Детектор на основе трансформера, работающий в реальном времени, который предлагает другой архитектурный подход к обнаружению объектов.