PP-YOLOE+ vs YOLOv7: техническое сравнение для обнаружения объектов
Выбор подходящей модели обнаружения объектов — критически важный шаг в любом проекте компьютерного зрения, требующий тщательного баланса между точностью, скоростью и вычислительными ресурсами. На этой странице представлено подробное техническое сравнение между PP-YOLOE+ и YOLOv7 — двумя влиятельными моделями обнаружения объектов. Мы углубимся в их архитектурные решения, эталонные показатели производительности, методологии обучения и идеальные варианты использования, чтобы помочь вам принять обоснованное решение для ваших конкретных потребностей.
PP-YOLOE+: Без привязки к anchor и универсальность
PP-YOLOE+, разработанный авторами PaddlePaddle в Baidu, — это высокопроизводительный детектор без anchor boxes из пакета PaddleDetection. Он опирается на успех своих предшественников, внося улучшения в backbone, neck и head, стремясь к превосходному балансу точности и эффективности.
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Архитектура и Обучение
PP-YOLOE+ отличается архитектурой без привязки к anchor boxes, что упрощает процесс обнаружения, устраняя необходимость в предварительно заданных anchor boxes и связанной с ними настройке гиперпараметров. Такой подход часто приводит к более быстрому обучению и выводу. Модель имеет разделенную голову для задач классификации и локализации, что позволяет каждой ветви изучать более специализированные признаки. Ключевым компонентом является использование VariFocal Loss, типа функции потерь, которая уделяет приоритетное внимание сложным примерам во время обучения, и Task Alignment Learning (TAL) для улучшения согласования признаков между классификацией и локализацией.
Производительность
Как модель без anchor, PP-YOLOE+ обеспечивает надежный компромисс между скоростью и точностью для различных размеров моделей (t, s, m, l, x). Такая масштабируемость позволяет адаптировать ее к различным требованиям к оборудованию и производительности. Модели демонстрируют конкурентоспособные показатели mAP и быстрое время инференса, особенно при ускорении с помощью таких инструментов, как TensorRT, что делает их пригодными для широкого спектра приложений.
Случаи использования
Сбалансированная производительность и конструкция PP-YOLOE+ без anchor делают его отличным выбором для приложений, где требуется надежное обнаружение без ущерба для скорости. Он превосходно справляется со сценариями, такими как контроль качества в промышленности, где он может выявлять дефекты на производственных линиях, и повышение эффективности переработки за счет точной сортировки материалов. Его эффективность позволяет развертывание на различном оборудовании, от мощных серверов до более ограниченных периферийных устройств.
Сильные и слабые стороны
- Преимущества: Anchor-free дизайн упрощает реализацию и уменьшает настройку гиперпараметров. Обеспечивает отличный компромисс между точностью и скоростью и хорошо интегрирована в фреймворк PaddlePaddle.
- Недостатки: Поскольку она в основном разработана для экосистемы PaddlePaddle, для интеграции в другие фреймворки, такие как PyTorch, могут потребоваться дополнительные усилия. Поддержка сообщества, хотя и сильна, может быть менее обширной, чем для более широко используемых моделей, таких как серия Ultralytics YOLO.
YOLOv7: Оптимизировано для скорости и эффективности
YOLOv7, часть известного семейства YOLO, установила новый уровень для детекторов объектов реального времени после своего выпуска. Она фокусируется на обеспечении исключительной скорости и точности благодаря архитектурным оптимизациям и передовым стратегиям обучения.
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 06.07.2022
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Документация: https://docs.ultralytics.com/models/yolov7/
Архитектура и Обучение
YOLOv7 представил несколько архитектурных инноваций, в первую очередь Extended Efficient Layer Aggregation Network (E-ELAN) в своей основе. E-ELAN расширяет возможности сети по обучению, не нарушая градиентный путь, повышая эффективность извлечения признаков. Модель также включает в себя "trainable bag-of-freebies", набор методов обучения, которые повышают точность без увеличения стоимости вывода. К ним относятся репараметризация модели и обучение с управляемым переходом от грубого к точному, как подробно описано в статье YOLOv7.
Производительность
YOLOv7 славится своим выдающимся балансом между скоростью и точностью. Как подчеркивается в его документации, такие модели, как YOLOv7
достигает 51,4% mAP при 161 FPS на GPU V100, значительно превосходя многих современников. Эта высокая эффективность делает его лучшим выбором для приложений, требующих вывод в реальном времени.
Случаи использования
Высокая скорость работы YOLOv7 делает его идеальным для приложений, где критически важна низкая задержка. К ним относятся системы охранной сигнализации, оценка скорости транспортных средств и автономные системы, такие как робототехника. Его эффективность также облегчает развертывание на периферийных платформах, таких как NVIDIA Jetson.
Сильные и слабые стороны
- Преимущества: Современный компромисс между скоростью и точностью. Высокоэффективная архитектура идеально подходит для приложений реального времени и периферийных вычислений. Имеет большую базу пользователей и обширные ресурсы сообщества.
- Недостатки: Как модель, основанная на anchor-box, она может потребовать более тщательной настройки конфигураций anchor-box для достижения оптимальной производительности на пользовательских наборах данных, по сравнению с альтернативами без anchor-box. Несмотря на свою мощность, с тех пор появились новые модели с более интегрированными экосистемами.
Анализ производительности: PP-YOLOE+ в сравнении с YOLOv7
Прямое сравнение показателей производительности выявляет явные преимущества каждой модели. PP-YOLOE+ предлагает более широкий диапазон размеров моделей, что позволяет более детально учитывать компромиссы между точностью и использованием ресурсов. YOLOv7, с другой стороны, расширяет границы производительности в реальном времени.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Из таблицы видно, что PP-YOLOE+x достигает наивысшего mAP, равного 54,7, но за счет более высокой задержки. YOLOv7x представляет собой убедительную альтернативу с несколько более низким mAP, равным 53,1, но более высокой скоростью inference. Меньшие модели PP-YOLOE+, такие как t
и s
, обеспечивают чрезвычайно быстрое логическое заключение, что делает их идеальными для сред с сильно ограниченными ресурсами.
Почему стоит выбрать модели Ultralytics YOLO?
Несмотря на то, что PP-YOLOE+ и YOLOv7 являются мощными моделями, ландшафт обнаружения объектов постоянно развивается. Для разработчиков и исследователей, ищущих самую современную, универсальную и удобную структуру, модели Ultralytics YOLO, такие как YOLOv8 и YOLO11, представляют собой превосходный выбор.
- Простота использования: Модели Ultralytics разработаны с учетом оптимизации работы пользователей и отличаются простым Python API, обширной документацией и понятными командами CLI.
- Хорошо поддерживаемая экосистема: Модели являются частью всесторонней экосистемы с активной разработкой, сильным сообществом с открытым исходным кодом и интеграцией с такими инструментами, как Ultralytics HUB, для простой MLOps.
- Производительность и эффективность: Модели Ultralytics достигают отличного компромисса между скоростью и точностью. Они разработаны для эффективного использования памяти во время обучения и вывода, часто требуя меньше памяти CUDA, чем другие архитектуры.
- Универсальность: Такие модели, как YOLOv8 и YOLO11, являются многозадачными решениями, поддерживающими обнаружение объектов, сегментацию, классификацию, оценку позы и ориентированное обнаружение объектов (OBB) в рамках единой унифицированной структуры.
- Эффективность обучения: Воспользуйтесь преимуществами эффективных процессов обучения, готовых предварительно обученных весов на наборах данных, таких как COCO, и более быстрого времени сходимости.
Заключение
PP-YOLOE+ и YOLOv7 — это грозные модели обнаружения объектов, которые расширили границы возможного. PP-YOLOE+ предлагает масштабируемое и эффективное решение без привязки к якорям, особенно ценное в экосистеме PaddlePaddle. YOLOv7 выделяется своей необработанной скоростью и точностью, что делает его незаменимым для требовательных приложений реального времени.
Однако для разработчиков, ищущих полное и перспективное решение, модели Ultralytics, такие как YOLOv8 и YOLO11, предлагают более привлекательный пакет. Их сочетание современной производительности, простоты использования, многозадачной универсальности и надежной, хорошо поддерживаемой экосистемы делает их идеальным выбором для широкого спектра проектов компьютерного зрения, от академических исследований до производственного развертывания.
Изучите другие модели
Для дальнейшего изучения рассмотрите эти сравнения с участием PP-YOLOE+, YOLOv7 и других ведущих моделей:
- YOLOv7 против YOLOv8
- YOLOv7 против YOLOv5
- RT-DETR против YOLOv7
- PP-YOLOE+ vs. YOLOv8
- YOLOX в сравнении с YOLOv7
- Ознакомьтесь с последними моделями, такими как YOLOv10 и YOLO11.