PP-YOLOE+ vs YOLOv5: навигация по высокоточной detect и готовности к производству

Выбор оптимальной модели для detectирования объектов часто включает в себя компромисс между необработанными академическими показателями и практическими возможностями развертывания. В этом техническом сравнении рассматриваются PP-YOLOE+, усовершенствованный детектор без привязки к якорям из экосистемы PaddlePaddle, и Ultralytics YOLOv5, отраслевая стандартная модель, известная своим балансом скорости, точности и простоты использования. В то время как PP-YOLOE+ расширяет границы средней точности (mAP), YOLOv5 остается доминирующей силой в приложениях inference в реальном времени благодаря своему беспрецедентному опыту разработки и универсальности развертывания.

PP-YOLOE+: Точная разработка в PaddlePaddle

PP-YOLOE+ — это обновленная версия PP-YOLOE, разработанная исследователями Baidu как часть пакета PaddleDetection. Он разработан как эффективный, современный промышленный детектор объектов с акцентом на задачи высокой точности. Благодаря использованию anchor-free architecture, он упрощает конвейер обучения и уменьшает настройку гиперпараметров, часто связанную с методами на основе anchor.

Авторы: PaddlePaddle Authors
Организация: Baidu
Дата: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/PaddlePaddle/PaddleDetection/
Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Архитектура и инновации

Архитектура PP-YOLOE+ представляет несколько передовых механизмов для улучшения представления признаков и локализации:

Backbone: Использует CSPRepResNet, backbone, который сочетает в себе преимущества потока градиентов сетей Cross Stage Partial (CSP) с техниками повторной параметризации RepVGG.
Head без Anchor: Для разделения задач классификации и регрессии используется эффективная согласованная с задачей Head (ET-Head), что повышает скорость сходимости и точность.
Стратегия обучения: Включает в себя Task Alignment Learning (TAL) для динамического назначения положительных примеров, гарантируя, что прогнозы самого высокого качества будут приоритетными во время обучения.
Функции потерь: Использует VariFocal Loss (VFL) и Distribution Focal Loss (DFL) для обработки дисбаланса классов и повышения точности ограничивающих рамок.

Сильные и слабые стороны

PP-YOLOE+ превосходен в сценариях, где критически важна максимальная accuracy. Его конструкция без anchor устраняет необходимость в кластеризации anchor boxes, что делает его адаптируемым к наборам данных с различными формами объектов. Однако его сильная зависимость от фреймворка PaddlePaddle может стать препятствием для команд, стандартизированных на PyTorch или TensorFlow. Хотя существуют инструменты для преобразования моделей, собственная поддержка экосистемы менее обширна, чем у более универсально принятых фреймворков.

Соображения, касающиеся экосистемы

В то время как PP-YOLOE+ предлагает впечатляющую теоретическую производительность, внедрение часто требует знакомства со специфическим синтаксисом и инструментами развертывания PaddlePaddle, которые могут значительно отличаться от стандартных рабочих процессов PyTorch.

Узнайте больше о PP-YOLOE+

Ultralytics YOLOv5: Глобальный стандарт для Vision AI

Ultralytics YOLOv5, выпущенная Гленном Джохером в 2020 году, коренным образом изменила ландшафт компьютерного зрения, сделав современное detectирование объектов доступным для разработчиков любого уровня подготовки. YOLOv5, изначально созданная на PyTorch, ориентирована на «эффективность обучения» и «простоту использования», обеспечивая простой путь от курирования набора данных до развертывания в рабочей среде.

Авторы: Glenn Jocher
Организация: Ultralytics
Дата: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Документация: https://docs.ultralytics.com/models/yolov5/

Архитектура и ключевые особенности

YOLOv5 использует высокооптимизированную архитектуру, основанную на anchor boxes, которая балансирует глубину и ширину для максимальной пропускной способности:

CSPDarknet Backbone: Конструкция сети Cross Stage Partial минимизирует избыточную информацию о градиенте, повышая способность к обучению при одновременном уменьшении параметров.
PANet Neck: Path Aggregation Network (PANet) улучшает поток информации, помогая модели точно локализовать объекты в разных масштабах.
Аугментация Mosaic: Продвинутая техника аугментации данных, которая объединяет четыре обучающих изображения в одно, значительно улучшая способность модели обнаруживать мелкие объекты и обобщать на новые среды.
Генетические алгоритмы: Автоматизированная эволюция гиперпараметров позволяет модели самостоятельно настраиваться для достижения оптимальной производительности на пользовательских наборах данных.

Сильные стороны и экосистема

YOLOv5 славится своей простотой использования. API интуитивно понятен, что позволяет пользователям загружать модель и запускать inference всего в несколько строк кода на python.

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Помимо кода, хорошо поддерживаемая экосистема выделяет YOLOv5. Пользователи получают выгоду от частых обновлений, огромного форума сообщества и бесшовной интеграции с инструментами MLOps, такими как Comet и ClearML. Универсальность модели выходит за рамки простого detect, поддерживая задачи сегментации экземпляров и классификации изображений в рамках одной и той же структуры. Кроме того, модели YOLOv5 обычно демонстрируют более низкие требования к памяти во время обучения по сравнению с архитектурами на основе трансформеров, что делает их доступными на GPU потребительского класса.

Узнайте больше о YOLOv5

Сравнение технических характеристик

При сравнении двух моделей важно учитывать метрики, которые влияют на реальную полезность, такие как скорость инференса и количество параметров, наряду со стандартными метриками точности, такими как mAP.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Анализ результатов

Точность vs. Скорость: PP-YOLOE+ демонстрирует более высокие показатели mAP, особенно в более крупных вариантах (l и x), благодаря своей head без anchor и стратегии TAL. Однако YOLOv5 предлагает превосходный баланс производительности, обеспечивая высокую конкурентоспособную точность со значительно меньшей задержкой (см. скорости TensorRT). Это делает YOLOv5 особенно подходящим для приложений edge AI, где важна каждая миллисекунда.
Эффективность использования ресурсов: YOLOv5n (Nano) чрезвычайно легкий, всего 2.6M параметров, что делает его идеальным для мобильных устройств и устройств IoT. В то время как PP-YOLOE+ имеет эффективные backbones, архитектурная сложность может привести к большему использованию памяти во время обучения по сравнению с оптимизированной конструкцией YOLOv5.
Эффективность обучения: YOLOv5 использует AutoAnchor и эволюцию гиперпараметров для максимальной производительности с самого начала. Наличие высококачественных предварительно обученных весов позволяет быстро выполнять трансферное обучение, что значительно сокращает время разработки.

Реальные примеры использования

Выбор между этими моделями часто зависит от конкретной среды развертывания.

Приложения PP-YOLOE+

PP-YOLOE+ часто предпочитают в академических исследованиях и промышленных сценариях, особенно на азиатском рынке, где распространена инфраструктура Baidu.

Автоматизированное обнаружение дефектов: Высокая точность помогает выявлять мельчайшие царапины на производственных линиях.
Наблюдение за трафиком: Способна различать схожие типы транспортных средств в плотном транспортном потоке.

Приложения YOLOv5

Универсальность YOLOv5 делает ее оптимальным решением для широкого спектра глобальных отраслей.

Умное сельское хозяйство: Используется для мониторинга здоровья сельскохозяйственных культур в реальном времени и роботов для сбора фруктов благодаря своей скорости на периферийных устройствах.
Аналитика розничной торговли: Обеспечивает работу систем для подсчета объектов и управления запасами, эффективно работающих на серверном оборудовании магазина.
Автономная робототехника: Низкая задержка позволяет дронам и роботам безопасно перемещаться в сложных средах.
Системы безопасности: Легко интегрируется в системы охранной сигнализации для обнаружения вторжений.

Гибкость развертывания

YOLOv5 легко экспортируется во множество форматов, включая ONNX, TensorRT, CoreML и TFLite, с использованием export mode. Это гарантирует, что после обучения модель можно развернуть практически где угодно, от iPhone до облачного сервера.

Заключение

В то время как PP-YOLOE+ представляет собой значительное достижение в обнаружении без привязки с впечатляющей точностью на эталонных тестах, таких как COCO, Ultralytics YOLOv5 остается превосходным выбором для большинства разработчиков и коммерческих приложений. Его выигрышная комбинация простоты использования, надежная экосистема с хорошей поддержкой и отличный баланс производительности гарантирует, что проекты быстро и надежно переходят от концепции к производству.

Для пользователей, которые ищут самые современные технологии компьютерного зрения, Ultralytics также предлагает YOLO11, который развивает наследие YOLOv5 с еще большей эффективностью и возможностями в задачах detect, segment и оценки позы.

Узнать больше

Чтобы изучить современные альтернативы, предлагающие расширенные функции производительности, рассмотрите следующие варианты:

Ultralytics YOLO11: Новейшая современная модель, обеспечивающая передовую точность и скорость.
Ultralytics YOLOv8: Универсальная модель, которая представила унифицированные фреймворки для обнаружения, сегментации и классификации.
RT-DETR: Детектор реального времени на основе трансформера для задач, требующих высокой точности.

Посетите нашу страницу моделей, чтобы ознакомиться с полным спектром решений в области искусственного интеллекта для вашего следующего проекта.