YOLOv5 против PP-YOLOE+: Техническое сравнение для detectии объектов

Выбор оптимальной модели object detection — это важнейшее решение, которое влияет на эффективность, точность и масштабируемость проектов компьютерного зрения. В этом всестороннем руководстве сравниваются Ultralytics YOLOv5, легендарная модель, известная своей удобством использования и скоростью, с PP-YOLOE+, высокоточной моделью из экосистемы PaddlePaddle от Baidu. Анализируя их архитектуры, показатели производительности и рабочие процессы развертывания, мы стремимся помочь разработчикам и исследователям выбрать лучшее решение для их конкретных потребностей.

Ultralytics YOLOv5: Стандарт удобства использования и скорости

YOLOv5, выпущенная Ultralytics в 2020 году, коренным образом изменила ландшафт vision AI, сделав современную detectию объектов доступной каждому. В отличие от своих предшественников, это была первая модель YOLO, реализованная изначально в PyTorch, что упростило процесс обучения и развертывания для глобального сообщества специалистов по данным. В ее философии проектирования приоритет отдан балансу между скоростью вывода в реальном времени и высокой точностью, заключенному в невероятно удобную экосистему.

Авторы: Гленн Джокер
Организация:Ultralytics
Дата: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Документация:https://docs.ultralytics.com/models/yolov5/

Ключевые преимущества

Простота использования: YOLOv5 славится своим опытом «из коробки». Благодаря оптимизированному Python API и интуитивно понятным командам CLI разработчики могут начать обучение на пользовательских наборах данных за считанные минуты.
Хорошо поддерживаемая экосистема: Поддерживаемый Ultralytics, он получает частые обновления и имеет огромное активное сообщество. Это обеспечивает долгосрочную поддержку и множество общих знаний на таких платформах, как GitHub Issues.
Баланс производительности: Он обеспечивает исключительную скорость инференса в реальном времени, особенно на периферийных устройствах, таких как Raspberry Pi, без ущерба для значительной точности.
Универсальность: Помимо стандартного detect, YOLOv5 поддерживает instance segmentation и image classification, что делает его гибким инструментом для решения различных задач компьютерного зрения.

Узнайте больше о YOLOv5

PP-YOLOE+: Высокая точность в экосистеме Paddle

PP-YOLOE+ — это эволюция серии PP-YOLO, разработанная исследователями Baidu. Выпущенный в 2022 году, он служит флагманской моделью в рамках инструментария PaddleDetection. Он использует архитектуру без anchor и передовые стратегии обучения, чтобы расширить границы точности на эталонных наборах данных, таких как COCO.

Авторы: Авторы PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Документация:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Архитектура и особенности

PP-YOLOE+ использует бэкбон CSPRepResNet и уникальную detection head без прототипов. Являясь детектором без anchor boxes, он снижает сложность настройки гиперпараметров, связанных с anchor boxes. Он превосходен в сценариях, где максимизация Mean Average Precision (mAP) является основной целью, часто достигая несколько более высоких оценок, чем сопоставимые модели на основе anchor boxes, за счет повышенной вычислительной сложности. Однако его зависимость от фреймворка PaddlePaddle может создать кривую обучения для команд, стандартизированных на PyTorch или TensorFlow.

Узнайте больше о PP-YOLOE+

Анализ производительности: Метрики и эффективность

При сравнении YOLOv5 и PP-YOLOE+ компромисс обычно заключается между абсолютной точностью и операционной эффективностью (скоростью и простотой развертывания).

Скорость и точность

Модели PP-YOLOE+ обычно показывают более высокий mAP^val показатели на наборе данных COCO, демонстрирующие их силу в чистой возможности detect. Например, PP-YOLOE+l достигает впечатляющего значения mAP 52.9. Однако это часто сопровождается более высокой задержкой на стандартном оборудовании по сравнению с YOLOv5.

Ultralytics YOLOv5 превосходно проявляет себя в скорость inference. YOLOv5n (Nano) модель невероятно легкая, достигает 28.0 mAP с молниеносной скоростью вывода 1.12 мс на T4 GPU с использованием TensorRT. Это делает YOLOv5 превосходным выбором для edge AI-приложения где критически важна миллисекундная задержка.

Вычислительная эффективность

Модели YOLOv5 разработаны с учетом ограничений по памяти. Они обычно требуют меньше памяти CUDA во время обучения и инференса по сравнению со сложными архитектурами без привязки к якорям или моделями на основе трансформеров. Эта эффективность облегчает более плавное развертывание на оборудовании с ограниченными ресурсами, таком как модули NVIDIA Jetson, без значительных усилий по оптимизации.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Экосистема обучения и удобство использования

«Мягкие» метрики опыта разработчиков часто определяют успех проекта. Здесь разница между двумя моделями наиболее выражена.

Экосистема Ultralytics

YOLOv5 выигрывает от интегрированной экосистемы Ultralytics, которая оптимизирует весь конвейер MLOps.

PyTorch Native: Будучи построенным на PyTorch, обеспечивается совместимость с подавляющим большинством инструментов и библиотек с открытым исходным кодом.
Простая интеграция: Встроенная поддержка Weights & Biases, Comet и ClearML упрощает отслеживание экспериментов.
Эффективность обучения: Предварительно обученные веса легко доступны и автоматически загружаются, что обеспечивает быструю передачу обучения.
Развертывание: Режим экспорта поддерживает преобразование в один клик в ONNX, CoreML, TFLite и другие.

Упрощение рабочего процесса с Ultralytics HUB

Вы можете обучать, просматривать и развертывать модели YOLOv5, не написав ни строчки кода, с помощью Ultralytics HUB. Эта веб-платформа управляет вашими наборами данных и запусками обучения, делая машинное зрение доступным для команд с любым уровнем подготовки.

Экосистема PaddlePaddle

PP-YOLOE+ опирается на PaddlePaddle, фреймворк глубокого обучения Baidu. Будучи мощным и популярным в Азии, он имеет меньшее распространение в западном исследовательском сообществе по сравнению с PyTorch. Применение PP-YOLOE+ часто требует настройки отдельной среды и изучения специфического синтаксиса Paddle (paddle.io, paddle.nn). В то время как документацию является всеобъемлющим, но экосистема сторонних инструментов и поддержка сообщества менее обширна, чем у YOLOv5.

Пример кода: Простота YOLOv5

Следующий код на python демонстрирует, как легко загрузить предварительно обученную модель YOLOv5 и выполнить inference, используя PyTorch Hub.

import torch

# Load a YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image source
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to console
results.print()

# Show the image with bounding boxes
results.show()

Реальные примеры использования

Где превосходит YOLOv5

Промышленная автоматизация: Высокая скорость позволяет detect дефекты в реальном времени на быстро движущихся сборочных линиях.
Автономная робототехника: Низкие требования к памяти делают ее идеальной для роботов с ограниченными вычислительными возможностями, например, используемых в логистике.
Приложения для умного города: Эффективная производительность CPU обеспечивает широкомасштабное развертывание для мониторинга трафика на существующей инфраструктуре.

Где применим PP-YOLOE+

Высокоточные исследования: Академические проекты, в которых выжимание последнего 1% mAP важнее скорости inference.
Paddle-ориентированные среды: Корпоративные среды, уже в значительной степени инвестированные в инфраструктуру экосистемы Baidu.

Заключение: какая модель подходит именно вам?

Для подавляющего большинства разработчиков и коммерческих приложений Ultralytics YOLOv5 остается рекомендуемым выбором. Его беспрецедентная простота использования, надежная поддержка сообщества и гибкость развертывания делают его решением с низким риском и высокой отдачей. Возможность развертывания практически на любой платформе — от мобильных телефонов до облачных серверов — с минимальными трудностями дает ему решающее преимущество в производственных средах.

PP-YOLOE+ — это мощная альтернатива для пользователей, которым конкретно требуется архитектура без привязки к якорям, или для тех, кто уже интегрирован в рабочий процесс PaddlePaddle. Его высокая точность заслуживает похвалы, но фрагментация экосистемы может замедлить разработку для тех, кто привык к стандартным рабочим процессам PyTorch.

Изучите другие модели

Компьютерное зрение развивается стремительными темпами. Хотя сравнение этих устоявшихся моделей имеет ценность, мы рекомендуем вам изучить последние достижения в семействе Ultralytics YOLO, которые предлагают еще большую производительность и функциональность.

YOLO11: Новейшая современная модель, обеспечивающая превосходную точность и эффективность для задач detection, segment и оценки позы.
YOLOv8: Весьма популярный унифицированный фреймворк, поддерживающий задачи OBB и классификации.
RT-DETR: Детектор на основе трансформера, оптимизированный для работы в реальном времени.

Для получения более широкой картины ознакомьтесь с нашей главной страницей сравнения моделей, чтобы сравнить различные архитектуры с вашими конкретными требованиями.