PP-YOLOE+ против YOLOv5: изучаем архитектуры обнаружения объектов
Выбирая подходящий фреймворк глубокого обучения для компьютерного зрения, разработчики часто сравнивают возможности различных архитектур, чтобы найти идеальный баланс между скоростью, точностью и простотой развертывания. В этом глубоком обзоре мы рассмотрим технические нюансы PP-YOLOE+ и YOLOv5. Анализируя их архитектуры, показатели производительности и сценарии развертывания, ты сможешь принять обоснованное решение для своего следующего проекта, будь то робототехника реального времени, edge-развертывание или облачная видеоаналитика.
Происхождение и метаданные моделей
Обе модели созданы высококлассными инженерными командами, но ориентированы на несколько разные экосистемы. Понимание их происхождения дает ценный контекст для анализа принятых ими архитектурных решений.
Подробности PP-YOLOE+:
- Авторы: авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: PaddleDetection README
Детали YOLOv5:
- Автор: Гленн Джочер (Glenn Jocher)
- Организация: Ultralytics
- Дата: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Документация: https://docs.ultralytics.com/models/yolov5/
Архитектурное сравнение
Архитектура PP-YOLOE+
PP-YOLOE+ — это эволюционное развитие в рамках экосистемы Baidu, основанное на фундаменте предыдущих моделей, таких как PP-YOLOv2. Она представляет собой глубоко оптимизированный бэкбон CSPRepResNet, который улучшает извлечение признаков путем объединения принципов сетей Cross Stage Partial (CSP) с методами репараметризации. Это позволяет модели поддерживать высокую точность во время обучения, сворачиваясь в более простую архитектуру для ускорения вывода.
Кроме того, PP-YOLOE+ использует Task Alignment Learning (TAL) и Efficient Task-aligned head (ET-head). Эта комбинация направлена на решение проблемы несоответствия между задачами классификации и локализации, что является частым узким местом в детекторах плотных объектов. Несмотря на впечатляющую структуру, архитектура тесно связана с PaddlePaddle framework, что может создать сложности при интеграции для команд, использующих другие популярные библиотеки ML.
Архитектура YOLOv5
В отличие от нее, YOLOv5 была разработана нативно на PyTorch, отраслевом стандарте как для академических исследований, так и для корпоративного производства. Она использует модифицированный бэкбон CSPDarknet53, известный своей исключительной эффективностью потока градиентов и параметров.
Визитной карточкой YOLOv5 является алгоритм AutoAnchor, который динамически проверяет и корректирует размеры анкорных боксов на основе твоего набора данных перед началом обучения. Это избавляет от необходимости ручной настройки гиперпараметров для ограничивающих рамок. Нек (neck) модели, основанный на Path Aggregation Network (PANet), обеспечивает надежное слияние признаков на разных масштабах, что делает ее крайне эффективной для обнаружения объектов самых разных размеров.
Поскольку YOLOv5 построена непосредственно на PyTorch, экспорт в оптимизированные форматы, такие как ONNX и TensorRT, требует значительно меньше промежуточных настроек, чем модели, привязанные к специфическим фреймворкам.
Анализ производительности
Оценка этих моделей требует учета компромисса между средней точностью (mAP) и задержкой. В следующей таблице представлены показатели для разных размеров моделей.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
В то время как PP-YOLOE+ достигает весьма конкурентных показателей mAP на крупных масштабах (таких как вариант X), YOLOv5 обеспечивает превосходную скорость и меньшее количество параметров на более легких моделях. YOLOv5 Nano (YOLOv5n) требует всего 2,6 миллиона параметров, что делает её идеальной для ограниченных edge-устройств с жесткими требованиями к памяти. Кроме того, обучение моделей YOLO обычно потребляет меньше памяти CUDA по сравнению с тяжелыми трансформерными альтернативами, такими как RT-DETR.
Преимущество Ultralytics
При выборе архитектуры одних лишь «сырых» метрик недостаточно. Опыт разработчика, поддержка экосистемы и конвейеры развертывания часто определяют реальный успех проекта. И именно здесь модели Ultralytics проявляют себя лучше всего.
Непревзойденная простота использования
Python API от Ultralytics абстрагирует сложный шаблонный код. Ты можешь легко запускать обучение, проверять производительность и развертывать модели. Документация обширна, постоянно поддерживается и развивается благодаря огромному глобальному сообществу с открытым исходным кодом.
Универсальность в задачах
Хотя PP-YOLOE+ является специализированным детектором объектов, экосистема Ultralytics позволяет пользователям решать несколько задач компьютерного зрения с помощью единого API. Используя YOLOv5 и последующие версии, ты можешь без труда перейти от стандартных ограничивающих рамок к Image Segmentation и рабочим процессам классификации.
Пример кода: Обучение YOLOv5
Чтобы начать, потребуется всего несколько строк кода. Эта простота значительно ускоряет циклы исследований и разработки.
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()Реальные сценарии использования
Когда выбирать PP-YOLOE+: Если твоя организация глубоко интегрирована в стек ПО Baidu или сильно зависит от специализированного оборудования, требующего фреймворк PaddlePaddle, PP-YOLOE+ — надежное решение. Она часто используется в специализированных производственных конвейерах в Азии, где существует историческая интеграция с Paddle.
Когда выбирать YOLOv5: Для подавляющего большинства международных разработчиков, исследователей и предприятий YOLOv5 остается мощным инструментом. Корни в PyTorch означают мгновенную совместимость с такими инструментами, как Weights & Biases для отслеживания экспериментов, а также чистый экспорт в TensorRT для ускорения на графических процессорах NVIDIA или CoreML для устройств Apple. Она отлично справляется с задачами в самых разных областях: от мониторинга сельскохозяйственных культур до высокоскоростной навигации дронов.
Будущее детектирования: Ultralytics YOLO26
Хотя YOLOv5 — легендарная модель, прогресс в компьютерном зрении не стоит на месте. Для всех новых разработок мы настоятельно рекомендуем переходить на YOLO26, выпущенную в январе 2026 года. Доступная через Ultralytics Platform, YOLO26 полностью переопределяет представления об эффективности.
Ключевые инновации в YOLO26:
- Сквозной дизайн без NMS: YOLO26 полностью устраняет пост-обработку методом подавления немаксимумов (Non-Maximum Suppression). Это снижает вариативность задержек и радикально упрощает конвейер развертывания.
- До 43% более быстрый вывод на CPU: За счет стратегического удаления Distribution Focal Loss (DFL) YOLO26 значительно повышает скорость работы на edge-устройствах без GPU.
- Оптимизатор MuSGD: Вдохновленный ведущими большими языковыми моделями, этот гибридный оптимизатор стабилизирует динамику обучения и позволяет достичь гораздо более быстрой сходимости на твоих наборах данных.
- Специфические улучшения задач: Функции включают передовые функции потерь, такие как ProgLoss и STAL, обеспечивающие беспрецедентную точность обнаружения мелких объектов. Она нативно поддерживает Oriented Bounding Box (OBB) для работы с аэрофотоснимками.
Если ты изучаешь самые современные модели компьютерного зрения, тебе также может быть интересно сравнение с предыдущим поколением YOLO11 или трансформерными подходами, такими как RT-DETR. В конечном счете, надежная экосистема в сочетании с передовыми архитектурными достижениями закрепляет за Ultralytics статус главного выбора для современных задач компьютерного зрения.