PP-YOLOE+ против YOLOv9: всестороннее сравнение архитектур обнаружения объектов

Обнаружение объектов в реальном времени продолжает быстро развиваться, а исследователи постоянно расширяют границы точности, задержки и эффективности параметров. Двумя важными вехами на этом пути являются PP-YOLOE+, разработанный PaddlePaddle в Baidu, и YOLOv9, созданный YOLOv7 оригинальной YOLOv7 . В этом сравнении рассматриваются архитектурные инновации, показатели производительности и реалии внедрения этих двух мощных моделей.

Метаданные модели

PP-YOLOE+
Авторы: PaddlePaddle
Организация: Baidu
Дата: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddleDetection Repository
Документация: Официальная PaddleDocs

YOLOv9
Авторы: Чень-Яо Ван и Хун-Юань Марк Ляо
Организация: Институт информационных наук, Академия Синика, Тайвань
Дата: 21.02.2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: YOLOv9
Документация: YOLOv9 Ultralytics YOLOv9

Узнайте больше о YOLOv9

Анализ производительности

При сравнении этих моделей разработчики обычно рассматривают компромисс между mAP (средняя точность) и скоростью инференции. В таблице ниже показано, что в то время как PP-YOLOE+ был передовым детектором без анкоров в 2022 году, YOLOv9 2024) использует более новые архитектурные принципы для достижения превосходной эффективности параметров.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Среди основных выводов можно выделить следующие:

Эффективность параметров: YOLOv9t достигает конкурентоспособной точности с менее чем половиной параметров PP-YOLOE+t (2,0 млн против 4,85 млн), что делает его гораздо более подходящим для периферийных устройств с ограниченным объемом памяти.
Точность при масштабировании: для более крупных моделей YOLOv9e превосходит PP-YOLOE+x по mAP 55,6% против 54,7%), используя при этом значительно меньше параметров (57,3 млн против 98,42 млн).
Скорость: YOLOv9 чрезвычайно высокую скорость вывода на графических процессорах NVIDIA , особенно для меньших вариантов.

Архитектурные различия

PP-YOLOE+: Улучшенное detectирование без anchor-ов

PP-YOLOE+ — это усовершенствованная версия PP-YOLOv2, в которой сделан акцент на парадигме без анкоров. В ней используется базовая структура CSPResNet и упрощенная шейка CSPPAN. Основные особенности:

Task Alignment Learning (TAL): стратегия присвоения меток, которая динамически выбирает положительные образцы на основе комбинации оценок классификации и локализации.
ET-Head: эффективная головка, оптимизированная для выполнения задач, разработанная для обеспечения баланса между скоростью и точностью.
Динамическое сопоставление: повышает скорость сходимости во время обучения по сравнению со статическим назначением якорей.

YOLOv9: Программируемая градиентная информация

YOLOv9 фундаментальные изменения в способ обработки потока данных глубокими сетями. Он решает проблему «информационного бутылочного горлышка», при которой данные теряются при прохождении через глубокие слои.

Архитектура GELAN: обобщенная сеть эффективной агрегации уровней сочетает в себе лучшие черты CSPNet и ELAN для максимального использования параметров.
PGI (Programmable Gradient Information): эта новая концепция использует вспомогательную обратимую ветвь для генерации надежных градиентов для основной ветви, обеспечивая сохранение важной информации о входном изображении в глубоких признаках.
Вспомогательный надзор: аналогично методам, используемым в моделях сегментации, YOLOv9 вспомогательные головки во время обучения для повышения производительности без ущерба для скорости вывода (поскольку эти головки удаляются во время развертывания).

Почему градиентная информация имеет значение

В очень глубоких нейронных сетях исходные входные данные могут быть «забыты» к моменту, когда особенности достигают конечных слоев. PGI YOLOv9 гарантирует, что модель сохраняет полное понимание объекта, что особенно полезно для обнаружения небольших или закрытых объектов в сложных сценах.

Экосистема и простота использования

Наиболее существенное отличие для разработчиков заключается в экосистеме и рабочем процессе.

Преимущество Ultralytics

YOLOv9 полностью YOLOv9 в Ultralytics . Это означает, что вы можете обучать, проверять и развертывать модель, используя тот же простой API, что и для YOLO11 и YOLO26.

Основные преимущества:

Единый API: переключайтесь между задачами, такими как обнаружение объектов и оценка позы, просто изменив файл весов модели.
Автоматизированные MLOps: бесшовная интеграция с Ultralytics позволяет проводить обучение в облаке, управлять наборами данных и развертывать модели одним щелчком мыши.
Эффективность использования памяти: циклы Ultralytics высоко оптимизированы и часто требуют меньше VRAM, чем конкурирующие фреймворки. Это важное преимущество по сравнению со многими моделями на основе трансформаторов, которые требуют огромных вычислительных ресурсов.
Универсальность экспорта: встроенная поддержка экспорта в ONNX, OpenVINO, CoreML и TensorRT , что ваша модель будет работать где угодно.

from ultralytics import YOLO

# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to TensorRT for maximum GPU speed
model.export(format="engine")

Рабочий процесс PP-YOLOE+

PP-YOLOE+ основан на PaddlePaddle . Несмотря на свою мощность, он требует использования специфической экосистемы, которая отличается от рабочего процесса, PyTorch, который предпочитают многие исследователи. Его настройка часто включает клонирование PaddleDetection репозиторий и управление конфигурационными файлами вручную, что может представлять собой более сложный процесс обучения по сравнению с pip install ultralytics опыт.

Сценарии использования и рекомендации

Когда следует придерживаться PP-YOLOE+

Интеграция с существующими системами: если ваша производственная среда уже построена на PaddlePaddle от Baidu.
Специальное оборудование: если вы развертываете на оборудовании, которое имеет специализированную оптимизацию исключительно для Paddle Lite.

Когда выбиратьYOLO Ultralytics YOLO

Для подавляющего большинства новых проектов YOLOv9 или более новая версия YOLO26 являются рекомендуемыми вариантами.

Исследования и разработки: Архитектура PGI в YOLOv9 богатую площадку для исследователей, изучающих градиентный поток.
Коммерческое внедрение: Надежные возможности экспорта в Ultralytics упрощают переход от PyTorch к производственному приложению C++ с использованием TensorRT или OpenVINO.
Edge Computing: Благодаря превосходной эффективности параметров (mAP FLOP), Ultralytics идеально подходят для устройств с батарейным питанием, таких как дроны или интеллектуальные камеры.

Взгляд в будущее: Мощь YOLO26

Хотя YOLOv9 отличной моделью, в этой области произошел дальнейший прогресс с выпуском YOLO26. Если вы сегодня начинаете новый проект, YOLO26 предлагает несколько важных преимуществ по сравнению с PP-YOLOE+ и YOLOv9.

Узнайте больше о YOLO26

YOLO26 представляет собой передовую технологию в области компьютерного зрения:

Полная NMS: в отличие от PP-YOLOE+ и YOLOv9 требуют постобработки с использованием немаксимального подавления (NMS), YOLO26 изначально NMS использует NMS. Это снижает изменчивость задержки и значительно упрощает процессы развертывания.
Оптимизатор MuSGD: Вдохновленный инновациями в области обучения LLM (такими как Kimi K2 от Moonshot AI), YOLO26 использует оптимизатор MuSGD для более быстрой конвергенции и более стабильного выполнения обучения.
Улучшенное обнаружение мелких объектов: благодаря ProgLoss + STAL, YOLO26 превосходно справляется с обнаружением мелких объектов, что традиционно является слабым местом многих детекторов реального времени.
CPU : благодаря устранению Distribution Focal Loss (DFL) и другим оптимизациям YOLO26 достигает до 43% более быстрой CPU , что делает его лучшим выбором для безсерверных сред или пограничных устройств без выделенных NPU.

Обзор

Как PP-YOLOE+, так и YOLOv9 вехами в истории обнаружения объектов. PP-YOLOE+ усовершенствовал подход без анкоров, а YOLOv9 концепции глубокого контроля через PGI. Однако для разработчиков, стремящихся к оптимальному балансу между точностью, простотой использования и перспективным развертыванием, Ultralytics , возглавляемая YOLOv9 и революционным YOLO26— предоставляет наиболее надежное решение.

Узнать больше

Интересуетесь другими архитектурами? Ознакомьтесь с нашими сравнениями RT-DETR (на основе трансформатора) или YOLO11 , чтобы найти идеальное решение для вашего приложения.