YOLOv6-3.0 против PP-YOLOE+: подробное техническое сравнение

Выбор оптимальной модели object detection — это важнейшее решение для разработчиков и инженеров, требующее тщательного баланса между скоростью inference, точностью и вычислительной эффективностью. В этом всестороннем анализе сравниваются YOLOv6-3.0, детектор промышленного уровня, ориентированный на скорость, и PP-YOLOE+, универсальная модель без привязки к якорям из экосистемы PaddlePaddle. Мы рассмотрим их архитектурные инновации, показатели производительности и идеальные сценарии развертывания, чтобы помочь вам выбрать лучший инструмент для ваших проектов компьютерного зрения.

YOLOv6-3.0: Разработан для промышленной скорости

YOLOv6.0, выпущенный в начале 2023 года исследователями из компании Meituan, разработан специально для промышленных приложений, для которых важна эффективность аппаратного обеспечения и возможность получения выводов в реальном времени. Она опирается на наследие YOLO и содержит агрессивные оптимизации для современных GPU и CPU, направленные на обеспечение максимально возможной пропускной способности без ущерба для возможностей обнаружения.

Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация:Meituan
Дата: 13.01.2023
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
Документация:https://docs.ultralytics.com/models/yolov6/

Архитектура и ключевые особенности

YOLOv6-3.0 представляет EfficientRep Backbone и Rep-PAN neck, которые используют репараметризацию для оптимизации структуры сети во время inference. Это позволяет модели сохранять сложные возможности feature extraction во время обучения, сворачиваясь в более быструю и простую структуру для развертывания. Модель также использует decoupled head, разделяя задачи классификации и регрессии для улучшения сходимости. Примечательной особенностью является Anchor-Aided Training (AAT), который сочетает в себе преимущества парадигм, основанных на anchor и без anchor, для повышения производительности, не влияя на скорость inference.

Аппаратно-ориентированное проектирование

YOLOv6-3.0 в значительной степени оптимизирован для квантования моделей, включая стратегии обучения с учетом квантования (QAT), которые минимизируют потерю точности при преобразовании моделей в точность INT8. Это делает его отличным кандидатом для развертывания на периферийных устройствах, таких как NVIDIA Jetson.

Сильные и слабые стороны

Преимущества:

Высокоскоростной inference: Приоритет низкой задержки, что делает его идеальным для сред с высокой пропускной способностью, таких как автоматизация производства.
Аппаратная оптимизация: Специально настроен для стандартных GPU (например, T4, V100) и поддерживает эффективные конвейеры развертывания.
Упрощенное развертывание: Архитектура с повторной параметризацией снижает накладные расходы на память во время вывода.

Слабые стороны:

Ограниченная поддержка задач: В первую очередь ориентирован на object detection, отсутствует встроенная поддержка instance segmentation или оценки позы в основном репозитории.
Область применения экосистемы: Несмотря на эффективность, сообщество и экосистема инструментов меньше по сравнению с более широкими фреймворками.

Узнайте больше о YOLOv6

PP-YOLOE+: Универсальность Anchor-Free

PP-YOLOE+ — это усовершенствованная версия PP-YOLOE, разработанная Baidu как часть пакета PaddleDetection. Выпущенный в 2022 году, он использует полностью anchor-free дизайн, упрощая структуру head detect и уменьшая количество гиперпараметров. Он направлен на обеспечение надежного баланса между accuracy и скоростью, используя фреймворк глубокого обучения PaddlePaddle.

Авторы: Авторы PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Документация:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Архитектура и ключевые особенности

Архитектура PP-YOLOE+ построена на CSPRepResNet backbone и использует Path Aggregation Feature Pyramid Network (PAFPN) для многомасштабного слияния признаков. Ее выдающейся особенностью является Efficient Task-aligned Head (ET-Head), который использует Task Alignment Learning (TAL) для динамического согласования качества классификации и прогнозов локализации. Этот подход устраняет необходимость в предопределенных anchor boxes, упрощая процесс обучения и улучшая обобщение на различных наборах данных.

Сильные и слабые стороны

Преимущества:

Высокая точность: Часто достигает превосходного mAP на эталонных тестах, таких как COCO, особенно с более крупными вариантами моделей (L и X).
Простота без привязки к якорям: Устраняет сложность кластеризации и настройки anchor box, что упрощает адаптацию к новым наборам данных.
Усовершенствованные функции потерь: использует Varifocal Loss и Distribution Focal Loss (DFL) для точной регрессии ограничивающей рамки.

Слабые стороны:

Зависимость от фреймворка: Глубоко привязан к фреймворку PaddlePaddle, что может создать трудности в обучении для пользователей, привыкших к PyTorch.
Интенсивность использования ресурсов: Как правило, имеет большее количество параметров и FLOPs по сравнению с аналогичными по производительности вариантами YOLO, что потенциально влияет на пригодность для edge AI.

Узнайте больше о PP-YOLOE+

Сравнение метрик производительности

В следующей таблице сравнивается производительность YOLOv6-3.0 и PP-YOLOE+ на COCO validation dataset. В то время как PP-YOLOE+ расширяет границы точности (mAP), YOLOv6-3.0 демонстрирует явное преимущество в скорости инференса и вычислительной эффективности (FLOPs).

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Анализ

Скорость vs. Точность: Модель YOLOv6-3.0n значительно быстрее (1.17 мс), чем самый маленький вариант PP-YOLOE+ (2.84 мс), что делает ее превосходным выбором для задач, чувствительных к задержкам, таких как робототехника.
Высокая производительность: Для приложений, где точность имеет решающее значение и аппаратные ресурсы в изобилии, PP-YOLOE+x предлагает самый высокий mAP (54.7), хотя и со значительными затратами на размер модели (98.42M параметров).
Эффективность: Модели YOLOv6-3.0 обычно требуют меньше FLOPs для сопоставимой производительности, что указывает на высокоэффективную архитектурную конструкцию, подходящую для развертываний умного города с ограниченным энергопотреблением.

Преимущество Ultralytics: Почему стоит выбрать YOLO11?

Хотя YOLOv6-3.0 и PP-YOLOE+ являются способными моделями, ландшафт компьютерного зрения быстро развивается. Ultralytics YOLO11 представляет собой передовой этап этой эволюции, предлагая унифицированное решение, которое устраняет ограничения специализированных промышленных моделей и инструментов, зависящих от фреймворка.

Основные преимущества для разработчиков

Непревзойденная универсальность: в отличие от YOLOv6 (ориентированного на detect) или PP-YOLOE+, Ultralytics YOLO11 поддерживает широкий спектр задач—object detection, instance segmentation, оценка позы, detect объектов с ориентированными ограничивающими рамками (obb) и image classification—все в рамках единого, согласованного API.
Простота использования и экосистема: Экосистема Ultralytics разработана для повышения производительности разработчиков. Благодаря обширной документации, поддержке сообщества и простой интеграции с платформой Ultralytics, вы можете легко управлять наборами данных, обучать модели и развертывать решения.
Эффективность памяти и обучения: YOLO11 оптимизирован для снижения потребления памяти во время обучения по сравнению с моделями на основе трансформеров (такими как RT-DETR) или более старыми архитектурами. Это позволяет ускорить циклы обучения на стандартном оборудовании, снижая затраты на облачные вычисления.
Современная производительность: YOLO11 достигает исключительного баланса скорости и точности, часто превосходя предыдущие поколения и конкурирующие модели в бенчмаркеCOCO с меньшим количеством параметров.

Простая интеграция

Интеграция YOLO11 в ваш рабочий процесс не составит труда. Вот простой пример запуска предсказаний с использованием Python:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display results
results[0].show()

Гибкое развертывание

Модели Ultralytics можно легко экспортировать в различные форматы, такие как ONNX, TensorRT, CoreML и OpenVINO с помощью одной команды, что гарантирует оптимальную работу вашего приложения на любом целевом оборудовании.

Узнайте больше о YOLO11

Заключение

При сравнении YOLOv6-3.0 и PP-YOLOE+ выбор во многом зависит от ваших конкретных ограничений. YOLOv6-3.0 — отличный специалист для промышленных сред, требующих высокой скорости и эффективности. PP-YOLOE+ — сильный претендент для исследователей, глубоко заинтересованных в фреймворке PaddlePaddle и требующих высокой точности.

Однако, для подавляющего большинства реальных приложений, требующих гибкости, простоты использования и первоклассной производительности в различных задачах компьютерного зрения, Ultralytics YOLO11 выделяется как превосходный выбор. Ее надежная экосистема и постоянные улучшения гарантируют, что ваши проекты останутся перспективными и масштабируемыми.

Для получения дополнительной информации о сравнении моделей узнайте, как YOLO11 сопоставляется с YOLOX или EfficientDet.

YOLOv6-3.0 против PP-YOLOE+: подробное техническое сравнение

YOLOv6-3.0: Разработан для промышленной скорости

Архитектура и ключевые особенности

Сильные и слабые стороны

PP-YOLOE+: Универсальность Anchor-Free

Архитектура и ключевые особенности

Сильные и слабые стороны

Сравнение метрик производительности

Анализ

Преимущество Ultralytics: Почему стоит выбрать YOLO11?

Основные преимущества для разработчиков

Простая интеграция

Заключение

Комментарии