YOLOv6.0 против PP-YOLOE+: Подробное техническое сравнение
Выбор оптимальной модели обнаружения объектов - ключевое решение для разработчиков и инженеров, требующее тщательного баланса между скоростью вывода, точностью и вычислительной эффективностью. В этом комплексном анализе сравниваются YOLOv6.0, детектор промышленного класса, ориентированный на скорость, и PP-YOLOE+, универсальная модель без якорей из экосистемы PaddlePaddle . Мы рассмотрим их архитектурные инновации, показатели производительности и идеальные сценарии развертывания, чтобы помочь вам выбрать лучший инструмент для ваших проектов в области компьютерного зрения.
YOLOv6.0: Создан для промышленной скорости
YOLOv6.0, выпущенный в начале 2023 года исследователями из компании Meituan, разработан специально для промышленных приложений, для которых важна эффективность аппаратного обеспечения и возможность получения выводов в реальном времени. Она опирается на наследие YOLO и содержит агрессивные оптимизации для современных GPU и CPU, направленные на обеспечение максимально возможной пропускной способности без ущерба для возможностей обнаружения.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация:Meituan
- Дата: 13.01.2023
- Arxiv:https://arxiv.org/abs/2301.05586
- GitHub:https://github.com/meituan/YOLOv6
- Документация:https://docs.ultralytics.com/models/yolov6/
Архитектура и ключевые особенности
YOLOv6.0 представляет EfficientRep Backbone и Rep-PAN neck, которые используют репараметризацию для оптимизации структуры сети во время вывода. Это позволяет модели сохранять сложные возможности извлечения признаков во время обучения и сворачиваться в более быструю и простую структуру для развертывания. В модели также используется декомплементарная голова, разделяющая задачи классификации и регрессии для улучшения сходимости. Примечательной особенностью является обучение с помощью якорей (AAT), которое сочетает в себе преимущества парадигм с якорями и без якорей для повышения производительности без снижения скорости вывода.
Удобный дизайн
YOLOv6.0 сильно оптимизирован для квантования моделей, в нем реализованы стратегии обучения с учетом квантования (QAT), которые минимизируют потери точности при преобразовании моделей к точности INT8. Это делает его отличным кандидатом для развертывания на пограничных устройствах, таких как NVIDIA Jetson.
Сильные и слабые стороны
Преимущества:
- Высокоскоростной вывод: Приоритет отдается низкой задержке, что делает его идеальным для высокопроизводительных сред, таких как автоматизация производства.
- Аппаратная оптимизация: Специально настроена для стандартных графических процессоров (например, T4, V100) и поддерживает эффективные конвейеры развертывания.
- Упрощенное развертывание: Перепараметризованная архитектура позволяет сократить объем памяти при выводе.
Слабые стороны:
- Ограниченная поддержка задач: В основном ориентирован на обнаружение объектов, не имеет встроенной поддержки сегментации экземпляров или оценки позы в основном хранилище.
- Масштаб экосистемы: Несмотря на эффективность, сообщество и экосистема инструментов меньше по сравнению с более широкими фреймворками.
PP-YOLOE+: Универсальность Anchor-Free
PP-YOLOE+ - это усовершенствованная версия PP-YOLOE, разработанная компанией Baidu в рамках пакета PaddleDetection. Выпущенная в 2022 году, она использует полностью безъякорную конструкцию, упрощая головку обнаружения и уменьшая количество гиперпараметров. Она призвана обеспечить надежный баланс между точностью и скоростью, используя фреймворк глубокого обучения PaddlePaddle .
- Авторы: Авторы PaddlePaddle
- Организация:Baidu
- Дата: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- Документация:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Архитектура и ключевые особенности
Архитектура PP-YOLOE+ построена на основе CSPRepResNet и использует сеть Path Aggregation Feature Pyramid Network (PAFPN) для многомасштабного объединения функций. Его отличительной особенностью является эффективная голова с выравниванием задач (ET-Head), которая использует обучение выравниванию задач (TAL) для динамического выравнивания качества прогнозов классификации и локализации. Этот подход устраняет необходимость в предопределенных якорных ящиках, упрощая процесс обучения и улучшая обобщение на различных наборах данных.
Сильные и слабые стороны
Преимущества:
- Высокая точность: Часто достигается превосходство над mAP в таких бенчмарках, как COCOособенно при использовании больших вариантов моделей (L и X).
- Простота без якорей: Устраняет сложности, связанные с кластеризацией и настройкой якорных блоков, что облегчает адаптацию к новым наборам данных.
- Уточненные функции потерь: используются Varifocal Loss и Distribution Focal Loss (DFL) для точной регрессии границ.
Слабые стороны:
- Зависимость от фреймворка: Глубоко привязан к фреймворку PaddlePaddle , что может стать проблемой для пользователей, привыкших к PyTorch.
- Ресурсоемкость: Имеет тенденцию к более высокому количеству параметров и FLOP по сравнению с аналогичными вариантами YOLO , что потенциально может повлиять на пригодность краевого ИИ.
Сравнение показателей производительности
В следующей таблице представлены результаты работы YOLOv6.0 и PP-YOLOE+ на валидационном наборе данных COCO . В то время как PP-YOLOE+ расширяет границы точностиmAP), YOLOv6.0 демонстрирует явное преимущество в скорости вывода и вычислительной эффективности (FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Анализ
- Скорость против точности: Модель YOLOv6.0n значительно быстрее (1,17 мс), чем самый маленький вариант PP-YOLOE+ (2,84 мс), что делает ее лучшим выбором для задач, чувствительных к задержкам, таких как робототехника.
- Высокая производительность: Для приложений, где точность критически важна, а аппаратные ресурсы ограничены, PP-YOLOE+x предлагает самый высокий mAP (54,7), хотя и обходится значительными затратами на размер модели (98,42 М параметров).
- Эффективность: Модели YOLOv6.0, как правило, требуют меньшего количества FLOP для достижения сопоставимой производительности, что свидетельствует о высокой эффективности архитектурного дизайна, подходящего для развертывания "умных городов" с ограниченным энергопотреблением.
Преимущество Ultralytics: Почему стоит выбрать YOLO11?
Хотя YOLOv6.0 и PP-YOLOE+ - это способные модели, ландшафт компьютерного зрения быстро развивается. Ultralytics YOLO11 представляет собой передний край этой эволюции, предлагая унифицированное решение, которое устраняет ограничения специализированных промышленных моделей и фреймворк-зависимых инструментов.
Ключевые преимущества для разработчиков
- Непревзойденная универсальность: в отличие от YOLOv6 (ориентированного на обнаружение) или PP-YOLOE+, Ultralytics YOLO11 поддерживает широкий спектр задач -обнаружение объектов, сегментацию объектов, оценку позы, ориентированные ограничительные рамки (OBB) и классификацию изображений - и все этов рамках единого, согласованного API.
- Простота использования и экосистема: Экосистема Ultralytics создана для повышения производительности разработчиков. Благодаря обширной документации, поддержке сообщества и бесшовной интеграции с платформойUltralytics Platform вы можете управлять наборами данных, обучать модели и развертывать решения без особых усилий.
- Эффективность памяти и обучения: YOLO11 оптимизирован для снижения потребления памяти во время обучения по сравнению с моделями на основе трансформаторов (например, RT-DETR) или старыми архитектурами. Это позволяет ускорить циклы обучения на стандартном оборудовании и снизить затраты на облачные вычисления.
- Современная производительность: YOLO11 достигает исключительного баланса скорости и точности, часто превосходя предыдущие поколения и конкурирующие модели в бенчмаркеCOCO с меньшим количеством параметров.
Бесшовная интеграция
Интеграция YOLO11 в ваш рабочий процесс очень проста. Вот простой пример выполнения прогнозов с помощью Python:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Display results
results[0].show()
Гибкое развертывание
Модели Ultralytics можно легко экспортировать в различные форматы, такие как ONNX, TensorRT, CoreML и OpenVINO , с помощью одной команды, обеспечивая оптимальную работу приложения на любом целевом оборудовании.
Заключение
При сравнении YOLOv6.0 и PP-YOLOE+ выбор во многом зависит от ваших конкретных ограничений. YOLOv6.0 - отличный специалист для промышленных условий, требующих высокой скорости и эффективности. PP-YOLOE+ - сильный соперник для исследователей, глубоко погруженных в фреймворк PaddlePaddle и требующих высокой точности.
Однако для подавляющего большинства реальных приложений, требующих гибкости, простоты использования и высочайшей производительности при выполнении множества задач технического зрения, Ultralytics YOLO11 является лучшим выбором. Его надежная экосистема и постоянные усовершенствования обеспечивают перспективность и масштабируемость ваших проектов.
Для дальнейшего ознакомления со сравнением моделей изучите, как YOLO11 выглядит в сравнении с YOLOX или EfficientDet.