Перейти к содержанию

PP-YOLOE+ vs YOLOv6-3.0: подробное техническое сравнение

Навигация по ландшафту современных архитектур обнаружения объектов часто включает в себя выбор между моделями, оптимизированными для конкретных экосистем фреймворков, и моделями, разработанными для обеспечения высокой скорости в промышленных условиях. В этом всестороннем анализе сравниваются PP-YOLOE+, высокоточный детектор без привязки к якорям из пакета PaddlePaddle, и YOLOv6-3.0, модель, ориентированная на скорость и разработанная Meituan для промышленных приложений реального времени. Изучая их архитектуры, показатели производительности и идеальные варианты использования, разработчики могут определить, какая модель лучше всего соответствует их ограничениям по развертыванию.

PP-YOLOE+: Точность без anchor-ов

PP-YOLOE+ представляет собой эволюцию серии PP-YOLO, разработанную исследователями Baidu для расширения границ точности в рамках экосистемы PaddlePaddle. Выпущенный в начале 2022 года, он фокусируется на дизайне без anchor boxes, чтобы упростить конвейер обучения, обеспечивая при этом современную производительность для задач компьютерного зрения общего назначения.

Авторы: Авторы PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Документация:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Архитектура и Ключевые Инновации

Архитектура PP-YOLOE+ построена на CSPRepResNet backbone, который сочетает в себе возможности извлечения признаков Residual Networks с эффективностью Cross Stage Partial (CSP) соединений. Значительным отклонением от традиционных детекторов является его anchor-free head, который устраняет необходимость в предопределенных anchor boxes. Это уменьшение количества гиперпараметров упрощает конфигурацию модели и улучшает обобщение на различных наборах данных.

Важно отметить, что PP-YOLOE+ использует Task Alignment Learning (TAL) для устранения несоответствия между задачами классификации и локализации — распространенной проблемой в одноэтапных детекторах. Благодаря динамическому назначению меток на основе качества прогнозов, TAL гарантирует, что самые высокие оценки достоверности соответствуют наиболее точным ограничивающим рамкам.

Сильные и слабые стороны

Преимущества:

  • Высокая точность: Постоянно достигает превосходных показателей mAP на эталонных тестах, таких как COCO, особенно в более крупных вариантах модели (например, PP-YOLOE+x).
  • Упрощенное обучение: Безъякорная парадигма устраняет сложность кластерного анализа для определения размеров якорей.
  • Синергия экосистемы: Предлагает глубокую интеграцию для пользователей, уже укоренившихся во фреймворке глубокого обучения PaddlePaddle.

Слабые стороны:

  • Задержка инференса: Обычно демонстрирует более низкую скорость инференса по сравнению с моделями, учитывающими особенности оборудования, такими как YOLOv6, особенно на GPU оборудовании.
  • Зависимость от фреймворка: Перенос моделей в другие фреймворки, такие как PyTorch или ONNX, для развертывания может быть более сложным по сравнению с архитектурами, изначально не зависящими от фреймворка.

Идеальные варианты использования

PP-YOLOE+ часто является предпочтительным выбором, когда точность имеет приоритет над сверхнизкой задержкой.

Узнайте больше о PP-YOLOE+

YOLOv6-3.0: Разработан для промышленной скорости

YOLOv6-3.0 был представлен командой vision AI в Meituan для удовлетворения строгих требований промышленных применений. Приоритизируя компромисс между скоростью inference и точностью, YOLOv6 использует принципы проектирования, учитывающие особенности оборудования, для максимального увеличения пропускной способности на GPU и периферийных устройствах.

Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация:Meituan
Дата: 2023-01-13
ArXiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
Документация:https://docs.ultralytics.com/models/yolov6/

Архитектура и ключевые особенности

YOLOv6-3.0 имеет "Efficient Reparameterization Backbone", вдохновленный RepVGG, который позволяет модели иметь сложную структуру во время обучения для изучения богатых функций, но упрощенную структуру во время inference для скорости. Этот метод репараметризации является ключом к его возможностям real-time inference.

Модель также использует самодистилляцию, когда большая модель-учитель направляет обучение меньшей модели-ученика, повышая точность без увеличения вычислительных затрат во время выполнения. Кроме того, YOLOv6 поддерживает агрессивное квантование модели, что делает ее очень эффективной для развертывания на оборудовании с ограниченными вычислительными ресурсами.

Оптимизация для мобильных устройств

YOLOv6 включает в себя специальную серию моделей «Lite», оптимизированных для мобильных CPU, использующих отдельные блоки для поддержания скорости там, где ускорение GPU недоступно.

Сильные и слабые стороны

Преимущества:

  • Исключительная скорость: Разработан специально для высокой пропускной способности, при этом модель YOLOv6-3.0n достигает задержки менее 2 мс на GPU T4.
  • Аппаратная оптимизация: Архитектура дружественна к оптимизации TensorRT, максимизируя использование GPU.
  • Efficient Scaling: Обеспечивает хороший баланс точности и вычислительных затрат (FLOPs).

Слабые стороны:

  • Ограниченная область задач: В первую очередь предназначен для detection; отсутствует встроенная поддержка сложных задач, таких как оценка позы или ориентированные ограничивающие рамки (OBB).
  • Поддержка сообщества: Несмотря на эффективность, экосистема менее активна в отношении сторонних интеграций и обучающих материалов сообщества по сравнению с моделями Ultralytics.

Идеальные варианты использования

YOLOv6-3.0 превосходен в средах, где время реакции имеет решающее значение.

Узнайте больше о YOLOv6

Сравнение производительности

Различие в философии проектирования — акцент на точность для PP-YOLOE+ и на скорость для YOLOv6 — отчетливо видно в показателях производительности. PP-YOLOE+ обычно демонстрирует более высокие показатели mAP в верхней части диапазона сложности моделей, в то время как YOLOv6 доминирует по скорости логического вывода для небольших и быстрых моделей.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Примечание: Сравнение метрик сильно зависит от конкретного оборудования и используемого формата экспорта (например, ONNX vs. TensorRT).

Данные показывают, что для периферийных приложений с ограниченными ресурсами YOLOv6-3.0n предлагает самый низкий порог входа с точки зрения FLOPs и задержки. И наоборот, для серверных приложений, где требуется максимальная возможность обнаружения, PP-YOLOE+x обеспечивает самый высокий потолок точности.

Преимущество Ultralytics: YOLO11

В то время как PP-YOLOE+ и YOLOv6 предлагают широкие возможности в своих нишах, Ultralytics YOLO11 предоставляет комплексное решение, которое устраняет разрыв между высокой точностью и простотой использования. YOLO11 — это не просто модель, а отправная точка в хорошо поддерживаемую экосистему, предназначенную для оптимизации всего жизненного цикла машинного обучения.

Почему стоит выбрать Ultralytics?

  • Непревзойденная универсальность: В отличие от YOLOv6, который в основном является детектором, YOLO11 изначально поддерживает instance segmentation, оценку позы, obb и classification. Это позволяет разработчикам решать многогранные задачи computer vision с помощью единого API.
  • Простота использования: Python-пакет Ultralytics абстрагирует сложный шаблонный код. Загрузка модели, запуск inference и визуализация результатов могут быть выполнены в три строки кода.
  • Эффективность и память: Модели Ultralytics оптимизированы для эффективного обучения, обычно требуя значительно меньше памяти GPU, чем архитектуры на основе transformer, такие как RT-DETR.
  • Поддержка экосистемы: Благодаря частым обновлениям, обширной документации и таким инструментам, как Ultralytics HUB для обучения без кода, пользователи получают выгоду от платформы, которая развивается вместе с отраслью.

Упрощенное развертывание

Ultralytics уделяет первостепенное внимание доступности. Вы можете немедленно запустить расширенный вывод:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Эта простота распространяется и на развертывание, с возможностями экспорта в один клик в такие форматы, как ONNX, OpenVINO и CoreML, что гарантирует оптимальную работу вашей модели на любом целевом оборудовании.

Узнайте больше о YOLO11

Заключение

Выбор между PP-YOLOE+ и YOLOv6-3.0 во многом зависит от конкретных ограничений вашего проекта. PP-YOLOE+ — надежный претендент для сценариев, требующих высокой точности в рамках фреймворка PaddlePaddle, в то время как YOLOv6-3.0 предлагает убедительные преимущества в скорости для промышленных сред, в значительной степени зависящих от GPU-инференса.

Однако, для разработчиков, ищущих универсальное, перспективное решение, которое сочетает в себе передовую производительность с опытом разработки, Ultralytics YOLO11 остается лучшей рекомендацией. Его широкая поддержка задач, активное сообщество и бесшовная интеграция в современные рабочие процессы MLOps делают его стандартом для передового ИИ в области компьютерного зрения.

Сравнения с другими моделями

Изучите более подробные сравнения, чтобы найти подходящую модель для ваших нужд:


Комментарии