Перейти к содержанию

PP-YOLOE+ vs DAMO-YOLO: техническое сравнение

Выбор оптимальной модели object detection является ключевым шагом в разработке эффективных приложений компьютерного зрения. Он включает в себя поиск сложных компромиссов между точностью, задержкой inference и аппаратными ограничениями. В этом техническом сравнении рассматриваются две известные модели от азиатских технологических гигантов: PP-YOLOE+, разработанная командой PaddlePaddle от Baidu, и DAMO-YOLO, разработанная Alibaba Group. Обе модели представляют собой значительные успехи в эволюции детекторов реального времени, предлагая уникальные архитектурные инновации и профили производительности.

При анализе этих моделей полезно учитывать более широкий ландшафт vision AI. Такие решения, как Ultralytics YOLO11, предлагают убедительную альтернативу, обеспечивая современную производительность с акцентом на удобство использования и надежную, не зависящую от фреймворка экосистему.

Сравнение метрик производительности

В следующей таблице представлено прямое сравнение ключевых показателей производительности, включая Mean Average Precision (mAP), скорость инференса на GPU T4 с использованием TensorRT, количество параметров и вычислительную сложность (FLOPs).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

PP-YOLOE+: Улучшенная точность в экосистеме Paddle

PP-YOLOE+ — это усовершенствованная версия PP-YOLOE, представляющая собой флагманский одноэтапный anchor-free detector от Baidu. Выпущенный в 2022 году как часть пакета PaddleDetection, он делает упор на высокую точность detect и глубоко оптимизирован для deep learning фреймворка PaddlePaddle.

Технические детали:

Архитектура и основные технологии

PP-YOLOE+ интегрирует несколько передовых компонентов для оптимизации конвейера detect и повышения accuracy.

  • Механизм без Anchor: Удаляя предопределенные anchor boxes, модель снижает сложность настройки гиперпараметров и ускоряет сходимость обучения, что наблюдается во многих современных архитектурах.
  • CSPRepResNet Backbone: Модель использует backbone CSPRepResNet, который сочетает в себе преимущества градиентного потока сетей Cross Stage Partial (CSP) с эффективностью логического вывода повторно параметризованных блоков ResNet.
  • Task Alignment Learning (TAL): Чтобы устранить несоответствие между уверенностью классификации и качеством локализации, PP-YOLOE+ использует TAL. Эта динамическая стратегия назначения меток гарантирует, что прогнозы наивысшего качества будут приоритетными во время обучения.
  • Efficient Task-Aligned Head (ET-Head): Разделенная detection head разделяет признаки классификации и регрессии, позволяя оптимизировать каждую задачу независимо, без помех.

Зависимость от экосистемы

PP-YOLOE+ является нативным для PaddlePaddle. Несмотря на высокую эффективность в этой среде, пользователи, знакомые с PyTorch, могут столкнуться с трудностями при переходе и использовании инструментов (таких как paddle2onnx для экспорта) требует дополнительного обучения по сравнению с собственными моделями PyTorch.

Сильные и слабые стороны

Преимущества: PP-YOLOE+ превосходно проявляет себя в сценариях, где приоритетом является высокая точность. Варианты 'medium', 'large' и 'extra-large' демонстрируют надежные показатели mAP на наборе данных COCO, что делает их подходящими для детальных задач инспекции, таких как контроль качества в промышленности.

Слабые стороны: Основным ограничением является ее привязка к фреймворку. Инструменты, пути развертывания и ресурсы сообщества в основном сосредоточены вокруг PaddlePaddle, что может быть проблемой для команд, работающих в экосистемах PyTorch или TensorFlow. Кроме того, количество параметров для ее небольших моделей (например, s) является чрезвычайно эффективным, но его более крупные модели могут быть вычислительно тяжелыми.

Узнайте больше о PP-YOLOE+

DAMO-YOLO: Инновации, ориентированные на скорость, от Alibaba

DAMO-YOLO, представленный Alibaba Group в конце 2022 года, нацелен на оптимальное сочетание низкой задержки и высокой производительности. Он использует расширенный поиск нейронной архитектуры (NAS) для автоматического обнаружения эффективных структур.

Технические детали:

Архитектура и ключевые особенности

DAMO-YOLO характеризуется агрессивной оптимизацией для скорости inference.

  • Бэкбон MAE-NAS: Вместо ручного создания экстрактора признаков авторы использовали Method-Aware Efficient NAS для создания бэкбонов с различной глубиной и шириной, оптимизируя их для конкретных вычислительных ресурсов.
  • Efficient RepGFPN: Архитектура neck, представляющая собой обобщенную пирамидальную сеть признаков (Generalized Feature Pyramid Network, GFPN), использует репараметризацию для максимальной эффективности слияния признаков при минимизации задержки на оборудовании.
  • Технология ZeroHead: Отличительной особенностью является "ZeroHead", которая упрощает финальные слои предсказания, что значительно сокращает количество FLOP, оставляя тяжелую работу на позвоночнике и шее.
  • AlignedOTA: Эта стратегия назначения меток согласовывает цели классификации и регрессии, гарантируя, что «положительные» примеры, выбранные во время обучения, наиболее эффективно влияют на итоговые потери.

Сильные и слабые стороны

Преимущества: DAMO-YOLO исключительно быстрая. Ее модели 'tiny' и 'small' предлагают впечатляющую mAP для своей скорости, превосходя многих конкурентов в сценариях вывода в реальном времени. Это делает ее идеальной для приложений периферийного ИИ, где важна миллисекундная задержка, таких как автономные дроны или мониторинг трафика.

Недостатки: Будучи релизом, ориентированным на исследования, DAMO-YOLO может не иметь отлаженных инструментов развертывания и обширной документации, которые есть в более зрелых проектах. Ее зависимость от конкретных структур NAS также может усложнить настройку и тонкую настройку для пользователей, которые хотят изменить архитектуру.

Узнайте больше о DAMO-YOLO

Преимущество Ultralytics: Почему YOLO11 — превосходный выбор

Несмотря на то, что PP-YOLOE+ и DAMO-YOLO предлагают конкурентные функции в своих нишах, Ultralytics YOLO11 выделяется как наиболее сбалансированное, универсальное и удобное для разработчиков решение для современного компьютерного зрения.

Непревзойденная простота использования и экосистема

Ultralytics демократизировала ИИ, уделяя приоритетное внимание пользовательскому опыту. В отличие от исследовательских репозиториев, которые могут потребовать сложной настройки, YOLO11 доступна через простую pip install и интуитивно понятный python API. Экосистема Ultralytics активно поддерживается, обеспечивая совместимость с новейшим оборудованием (например, NVIDIA Jetson, чипы Apple M-series) и библиотеками программного обеспечения.

Оптимальный баланс производительности

YOLO11 разработан для обеспечения современной точности без ущерба для скорости. Он часто соответствует или превосходит точность таких моделей, как PP-YOLOE+, сохраняя при этом эффективность inference, необходимую для приложений реального времени. Этот баланс имеет решающее значение для реальных развертываний, где и точность, и пропускная способность являются обязательными условиями.

Эффективность и универсальность

Одним из ключевых преимуществ моделей Ultralytics является их универсальность. В то время как DAMO-YOLO и PP-YOLOE+ в основном ориентированы на detect объектов, единая архитектура модели YOLO11 поддерживает:

Кроме того, YOLO11 оптимизирована для снижения требований к памяти во время обучения и логического вывода по сравнению со многими альтернативами на основе Transformer или более старыми версиями YOLO. Эта эффективность позволяет разработчикам обучать большие размеры пакетов на стандартных GPU и развертывать их на более ограниченных периферийных устройствах.

Эффективность обучения

Благодаря легкодоступным предварительно обученным весам и оптимизированным конвейерам обучения пользователи могут достичь высокой производительности на пользовательских наборах данных с минимальным временем обучения.

Пример: Запуск YOLO11

Развертывание передовых возможностей машинного зрения с помощью Ultralytics — простая задача.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Узнайте больше о YOLO11

Заключение

PP-YOLOE+ и DAMO-YOLO являются значительным вкладом в область компьютерного зрения. PP-YOLOE+ является сильным кандидатом для пользователей, глубоко интегрированных в экосистему PaddlePaddle, которым требуется высокая точность. DAMO-YOLO предлагает инновационные архитектурные решения для максимального увеличения скорости на периферийных устройствах.

Однако, для подавляющего большинства разработчиков и предприятий Ultralytics YOLO11 остается рекомендуемым выбором. Его сочетание встроенной поддержки PyTorch, многозадачности, превосходной документации и активной поддержки сообщества значительно сокращает время выхода на рынок решений на основе ИИ. Независимо от того, создаете ли вы систему охранной сигнализации или конвейер контроля качества производства, YOLO11 обеспечивает надежность и производительность, необходимые для успеха.


Комментарии