PP-YOLOE+ vs DAMO-YOLO: техническое сравнение

Выбор оптимальной модели object detection является ключевым шагом в разработке эффективных приложений компьютерного зрения. Он включает в себя поиск сложных компромиссов между точностью, задержкой inference и аппаратными ограничениями. В этом техническом сравнении рассматриваются две известные модели от азиатских технологических гигантов: PP-YOLOE+, разработанная командой PaddlePaddle от Baidu, и DAMO-YOLO, разработанная Alibaba Group. Обе модели представляют собой значительные успехи в эволюции детекторов реального времени, предлагая уникальные архитектурные инновации и профили производительности.

При анализе этих моделей полезно учитывать более широкий ландшафт vision AI. Такие решения, как Ultralytics YOLO11, предлагают убедительную альтернативу, обеспечивая современную производительность с акцентом на удобство использования и надежную, не зависящую от фреймворка экосистему.

Сравнение метрик производительности

В следующей таблице представлено прямое сравнение ключевых показателей производительности, включая Mean Average Precision (mAP), скорость инференса на GPU T4 с использованием TensorRT, количество параметров и вычислительную сложность (FLOPs).

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

PP-YOLOE+: Улучшенная точность в экосистеме Paddle

PP-YOLOE+ — это усовершенствованная версия PP-YOLOE, представляющая собой флагманский одноэтапный anchor-free detector от Baidu. Выпущенный в 2022 году как часть пакета PaddleDetection, он делает упор на высокую точность detect и глубоко оптимизирован для deep learning фреймворка PaddlePaddle.

Технические детали:

Авторы: Авторы PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Документация:Документация PP-YOLOE+

Архитектура и основные технологии

PP-YOLOE+ интегрирует несколько передовых компонентов для оптимизации конвейера detect и повышения accuracy.

Механизм без Anchor: Удаляя предопределенные anchor boxes, модель снижает сложность настройки гиперпараметров и ускоряет сходимость обучения, что наблюдается во многих современных архитектурах.
CSPRepResNet Backbone: Модель использует backbone CSPRepResNet, который сочетает в себе преимущества градиентного потока сетей Cross Stage Partial (CSP) с эффективностью логического вывода повторно параметризованных блоков ResNet.
Task Alignment Learning (TAL): Чтобы устранить несоответствие между уверенностью классификации и качеством локализации, PP-YOLOE+ использует TAL. Эта динамическая стратегия назначения меток гарантирует, что прогнозы наивысшего качества будут приоритетными во время обучения.
Efficient Task-Aligned Head (ET-Head): Разделенная detection head разделяет признаки классификации и регрессии, позволяя оптимизировать каждую задачу независимо, без помех.

Зависимость от экосистемы

PP-YOLOE+ является нативным для PaddlePaddle. Несмотря на высокую эффективность в этой среде, пользователи, знакомые с PyTorch, могут столкнуться с трудностями при переходе и использовании инструментов (таких как paddle2onnx для экспорта) требует дополнительного обучения по сравнению с собственными моделями PyTorch.

Сильные и слабые стороны

Преимущества: PP-YOLOE+ превосходно проявляет себя в сценариях, где приоритетом является высокая точность. Варианты 'medium', 'large' и 'extra-large' демонстрируют надежные показатели mAP на наборе данных COCO, что делает их подходящими для детальных задач инспекции, таких как контроль качества в промышленности.

Слабые стороны: Основным ограничением является ее привязка к фреймворку. Инструменты, пути развертывания и ресурсы сообщества в основном сосредоточены вокруг PaddlePaddle, что может быть проблемой для команд, работающих в экосистемах PyTorch или TensorFlow. Кроме того, количество параметров для ее небольших моделей (например, s) является чрезвычайно эффективным, но его более крупные модели могут быть вычислительно тяжелыми.

Узнайте больше о PP-YOLOE+

DAMO-YOLO: Инновации, ориентированные на скорость, от Alibaba

DAMO-YOLO, представленный Alibaba Group в конце 2022 года, нацелен на оптимальное сочетание низкой задержки и высокой производительности. Он использует расширенный поиск нейронной архитектуры (NAS) для автоматического обнаружения эффективных структур.

Технические детали:

Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
Организация:Alibaba Group
Дата: 23.11.2022
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:https://github.com/tinyvision/DAMO-YOLO
Документация:Документация DAMO-YOLO

Архитектура и ключевые особенности

DAMO-YOLO характеризуется агрессивной оптимизацией для скорости inference.

Бэкбон MAE-NAS: Вместо ручного создания экстрактора признаков авторы использовали Method-Aware Efficient NAS для создания бэкбонов с различной глубиной и шириной, оптимизируя их для конкретных вычислительных ресурсов.
Efficient RepGFPN: Архитектура neck, представляющая собой обобщенную пирамидальную сеть признаков (Generalized Feature Pyramid Network, GFPN), использует репараметризацию для максимальной эффективности слияния признаков при минимизации задержки на оборудовании.
Технология ZeroHead: Отличительной особенностью является "ZeroHead", которая упрощает финальные слои предсказания, что значительно сокращает количество FLOP, оставляя тяжелую работу на позвоночнике и шее.
AlignedOTA: Эта стратегия назначения меток согласовывает цели классификации и регрессии, гарантируя, что «положительные» примеры, выбранные во время обучения, наиболее эффективно влияют на итоговые потери.

Сильные и слабые стороны

Преимущества: DAMO-YOLO исключительно быстрая. Ее модели 'tiny' и 'small' предлагают впечатляющую mAP для своей скорости, превосходя многих конкурентов в сценариях вывода в реальном времени. Это делает ее идеальной для приложений периферийного ИИ, где важна миллисекундная задержка, таких как автономные дроны или мониторинг трафика.

Недостатки: Будучи релизом, ориентированным на исследования, DAMO-YOLO может не иметь отлаженных инструментов развертывания и обширной документации, которые есть в более зрелых проектах. Ее зависимость от конкретных структур NAS также может усложнить настройку и тонкую настройку для пользователей, которые хотят изменить архитектуру.

Узнайте больше о DAMO-YOLO

Преимущество Ultralytics: Почему YOLO11 — превосходный выбор

Несмотря на то, что PP-YOLOE+ и DAMO-YOLO предлагают конкурентные функции в своих нишах, Ultralytics YOLO11 выделяется как наиболее сбалансированное, универсальное и удобное для разработчиков решение для современного компьютерного зрения.

Непревзойденная простота использования и экосистема

Ultralytics демократизировала ИИ, уделяя приоритетное внимание пользовательскому опыту. В отличие от исследовательских репозиториев, которые могут потребовать сложной настройки, YOLO11 доступна через простую pip install и интуитивно понятный python API. Экосистема Ultralytics активно поддерживается, обеспечивая совместимость с новейшим оборудованием (например, NVIDIA Jetson, чипы Apple M-series) и библиотеками программного обеспечения.

Оптимальный баланс производительности

YOLO11 разработан для обеспечения современной точности без ущерба для скорости. Он часто соответствует или превосходит точность таких моделей, как PP-YOLOE+, сохраняя при этом эффективность inference, необходимую для приложений реального времени. Этот баланс имеет решающее значение для реальных развертываний, где и точность, и пропускная способность являются обязательными условиями.

Эффективность и универсальность

Одним из ключевых преимуществ моделей Ultralytics является их универсальность. В то время как DAMO-YOLO и PP-YOLOE+ в основном ориентированы на detect объектов, единая архитектура модели YOLO11 поддерживает:

Кроме того, YOLO11 оптимизирована для снижения требований к памяти во время обучения и логического вывода по сравнению со многими альтернативами на основе Transformer или более старыми версиями YOLO. Эта эффективность позволяет разработчикам обучать большие размеры пакетов на стандартных GPU и развертывать их на более ограниченных периферийных устройствах.

Эффективность обучения

Благодаря легкодоступным предварительно обученным весам и оптимизированным конвейерам обучения пользователи могут достичь высокой производительности на пользовательских наборах данных с минимальным временем обучения.

Пример: Запуск YOLO11

Развертывание передовых возможностей машинного зрения с помощью Ultralytics — простая задача.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Узнайте больше о YOLO11

Заключение

PP-YOLOE+ и DAMO-YOLO являются значительным вкладом в область компьютерного зрения. PP-YOLOE+ является сильным кандидатом для пользователей, глубоко интегрированных в экосистему PaddlePaddle, которым требуется высокая точность. DAMO-YOLO предлагает инновационные архитектурные решения для максимального увеличения скорости на периферийных устройствах.

Однако, для подавляющего большинства разработчиков и предприятий Ultralytics YOLO11 остается рекомендуемым выбором. Его сочетание встроенной поддержки PyTorch, многозадачности, превосходной документации и активной поддержки сообщества значительно сокращает время выхода на рынок решений на основе ИИ. Независимо от того, создаете ли вы систему охранной сигнализации или конвейер контроля качества производства, YOLO11 обеспечивает надежность и производительность, необходимые для успеха.

PP-YOLOE+ vs DAMO-YOLO: техническое сравнение

Сравнение метрик производительности

PP-YOLOE+: Улучшенная точность в экосистеме Paddle

Архитектура и основные технологии

Сильные и слабые стороны

DAMO-YOLO: Инновации, ориентированные на скорость, от Alibaba

Архитектура и ключевые особенности

Сильные и слабые стороны

Преимущество Ultralytics: Почему YOLO11 — превосходный выбор

Непревзойденная простота использования и экосистема

Оптимальный баланс производительности

Эффективность и универсальность

Эффективность обучения

Пример: Запуск YOLO11

Заключение

Комментарии