PP-YOLOE+ vs DAMO-YOLO: техническое сравнение
Выбор оптимальной модели object detection является ключевым шагом в разработке эффективных приложений компьютерного зрения. Он включает в себя поиск сложных компромиссов между точностью, задержкой inference и аппаратными ограничениями. В этом техническом сравнении рассматриваются две известные модели от азиатских технологических гигантов: PP-YOLOE+, разработанная командой PaddlePaddle от Baidu, и DAMO-YOLO, разработанная Alibaba Group. Обе модели представляют собой значительные успехи в эволюции детекторов реального времени, предлагая уникальные архитектурные инновации и профили производительности.
При анализе этих моделей полезно учитывать более широкий ландшафт vision AI. Такие решения, как Ultralytics YOLO11, предлагают убедительную альтернативу, обеспечивая современную производительность с акцентом на удобство использования и надежную, не зависящую от фреймворка экосистему.
Сравнение метрик производительности
В следующей таблице представлено прямое сравнение ключевых показателей производительности, включая Mean Average Precision (mAP), скорость инференса на GPU T4 с использованием TensorRT, количество параметров и вычислительную сложность (FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+: Улучшенная точность в экосистеме Paddle
PP-YOLOE+ — это усовершенствованная версия PP-YOLOE, представляющая собой флагманский одноэтапный anchor-free detector от Baidu. Выпущенный в 2022 году как часть пакета PaddleDetection, он делает упор на высокую точность detect и глубоко оптимизирован для deep learning фреймворка PaddlePaddle.
Технические детали:
- Авторы: Авторы PaddlePaddle
- Организация:Baidu
- Дата: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- Документация:Документация PP-YOLOE+
Архитектура и основные технологии
PP-YOLOE+ интегрирует несколько передовых компонентов для оптимизации конвейера detect и повышения accuracy.
- Механизм без Anchor: Удаляя предопределенные anchor boxes, модель снижает сложность настройки гиперпараметров и ускоряет сходимость обучения, что наблюдается во многих современных архитектурах.
- CSPRepResNet Backbone: Модель использует backbone CSPRepResNet, который сочетает в себе преимущества градиентного потока сетей Cross Stage Partial (CSP) с эффективностью логического вывода повторно параметризованных блоков ResNet.
- Task Alignment Learning (TAL): Чтобы устранить несоответствие между уверенностью классификации и качеством локализации, PP-YOLOE+ использует TAL. Эта динамическая стратегия назначения меток гарантирует, что прогнозы наивысшего качества будут приоритетными во время обучения.
- Efficient Task-Aligned Head (ET-Head): Разделенная detection head разделяет признаки классификации и регрессии, позволяя оптимизировать каждую задачу независимо, без помех.
Зависимость от экосистемы
PP-YOLOE+ является нативным для PaddlePaddle. Несмотря на высокую эффективность в этой среде, пользователи, знакомые с PyTorch, могут столкнуться с трудностями при переходе и использовании инструментов (таких как paddle2onnx для экспорта) требует дополнительного обучения по сравнению с собственными моделями PyTorch.
Сильные и слабые стороны
Преимущества: PP-YOLOE+ превосходно проявляет себя в сценариях, где приоритетом является высокая точность. Варианты 'medium', 'large' и 'extra-large' демонстрируют надежные показатели mAP на наборе данных COCO, что делает их подходящими для детальных задач инспекции, таких как контроль качества в промышленности.
Слабые стороны:
Основным ограничением является ее привязка к фреймворку. Инструменты, пути развертывания и ресурсы сообщества в основном сосредоточены вокруг PaddlePaddle, что может быть проблемой для команд, работающих в экосистемах PyTorch или TensorFlow. Кроме того, количество параметров для ее небольших моделей (например, s) является чрезвычайно эффективным, но его более крупные модели могут быть вычислительно тяжелыми.
DAMO-YOLO: Инновации, ориентированные на скорость, от Alibaba
DAMO-YOLO, представленный Alibaba Group в конце 2022 года, нацелен на оптимальное сочетание низкой задержки и высокой производительности. Он использует расширенный поиск нейронной архитектуры (NAS) для автоматического обнаружения эффективных структур.
Технические детали:
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 23.11.2022
- Arxiv:https://arxiv.org/abs/2211.15444
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- Документация:Документация DAMO-YOLO
Архитектура и ключевые особенности
DAMO-YOLO характеризуется агрессивной оптимизацией для скорости inference.
- Бэкбон MAE-NAS: Вместо ручного создания экстрактора признаков авторы использовали Method-Aware Efficient NAS для создания бэкбонов с различной глубиной и шириной, оптимизируя их для конкретных вычислительных ресурсов.
- Efficient RepGFPN: Архитектура neck, представляющая собой обобщенную пирамидальную сеть признаков (Generalized Feature Pyramid Network, GFPN), использует репараметризацию для максимальной эффективности слияния признаков при минимизации задержки на оборудовании.
- Технология ZeroHead: Отличительной особенностью является "ZeroHead", которая упрощает финальные слои предсказания, что значительно сокращает количество FLOP, оставляя тяжелую работу на позвоночнике и шее.
- AlignedOTA: Эта стратегия назначения меток согласовывает цели классификации и регрессии, гарантируя, что «положительные» примеры, выбранные во время обучения, наиболее эффективно влияют на итоговые потери.
Сильные и слабые стороны
Преимущества: DAMO-YOLO исключительно быстрая. Ее модели 'tiny' и 'small' предлагают впечатляющую mAP для своей скорости, превосходя многих конкурентов в сценариях вывода в реальном времени. Это делает ее идеальной для приложений периферийного ИИ, где важна миллисекундная задержка, таких как автономные дроны или мониторинг трафика.
Недостатки: Будучи релизом, ориентированным на исследования, DAMO-YOLO может не иметь отлаженных инструментов развертывания и обширной документации, которые есть в более зрелых проектах. Ее зависимость от конкретных структур NAS также может усложнить настройку и тонкую настройку для пользователей, которые хотят изменить архитектуру.
Преимущество Ultralytics: Почему YOLO11 — превосходный выбор
Несмотря на то, что PP-YOLOE+ и DAMO-YOLO предлагают конкурентные функции в своих нишах, Ultralytics YOLO11 выделяется как наиболее сбалансированное, универсальное и удобное для разработчиков решение для современного компьютерного зрения.
Непревзойденная простота использования и экосистема
Ultralytics демократизировала ИИ, уделяя приоритетное внимание пользовательскому опыту. В отличие от исследовательских репозиториев, которые могут потребовать сложной настройки, YOLO11 доступна через простую pip install и интуитивно понятный python API. Экосистема Ultralytics активно поддерживается, обеспечивая совместимость с новейшим оборудованием (например, NVIDIA Jetson, чипы Apple M-series) и библиотеками программного обеспечения.
Оптимальный баланс производительности
YOLO11 разработан для обеспечения современной точности без ущерба для скорости. Он часто соответствует или превосходит точность таких моделей, как PP-YOLOE+, сохраняя при этом эффективность inference, необходимую для приложений реального времени. Этот баланс имеет решающее значение для реальных развертываний, где и точность, и пропускная способность являются обязательными условиями.
Эффективность и универсальность
Одним из ключевых преимуществ моделей Ultralytics является их универсальность. В то время как DAMO-YOLO и PP-YOLOE+ в основном ориентированы на detect объектов, единая архитектура модели YOLO11 поддерживает:
- Обнаружение объектов
- Сегментация экземпляров
- Классификация изображений
- Оценка позы
- Ориентированные ограничивающие рамки (OBB)
Кроме того, YOLO11 оптимизирована для снижения требований к памяти во время обучения и логического вывода по сравнению со многими альтернативами на основе Transformer или более старыми версиями YOLO. Эта эффективность позволяет разработчикам обучать большие размеры пакетов на стандартных GPU и развертывать их на более ограниченных периферийных устройствах.
Эффективность обучения
Благодаря легкодоступным предварительно обученным весам и оптимизированным конвейерам обучения пользователи могут достичь высокой производительности на пользовательских наборах данных с минимальным временем обучения.
Пример: Запуск YOLO11
Развертывание передовых возможностей машинного зрения с помощью Ultralytics — простая задача.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Заключение
PP-YOLOE+ и DAMO-YOLO являются значительным вкладом в область компьютерного зрения. PP-YOLOE+ является сильным кандидатом для пользователей, глубоко интегрированных в экосистему PaddlePaddle, которым требуется высокая точность. DAMO-YOLO предлагает инновационные архитектурные решения для максимального увеличения скорости на периферийных устройствах.
Однако, для подавляющего большинства разработчиков и предприятий Ultralytics YOLO11 остается рекомендуемым выбором. Его сочетание встроенной поддержки PyTorch, многозадачности, превосходной документации и активной поддержки сообщества значительно сокращает время выхода на рынок решений на основе ИИ. Независимо от того, создаете ли вы систему охранной сигнализации или конвейер контроля качества производства, YOLO11 обеспечивает надежность и производительность, необходимые для успеха.