DAMO-YOLO против PP-YOLOE+: подробное техническое сравнение

В условиях жесткой конкуренции в сфере компьютерного зрения в реальном времени выбор оптимальной архитектуры для твоих конкретных задач развертывания имеет решающее значение. Это руководство содержит исчерпывающее техническое сравнение DAMO-YOLO и PP-YOLOE+, глубоко погружаясь в их архитектурные решения, методики обучения и показатели производительности. Мы также рассмотрим, как эти модели соотносятся с современными решениями, такими как недавно выпущенная Ultralytics YOLO26.

Обзор моделей

Оба фреймворка появились в 2022 году как мощные альтернативы для промышленных приложений, используя сложные методы для расширения границ точности и скорости вывода.

DAMO-YOLO

Разработанная Alibaba Group, DAMO-YOLO представила несколько инновационных методов для оптимизации баланса между задержкой и точностью, во многом опираясь на методы автоматизированного поиска и продвинутое слияние признаков.

DAMO-YOLO использует поиск по многомасштабной архитектуре (MAE-NAS) для автоматического проектирования бэкбонов, оптимизированных для аппаратной эффективности. Она также включает эффективную RepGFPN (репараметризованную обобщенную пирамиду признаков) для слияния признаков в шее и облегченную конструкцию "ZeroHead". Кроме того, модель активно использует методы дистилляции во время обучения для повышения репрезентативной мощности модели-ученика.

Узнай больше о DAMO-YOLO

PP-YOLOE+

Созданная командой Baidu PaddlePaddle, PP-YOLOE+ является итерационным обновлением архитектуры PP-YOLOE. Она фокусируется на крупномасштабном предварительном обучении и уточненных функциях потерь для обеспечения высокого mAP, особенно в рамках своего собственного фреймворка глубокого обучения.

PP-YOLOE+ использует бэкбон CSPRepResNet и ET-head (эффективную голову, согласованную с задачей). Версия "plus" внедряет мощную стратегию предварительного обучения на наборе данных Objects365, что значительно расширяет ее способность к обобщению в различных реальных условиях.

Узнай больше о PP-YOLOE+

Архитектурное сравнение

Различия в философии проектирования этих двух моделей сильно влияют на их идеальные сценарии использования и аппаратную совместимость.

Слияние признаков и бэкбоны

Бэкбоны DAMO-YOLO, созданные с помощью MAE-NAS, отлично адаптированы для граничных устройств, часто обеспечивая выгодное соотношение скорости к количеству параметров. Однако эти пользовательские архитектуры могут быть жесткими и сложными в адаптации для новых задач, таких как сегментация объектов. Шея RepGFPN улучшает многомасштабное слияние признаков, но добавляет сложности на этапе экспорта репараметризации.

PP-YOLOE+ полагается на более традиционный, но высокоэффективный CSPRepResNet. Хотя этот бэкбон требует большего количества параметров, чем DAMO-YOLO, для достижения аналогичной точности, он очень стабилен в обучении и проще интегрируется в существующие конвейеры. Его ET-head эффективно обрабатывает классификацию и регрессию, но все еще требует шагов постобработки, таких как подавление немаксимумов (NMS).

Устранение задержек при постобработке

И DAMO-YOLO, и PP-YOLOE+ требуют NMS для постобработки ограничивающих рамок. Если задержка вывода критична, подумай об использовании Ultralytics YOLO26, которая отличается встроенным сквозным дизайном без NMS. Этот прорывной подход устраняет необходимость в постобработке NMS для более быстрого и простого конвейера развертывания.

Анализ производительности и метрик

При оценке этих моделей для продакшена критически важен баланс между точностью (mAP), скоростью вывода и размером параметров. Ниже приведено прямое сравнение их основных вариантов.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Как показывает таблица, DAMO-YOLO обычно достигает меньшей задержки на малых (s) и крошечных (t) масштабах благодаря своим бэкбонам, оптимизированным с помощью NAS. Однако PP-YOLOE+ невероятно хорошо масштабируется до средних (m) и больших (l) уровней, демонстрируя значительно более высокие показатели mAP, пусть и ценой небольшого снижения скорости T4 TensorRT.

Требования к памяти и эффективность обучения

Зависимость DAMO-YOLO от дистилляции означает, что тебе часто нужно обучать гораздо более крупную модель-учитель перед обучением меньшей модели-ученика. Это значительно увеличивает требования к памяти CUDA и общий вычислительный бюджет. PP-YOLOE+ упрощает это с помощью стандартного одностадийного обучения, но остается жестко связанной с фреймворком PaddlePaddle, что может ограничить гибкость для команд, привыкших к PyTorch.

Напротив, современная модель Ultralytics YOLO26 решает эти проблемы. Используя новый оптимизатор MuSGD — гибрид SGD и Muon, вдохновленный инновациями в обучении LLM, YOLO26 достигает более быстрой сходимости и высокостабильного обучения без необходимости в запутанных конвейерах дистилляции. Кроме того, модели YOLO обычно требуют гораздо меньше памяти CUDA во время обучения по сравнению с детекторами на базе Transformer, такими как RT-DETR.

Реальные приложения и идеальные сценарии использования

Когда использовать DAMO-YOLO

DAMO-YOLO идеально подходит для граничных вычислений с высокой пропускной способностью, где задержка является основным узким местом. Ее маленькие варианты отлично подходят для таких сред, как системы управления трафиком или простое наблюдение с дронов, при условии, что у твоей инженерной команды есть ресурсы для управления сложными процессами дистилляции и репараметризации.

Когда использовать PP-YOLOE+

PP-YOLOE+ сияет, когда ты уже глубоко погружен в экосистему Baidu или запускаешь крупномасштабные серверные развертывания. Ее впечатляющий mAP делает ее подходящей для сложного анализа медицинских изображений или плотного детекции производственных дефектов.

Преимущество Ultralytics

Хотя и DAMO-YOLO, и PP-YOLOE+ предлагают определенные локальные преимущества, разработчики, стремящиеся к максимальной универсальности, скорости и простоте использования, неизменно обращаются к платформе Ultralytics.

При обновлении своего конвейера компьютерного зрения Ultralytics YOLO26 предоставляет непревзойденный опыт разработки:

  • До 43% быстрее вывод на CPU: Благодаря полному удалению Distribution Focal Loss (DFL), YOLO26 работает удивительно быстро на граничных CPU и IoT-устройствах с низким энергопотреблением.
  • Улучшенная детекция мелких объектов: Интеграция функций потерь ProgLoss и STAL обеспечивает значительные улучшения в распознавании мелких объектов, что жизненно важно для аэрофотосъемки.
  • Широкая универсальность: В отличие от PP-YOLOE+, которая фокусируется исключительно на детекции, YOLO26 легко справляется с оценкой позы, ориентированными ограничивающими рамками (OBB) и семантической сегментацией с помощью улучшений архитектуры, специфичных для конкретных задач.

Заключение

DAMO-YOLO и PP-YOLOE+ представляют собой важные вехи в эволюции детекции объектов без использования анкоров. DAMO-YOLO расширила пределы поиска нейронных архитектур для граничных задержек, в то время как PP-YOLOE+ продемонстрировала мощь крупномасштабного предварительного обучения.

Однако для разработчиков, ищущих лучший баланс скорости, точности и простоты развертывания, модель Ultralytics YOLO26 является окончательным выбором. Ее архитектура без NMS, надежный API на Python и бесшовная интеграция с такими инструментами, как Weights & Biases и TensorRT, гарантируют, что твои проекты будут плавно переходить от прототипа к продакшену.

Готов начать? Изучи краткое руководство Ultralytics или сравни больше моделей в нашем обзоре YOLO11 против DAMO-YOLO.

Комментарии