DAMO-YOLO против PP-YOLOE+: подробное техническое сравнение
В условиях жесткой конкуренции в сфере компьютерного зрения в реальном времени выбор оптимальной архитектуры для твоих конкретных задач развертывания имеет решающее значение. Это руководство содержит исчерпывающее техническое сравнение DAMO-YOLO и PP-YOLOE+, глубоко погружаясь в их архитектурные решения, методики обучения и показатели производительности. Мы также рассмотрим, как эти модели соотносятся с современными решениями, такими как недавно выпущенная Ultralytics YOLO26.
Обзор моделей
Оба фреймворка появились в 2022 году как мощные альтернативы для промышленных приложений, используя сложные методы для расширения границ точности и скорости вывода.
DAMO-YOLO
Разработанная Alibaba Group, DAMO-YOLO представила несколько инновационных методов для оптимизации баланса между задержкой и точностью, во многом опираясь на методы автоматизированного поиска и продвинутое слияние признаков.
- Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
- Организация: Alibaba Group
- Дата: 2022-11-23
- Arxiv: DAMO-YOLO: отчет о проектировании детекторов объектов реального времени
- GitHub: tinyvision/DAMO-YOLO
- Документация: README для DAMO-YOLO
DAMO-YOLO использует поиск по многомасштабной архитектуре (MAE-NAS) для автоматического проектирования бэкбонов, оптимизированных для аппаратной эффективности. Она также включает эффективную RepGFPN (репараметризованную обобщенную пирамиду признаков) для слияния признаков в шее и облегченную конструкцию "ZeroHead". Кроме того, модель активно использует методы дистилляции во время обучения для повышения репрезентативной мощности модели-ученика.
PP-YOLOE+
Созданная командой Baidu PaddlePaddle, PP-YOLOE+ является итерационным обновлением архитектуры PP-YOLOE. Она фокусируется на крупномасштабном предварительном обучении и уточненных функциях потерь для обеспечения высокого mAP, особенно в рамках своего собственного фреймворка глубокого обучения.
- Авторы: авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: PP-YOLOE: эволюционировавшая версия YOLO
- GitHub: PaddlePaddle/PaddleDetection
- Документация: Конфигурации PP-YOLOE+
PP-YOLOE+ использует бэкбон CSPRepResNet и ET-head (эффективную голову, согласованную с задачей). Версия "plus" внедряет мощную стратегию предварительного обучения на наборе данных Objects365, что значительно расширяет ее способность к обобщению в различных реальных условиях.
Архитектурное сравнение
Различия в философии проектирования этих двух моделей сильно влияют на их идеальные сценарии использования и аппаратную совместимость.
Слияние признаков и бэкбоны
Бэкбоны DAMO-YOLO, созданные с помощью MAE-NAS, отлично адаптированы для граничных устройств, часто обеспечивая выгодное соотношение скорости к количеству параметров. Однако эти пользовательские архитектуры могут быть жесткими и сложными в адаптации для новых задач, таких как сегментация объектов. Шея RepGFPN улучшает многомасштабное слияние признаков, но добавляет сложности на этапе экспорта репараметризации.
PP-YOLOE+ полагается на более традиционный, но высокоэффективный CSPRepResNet. Хотя этот бэкбон требует большего количества параметров, чем DAMO-YOLO, для достижения аналогичной точности, он очень стабилен в обучении и проще интегрируется в существующие конвейеры. Его ET-head эффективно обрабатывает классификацию и регрессию, но все еще требует шагов постобработки, таких как подавление немаксимумов (NMS).
И DAMO-YOLO, и PP-YOLOE+ требуют NMS для постобработки ограничивающих рамок. Если задержка вывода критична, подумай об использовании Ultralytics YOLO26, которая отличается встроенным сквозным дизайном без NMS. Этот прорывной подход устраняет необходимость в постобработке NMS для более быстрого и простого конвейера развертывания.
Анализ производительности и метрик
При оценке этих моделей для продакшена критически важен баланс между точностью (mAP), скоростью вывода и размером параметров. Ниже приведено прямое сравнение их основных вариантов.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Как показывает таблица, DAMO-YOLO обычно достигает меньшей задержки на малых (s) и крошечных (t) масштабах благодаря своим бэкбонам, оптимизированным с помощью NAS. Однако PP-YOLOE+ невероятно хорошо масштабируется до средних (m) и больших (l) уровней, демонстрируя значительно более высокие показатели mAP, пусть и ценой небольшого снижения скорости T4 TensorRT.
Требования к памяти и эффективность обучения
Зависимость DAMO-YOLO от дистилляции означает, что тебе часто нужно обучать гораздо более крупную модель-учитель перед обучением меньшей модели-ученика. Это значительно увеличивает требования к памяти CUDA и общий вычислительный бюджет. PP-YOLOE+ упрощает это с помощью стандартного одностадийного обучения, но остается жестко связанной с фреймворком PaddlePaddle, что может ограничить гибкость для команд, привыкших к PyTorch.
Напротив, современная модель Ultralytics YOLO26 решает эти проблемы. Используя новый оптимизатор MuSGD — гибрид SGD и Muon, вдохновленный инновациями в обучении LLM, YOLO26 достигает более быстрой сходимости и высокостабильного обучения без необходимости в запутанных конвейерах дистилляции. Кроме того, модели YOLO обычно требуют гораздо меньше памяти CUDA во время обучения по сравнению с детекторами на базе Transformer, такими как RT-DETR.
Реальные приложения и идеальные сценарии использования
Когда использовать DAMO-YOLO
DAMO-YOLO идеально подходит для граничных вычислений с высокой пропускной способностью, где задержка является основным узким местом. Ее маленькие варианты отлично подходят для таких сред, как системы управления трафиком или простое наблюдение с дронов, при условии, что у твоей инженерной команды есть ресурсы для управления сложными процессами дистилляции и репараметризации.
Когда использовать PP-YOLOE+
PP-YOLOE+ сияет, когда ты уже глубоко погружен в экосистему Baidu или запускаешь крупномасштабные серверные развертывания. Ее впечатляющий mAP делает ее подходящей для сложного анализа медицинских изображений или плотного детекции производственных дефектов.
Преимущество Ultralytics
Хотя и DAMO-YOLO, и PP-YOLOE+ предлагают определенные локальные преимущества, разработчики, стремящиеся к максимальной универсальности, скорости и простоте использования, неизменно обращаются к платформе Ultralytics.
При обновлении своего конвейера компьютерного зрения Ultralytics YOLO26 предоставляет непревзойденный опыт разработки:
- До 43% быстрее вывод на CPU: Благодаря полному удалению Distribution Focal Loss (DFL), YOLO26 работает удивительно быстро на граничных CPU и IoT-устройствах с низким энергопотреблением.
- Улучшенная детекция мелких объектов: Интеграция функций потерь ProgLoss и STAL обеспечивает значительные улучшения в распознавании мелких объектов, что жизненно важно для аэрофотосъемки.
- Широкая универсальность: В отличие от PP-YOLOE+, которая фокусируется исключительно на детекции, YOLO26 легко справляется с оценкой позы, ориентированными ограничивающими рамками (OBB) и семантической сегментацией с помощью улучшений архитектуры, специфичных для конкретных задач.
Заключение
DAMO-YOLO и PP-YOLOE+ представляют собой важные вехи в эволюции детекции объектов без использования анкоров. DAMO-YOLO расширила пределы поиска нейронных архитектур для граничных задержек, в то время как PP-YOLOE+ продемонстрировала мощь крупномасштабного предварительного обучения.
Однако для разработчиков, ищущих лучший баланс скорости, точности и простоты развертывания, модель Ultralytics YOLO26 является окончательным выбором. Ее архитектура без NMS, надежный API на Python и бесшовная интеграция с такими инструментами, как Weights & Biases и TensorRT, гарантируют, что твои проекты будут плавно переходить от прототипа к продакшену.
Готов начать? Изучи краткое руководство Ultralytics или сравни больше моделей в нашем обзоре YOLO11 против DAMO-YOLO.