DAMO-YOLO против PP-YOLOE+: Подробное техническое сравнение
В условиях высококонкурентной среды компьютерного зрения в реальном времени выбор оптимальной архитектуры для ваших конкретных потребностей развертывания имеет решающее значение. Это руководство представляет собой всестороннее техническое сравнение между DAMO-YOLO и PP-YOLOE+, глубоко анализируя их архитектурные проекты, методологии обучения и метрики производительности. Мы также рассмотрим, как эти модели соотносятся с передовыми решениями, такими как недавно выпущенный Ultralytics YOLO26.
Обзоры моделей
Обе архитектуры появились в 2022 году как мощные альтернативы для промышленных приложений, используя сложные методы для расширения границ точности и скорости инференса.
DAMO-YOLO
Разработанный Alibaba Group, DAMO-YOLO представил несколько новых методов для оптимизации компромисса между задержкой и точностью, активно используя автоматизированные методы поиска и продвинутое слияние признаков.
- Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: DAMO-YOLO: Отчет о разработке системы обнаружения объектов в реальном времени
- GitHub: tinyvision/DAMO-YOLO
- Документация: README DAMO-YOLO
DAMO-YOLO использует многомасштабный поиск архитектуры (MAE-NAS) для автоматического проектирования магистральных сетей, оптимизированных для аппаратной эффективности. Он также включает эффективную RepGFPN (репараметризованную обобщенную пирамидальную сеть признаков) для слияния признаков в шейной части и легковесный дизайн "ZeroHead". Кроме того, он активно использует методы дистилляции во время обучения для повышения репрезентативной способности модели-ученика.
PP-YOLOE+
От команды Baidu PaddlePaddle, PP-YOLOE+ представляет собой инкрементальное обновление архитектуры PP-YOLOE. Оно сосредоточено на крупномасштабном предварительном обучении и уточненных функциях потерь для достижения высокого mAP, особенно в рамках своей нативной фреймворка глубокого обучения.
- Авторы: PaddlePaddle Authors
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: PP-YOLOE: Эволюционировавшая версия YOLO
- GitHub: PaddlePaddle/PaddleDetection
- Документация: Конфигурации PP-YOLOE+
PP-YOLOE+ использует основу CSPRepResNet и ET-head (Efficient Task-aligned head). Версия «плюс» представляет мощную стратегию предварительного обучения на наборе данных Objects365, что значительно расширяет ее способность к обобщению в различных реальных условиях.
Архитектурное сравнение
Расхождение в философии проектирования между этими двумя моделями сильно влияет на их идеальные сценарии использования и совместимость с оборудованием.
Слияние признаков и базовые сети
Магистральные модули DAMO-YOLO, сгенерированные MAE-NAS, высоко адаптированы для периферийных устройств, часто обеспечивая благоприятное соотношение скорости к количеству параметров. Однако эти пользовательские архитектуры могут быть жесткими и сложными для адаптации к новым задачам, таким как сегментация экземпляров. Горловина RepGFPN улучшает слияние многомасштабных признаков, но добавляет сложности на этапе экспорта с репараметризацией.
PP-YOLOE+ опирается на более традиционный, но высокоэффективный CSPRepResNet. Хотя этот backbone требует большего количества параметров, чем DAMO-YOLO, для аналогичной точности, он очень стабилен в обучении и легче интегрируется в существующие конвейеры. Его ET-head эффективно обрабатывает классификацию и регрессию, но все еще требует этапов постобработки, таких как Non-Maximum Suppression (NMS).
Устранение задержек постобработки
Как DAMO-YOLO, так и PP-YOLOE+ требуют NMS для постобработки ограничивающих рамок. Если задержка инференса критична, рассмотрите возможность использования Ultralytics YOLO26, которая имеет нативную сквозную безанкерную архитектуру без NMS. Этот прорывной подход исключает постобработку NMS, обеспечивая более быстрый и простой конвейер развертывания.
Анализ производительности и метрик
При оценке этих моделей для производства критически важен баланс между точностью (mAP), скоростью инференса и размером параметров. Ниже приведено прямое сравнение их основных вариантов.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Как иллюстрирует таблица, DAMO-YOLO обычно обеспечивает меньшую задержку на малых (s) и крошечных (t) масштабах благодаря своим NAS-оптимизированным бэкбонам. Однако PP-YOLOE+ невероятно хорошо масштабируется до среднего (m) и большого (l) уровней, демонстрируя значительно более высокие показатели mAP, хотя и с небольшой потерей скорости на T4 TensorRT.
Требования к памяти и эффективность обучения
Зависимость DAMO-YOLO от дистилляции означает, что часто требуется обучить гораздо более крупную модель-учитель перед обучением меньшей модели-ученика. Это значительно увеличивает требования к памяти CUDA и общий вычислительный бюджет. PP-YOLOE+ упрощает это за счет стандартного одностадийного обучения, но остается тесно связанным с фреймворком PaddlePaddle, что может ограничивать гибкость для команд, привыкших к PyTorch.
Напротив, современная модель Ultralytics YOLO26 устраняет эти узкие места. Используя новый оптимизатор MuSGD — гибрид SGD и Muon, вдохновленный инновациями в обучении LLM, — YOLO26 достигает более быстрой сходимости и высокостабильного обучения без необходимости в сложных конвейерах дистилляции. Кроме того, модели YOLO обычно требуют значительно меньше памяти CUDA во время обучения по сравнению с детекторами на основе трансформеров, такими как RT-DETR.
Реальные приложения и идеальные сценарии использования
Когда использовать DAMO-YOLO
DAMO-YOLO идеально подходит для высокопроизводительного инференса на периферийных устройствах, где задержка является основным узким местом. Ее небольшие варианты превосходно работают в таких средах, как системы управления дорожным движением или базовое наблюдение с помощью дронов, при условии, что ваша инженерная команда имеет ресурсы для управления ее сложными процессами дистилляции и репараметризации.
Когда использовать PP-YOLOE+
PP-YOLOE+ проявляет себя наилучшим образом, если вы уже глубоко интегрированы в экосистему Baidu или используете крупномасштабные серверные развертывания. Его впечатляющий mAP делает его подходящим для сложного анализа медицинских изображений или плотного обнаружения производственных дефектов.
Преимущество Ultralytics
Хотя DAMO-YOLO и PP-YOLOE+ предлагают специфические локализованные преимущества, разработчики, стремящиеся к максимальной универсальности, скорости и простоте использования, постоянно обращаются к платформе Ultralytics.
При модернизации вашего конвейера компьютерного зрения Ultralytics YOLO26 обеспечивает беспрецедентный опыт для разработчиков:
- До 43% более быстрая инференция на CPU: Благодаря полному удалению Distribution Focal Loss (DFL) YOLO26 демонстрирует поразительную скорость на периферийных CPU и маломощных IoT-устройствах.
- Улучшенное обнаружение мелких объектов: Интеграция функций потерь ProgLoss и STAL обеспечивает значительные улучшения в распознавании мелких объектов, что крайне важно для аэрофотосъемки.
- Широкая универсальность: В отличие от PP-YOLOE+, который строго ориентирован на detect, YOLO26 легко справляется с оценкой позы, ориентированными ограничивающими рамками (OBB) и семантической сегментацией благодаря архитектурным улучшениям, специфичным для задач.
Заключение
DAMO-YOLO и PP-YOLOE+ представляют собой важные вехи в эволюции безанкерного обнаружения объектов. DAMO-YOLO расширил границы поиска нейронной архитектуры для обеспечения низкой задержки на периферийных устройствах, в то время как PP-YOLOE+ продемонстрировал мощь крупномасштабного предварительного обучения.
Однако для разработчиков, ищущих оптимальный баланс скорости, точности и простоты развертывания, модель Ultralytics YOLO26 является окончательным выбором. Ее архитектура без NMS, надежный Python API и бесшовная интеграция с такими инструментами, как Weights & Biases и TensorRT, гарантируют плавный переход ваших проектов от прототипа к производству.
Готовы начать? Изучите Руководство по быстрому старту Ultralytics или сравните больше моделей в нашем обзоре YOLO11 против DAMO-YOLO.