Link to this sectionPP-YOLOE+ против DAMO-YOLO#
Непрерывная эволюция компьютерного зрения породила множество узкоспециализированных архитектур для обнаружения объектов в реальном времени. При оценке моделей для промышленных и исследовательских задач часто возникают дискуссии вокруг двух известных фреймворков 2022 года: PP-YOLOE+ от Baidu и DAMO-YOLO от Alibaba Group. Обе модели расширили границы детектирования без использования анкоров, представив новые бэкбоны, продвинутые стратегии назначения меток и специализированные методы слияния признаков.
Это руководство содержит подробный технический анализ PP-YOLOE+ и DAMO-YOLO, рассматривающий их архитектуры, методологии обучения и преимущества при развертывании. Мы также рассмотрим, как эти фреймворки соотносятся с современными решениями, такими как Ultralytics YOLO26, чтобы помочь тебе выбрать подходящий инструмент для твоих специфических ограничений при развертывании.
Link to this sectionPP-YOLOE+: Улучшенное промышленное детектирование объектов#
Разработанная в рамках экосистемы Baidu, модель PP-YOLOE+ является итеративным улучшением оригинальной PP-YOLOE, глубоко оптимизированным для фреймворка глубокого обучения PaddlePaddle. Она была спроектирована для достижения максимальной точности и скорости вывода на серверном оборудовании, что делает ее сильным кандидатом для промышленного контроля и решений в области умного ритейла.
Link to this sectionАрхитектурные инновации#
PP-YOLOE+ внедряет несколько архитектурных улучшений по сравнению с предыдущими детекторами без анкоров:
- Бэкбон CSPRepResNet: В этом бэкбоне используется архитектура в стиле RepVGG в сочетании с соединениями Cross Stage Partial (CSP), что обеспечивает отличный баланс между способностью к извлечению признаков и задержкой вывода.
- Task Alignment Learning (TAL): PP-YOLOE+ использует продвинутую стратегию динамического назначения меток, которая выравнивает задачи классификации и регрессии в процессе обучения, сокращая разрыв между результатами обучения и вывода.
- Efficient Task-aligned Head (ET-head): Оптимизированная детектирующая «голова», спроектированная для быстрой обработки признаков без потери пространственного разрешения, что крайне полезно для поддержания высоких метрик mAP.
Подробности PP-YOLOE+:
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 02.04.2022
- Arxiv: 2203.16250
- GitHub: PaddlePaddle/PaddleDetection
- Документация: Документация PP-YOLOE+
Link to this sectionDAMO-YOLO: Поиск нейронных архитектур для Edge-устройств#
Созданная Alibaba DAMO Academy, модель DAMO-YOLO применяет принципиально другой подход. Вместо ручного проектирования бэкбона исследовательская группа использовала поиск нейронных архитектур (NAS) для обнаружения высокоэффективных сетевых топологий, адаптированных под строгие требования к задержке.
Link to this sectionОсновные особенности и пайплайн обучения#
DAMO-YOLO делает упор на низкую задержку и высокую точность с помощью автоматизированной методологии, насыщенной дистилляцией:
- Бэкбоны MAE-NAS: Используя метод автоматизации эффективного поиска нейронных архитектур (Method of Automating Efficient Neural Architecture Search), DAMO-YOLO конструирует бэкбоны, оптимизированные специально для баланса между параметрами и точностью.
- Efficient RepGFPN: Репараметризованная обобщенная пирамида признаков (Generalized Feature Pyramid Network) обеспечивает надежное многомасштабное слияние признаков, что помогает модели обнаруживать объекты сильно различающихся размеров в одном кадре.
- Дизайн ZeroHead: Максимально упрощенная детектирующая «голова», которая значительно снижает вычислительные затраты на этапе вывода.
- Улучшение через дистилляцию: Для повышения производительности более компактных вариантов DAMO-YOLO сильно полагается на сложный процесс дистилляции знаний, в котором более крупная модель-учитель направляет модель-ученика.
Подробности DAMO-YOLO:
- Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
- Организация: Alibaba Group
- Дата: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- Документация: DAMO-YOLO Documentation
Хотя PP-YOLOE+ и DAMO-YOLO предлагают серьезные теоретические инновации, они жестко привязаны к своим фреймворкам (PaddlePaddle и специфические среды Alibaba). Это может создавать трудности при попытке портировать данные модели для стандартизированного облачного или Edge-развертывания.
Link to this sectionАнализ производительности#
При оценке этих моделей баланс между задержкой, вычислительной сложностью (FLOPs) и средним показателем точности (mAP) определяет их идеальную среду развертывания.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO-YOLO обычно достигает меньших задержек при использовании TensorRT на масштабах nano и tiny, что делает ее очень конкурентоспособной для потоков видео с высокой пропускной способностью. Однако PP-YOLOE+ отлично масштабируется до варианта extra-large (x), достигая высочайшей точности для сложных изображений, где время вывода не является приоритетом.
Link to this sectionПреимущество Ultralytics: выход за рамки архитектур 2022 года#
Хотя PP-YOLOE+ и DAMO-YOLO стали важными вехами, современная разработка требует большей универсальности, простых пайплайнов обучения и меньших требований к памяти. Платформа Ultralytics удовлетворяет этим потребностям, предлагая бесшовный опыт, который значительно обходит сложные процессы дистилляции и специфические для фреймворков настройки, требуемые более старыми моделями.
Для разработчиков, стремящихся сегодня достичь наилучшего баланса производительности, Ultralytics YOLO26 обеспечивает революционный скачок в эффективности реального развертывания.
Link to this sectionПочему YOLO26 — лидер индустрии#
Выпущенная в начале 2026 года, YOLO26 развивает наследие YOLO11, внедряя прорывные технологии, адаптированные для продакшена:
- Сквозной дизайн без NMS: YOLO26 исключает постобработку через подавление немаксимумов (NMS). Это упрощает логику развертывания и обеспечивает стабильные, высокопредсказуемые задержки вывода.
- Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей, YOLO26 использует гибридный оптимизатор MuSGD. Это гарантирует невероятно стабильное обучение и быструю сходимость, экономя ценные часы работы GPU.
- Превосходный вывод на CPU: Благодаря удалению Distribution Focal Loss (DFL) и оптимизации графа сети, YOLO26 достигает до 43% более быстрого вывода на CPU, что делает её лучшим выбором для устройств Edge AI.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, что критически важно для работы дронов и дистанционного зондирования.
- Непревзойденная универсальность: В отличие от PP-YOLOE+, которая фокусируется исключительно на детекции, YOLO26 нативно и бесшовно поддерживает оценку позы, сегментацию экземпляров, классификацию изображений и ориентированные ограничивающие рамки (OBB).
Link to this sectionПростота использования и эффективность обучения#
Обучение модели DAMO-YOLO требует управления тяжелым пайплайном дистилляции «учитель-ученик». Напротив, обучение модели Ultralytics требует лишь нескольких строк кода на Python, с минимальным использованием памяти CUDA по сравнению с конкурирующими архитектурами.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")Link to this sectionИдеальные сценарии использования и рекомендации#
Выбор оптимальной архитектуры компьютерного зрения сильно зависит от интеграции в экосистему твоей команды и целей развертывания.
- Выбирай PP-YOLOE+, если твой пайплайн глубоко встроен в экосистему Baidu PaddlePaddle. Это остается отличным выбором для анализа статических изображений на мощных серверах, где главной целью является максимизация точности.
- Выбирай DAMO-YOLO, если ты проводишь специфические исследования алгоритмов поиска нейронных архитектур или если у тебя есть инженерные ресурсы для поддержки сложных пайплайнов дистилляции ради достижения агрессивных целей по задержке в TensorRT.
- Выбирай Ultralytics YOLO26 для почти всех современных производственных сценариев. Экосистема Ultralytics предоставляет непревзойденную документацию, сниженные требования к памяти и упрощенный API. Независимо от того, создаешь ли ты системы автоматизированного контроля качества или запускаешь отслеживание в реальном времени на Raspberry Pi, архитектура YOLO26 без NMS гарантирует быстрые, стабильные и высокоточные результаты «из коробки».
Для разработчиков, изучающих другие передовые решения, документация Ultralytics также предоставляет обширные ресурсы по широко используемой YOLOv8 и надежной YOLO11, гарантируя, что у тебя будет подходящая модель для любой задачи компьютерного зрения.