PP-YOLOE+ vs DAMO-YOLO: техническое сравнение для обнаружения объектов
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает компромиссы между точностью, скоростью инференса и вычислительными затратами. На этой странице представлено подробное техническое сравнение PP-YOLOE+, разработанной Baidu, и DAMO-YOLO, от Alibaba Group. Мы проанализируем их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь разработчикам и исследователям сделать осознанный выбор для своих проектов в области компьютерного зрения.
PP-YOLOE+: Высокая точность в экосистеме PaddlePaddle
PP-YOLOE+ — это одноступенчатая модель обнаружения объектов без привязки к anchor boxes, разработанная Baidu в рамках их пакета PaddleDetection. Выпущенная в 2022 году, она ориентирована на достижение высокой точности при сохранении разумной эффективности, особенно в рамках фреймворка глубокого обучения PaddlePaddle.
Технические детали:
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: Документация PP-YOLOE+
Архитектура и ключевые особенности
PP-YOLOE+ развивает семейство YOLO, внося несколько ключевых улучшений, направленных на оптимизацию компромисса между точностью и скоростью.
- Anchor-Free Design: Отказ от предопределенных anchor boxes упрощает конвейер обнаружения PP-YOLOE+ и уменьшает сложность настройки гиперпараметров. Этот подход является распространенным в современных детекторах, включая многие модели Ultralytics YOLO. Вы можете узнать больше о детекторах без anchor в нашем глоссарии.
- Эффективные компоненты: Модель использует CSPRepResNet backbone для мощного извлечения признаков и Path Aggregation Network (PAN) neck для эффективного объединения признаков в разных масштабах.
- Decoupled Head (Разделенная голова): Разделяет задачи классификации и регрессии в голове обнаружения, что, как известно, повышает производительность за счет предотвращения интерференции между этими двумя задачами.
- Обучение выравниванию задач (TAL): PP-YOLOE+ использует специализированную функцию потерь для лучшего выравнивания оценок классификации и точности локализации, что приводит к более точным прогнозам.
Сильные и слабые стороны
- Преимущества: PP-YOLOE+ признана за ее высокую точность, особенно в ее более крупных конфигурациях (l, x). Ее дизайн хорошо интегрирован и оптимизирован для экосистемы PaddlePaddle, что делает ее отличным выбором для разработчиков, уже работающих в этом фреймворке.
- Недостатки: Основным ограничением является ее зависимость от фреймворка PaddlePaddle. Пользователи более распространенных фреймворков, таких как PyTorch, могут столкнуться с проблемами при интеграции и развертывании. Кроме того, ее поддержка сообщества и доступные ресурсы могут быть менее обширными, чем у более широко используемых моделей.
Случаи использования
PP-YOLOE+ хорошо подходит для приложений, где высокая точность имеет первостепенное значение, и среда разработки основана на PaddlePaddle. Типичные примеры использования включают:
- Контроль качества в промышленности: Обнаружение незначительных дефектов в производстве.
- Умная розничная торговля: Обеспечение работы таких приложений, как автоматизированное управление запасами.
- Автоматизация переработки: Идентификация различных материалов для автоматизированных систем сортировки.
DAMO-YOLO: Быстрый и точный метод от Alibaba
DAMO-YOLO — это модель обнаружения объектов, разработанная исследователями из Alibaba Group. Представленная в конце 2022 года, она направлена на расширение границ современного уровня в отношении компромисса между скоростью и точностью путем включения нескольких новых методов, от поиска архитектуры сети до передовых стратегий назначения меток.
Технические детали:
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Документация: Документация DAMO-YOLO
Архитектура и ключевые особенности
DAMO-YOLO представляет набор технологий для достижения впечатляющей производительности.
- Neural Architecture Search (NAS): Он использует NAS для поиска оптимальной архитектуры backbone (MAE-NAS), что приводит к созданию высокоэффективного экстрактора признаков.
- Эффективный RepGFPN Neck: Модель включает в себя новую конструкцию neck, RepGFPN, которая разработана для эффективного многомасштабного слияния признаков с низкой задержкой.
- ZeroHead: DAMO-YOLO предлагает "ZeroHead", который значительно снижает вычислительные затраты структуры обнаружения, отделяя ее от neck и дополнительно увеличивая скорость.
- Назначение меток AlignedOTA: Используется динамическая стратегия назначения меток под названием AlignedOTA, которая согласовывает задачи классификации и регрессии для выбора высококачественных положительных выборок во время обучения, что повышает точность.
- Дистилляция знаний: Процесс обучения улучшен с помощью дистилляции знаний для дальнейшего повышения производительности небольших моделей.
Сильные и слабые стороны
- Преимущества: Главным преимуществом DAMO-YOLO является исключительный баланс между скоростью и точностью, особенно для ее небольших моделей. Инновационные компоненты, такие как MAE-NAS и ZeroHead, делают ее одним из самых быстрых детекторов, доступных для заданного уровня mAP.
- Недостатки: Несмотря на свою мощность, DAMO-YOLO — это модель, ориентированная на исследования. Ее реализация может быть менее отлаженной и удобной для пользователя по сравнению с готовыми к производству фреймворками. Экосистема вокруг нее не так всеобъемлюща, что потенциально затрудняет обучение и развертывание для неспециалистов.
Случаи использования
Скорость DAMO-YOLO делает ее отличным кандидатом для приложений, требующих вывод в реальном времени, особенно на оборудовании с ограниченными ресурсами.
- Автономные системы: Подходит для робототехники и дронов, где низкая задержка имеет решающее значение.
- Edge AI: Малые и быстрые модели (t, s) оптимизированы для развертывания на периферийных устройствах, таких как NVIDIA Jetson.
- Видеонаблюдение: Эффективная обработка видеопотоков для таких приложений, как предотвращение краж или мониторинг дорожного движения.
Анализ производительности: PP-YOLOE+ в сравнении с DAMO-YOLO
При сравнении двух моделей мы наблюдаем отчетливые компромиссы. DAMO-YOLO обычно предлагает превосходную скорость для своего размера, в то время как PP-YOLOE+ масштабируется до более высокой точности со своими более крупными вариантами.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Из таблицы видно, что DAMO-YOLOt достигает более высокого mAP (42,0) с более быстрым inference (2,32 мс), чем PP-YOLOE+t (39,9 mAP, 2,84 мс). Однако PP-YOLOE+s более эффективен с точки зрения параметров и FLOPs. В верхнем диапазоне PP-YOLOE+x достигает наивысшей точности (54,7 mAP), но со значительными затратами с точки зрения размера и задержки.
Преимущество Ultralytics: Почему стоит выбрать YOLO11?
Несмотря на то, что PP-YOLOE+ и DAMO-YOLO предлагают убедительные функции, разработчикам, ищущим целостное, высокопроизводительное и удобное решение, следует рассмотреть Ultralytics YOLO11. Она представляет собой кульминацию многолетних исследований и разработок, обеспечивая оптимальное сочетание производительности и удобства использования.
- Простота использования: Модели Ultralytics известны своим оптимизированным пользовательским интерфейсом. Благодаря простому Python API, обширной документации и многочисленным руководствам, начать работу невероятно быстро.
- Хорошо поддерживаемая экосистема: Ultralytics предоставляет всестороннюю экосистему, которая включает активную разработку на GitHub, сильную поддержку сообщества и платформу Ultralytics HUB для обучения, развертывания и управления моделями без кода.
- Баланс производительности: YOLO11 разработан для обеспечения отличного компромисса между скоростью и точностью, что делает его подходящим для широкого спектра реальных сценариев развертывания, от облачных серверов до маломощных периферийных устройств.
- Универсальность: В отличие от специализированных детекторов, модели Ultralytics YOLO — это многозадачные системы. Одна модель YOLO11 может выполнять обнаружение объектов, сегментацию, классификацию и оценку позы, предлагая непревзойденную гибкость.
- Эффективность обучения: Благодаря легкодоступным предварительно обученным весам и эффективному процессу обучения пользователи могут достичь самых современных результатов на пользовательских наборах данных с минимальными усилиями. Модели Ultralytics также оптимизированы для снижения потребления памяти во время обучения и логического вывода по сравнению со многими альтернативами.
Для разработчиков, ищущих надежную, универсальную и простую в использовании модель, другие модели Ultralytics, такие как YOLOv8 и YOLOv10, также предоставляют значительные преимущества по сравнению с PP-YOLOE+ и DAMO-YOLO.
Заключение
PP-YOLOE+ и DAMO-YOLO — мощные модели обнаружения объектов, которые продвинули эту область. PP-YOLOE+ — сильный претендент для пользователей, которые отдают приоритет высокой точности в экосистеме PaddlePaddle. DAMO-YOLO превосходен в обеспечении исключительной скорости, что делает его идеальным для приложений реального времени.
Однако, для большинства разработчиков и исследователей семейство Ultralytics YOLO, особенно последняя версия YOLO11, предлагает наиболее привлекательный пакет. Его сочетание высокой производительности, универсальности в различных задачах компьютерного зрения, простоты использования и поддерживающей, хорошо поддерживаемой экосистемы делает его превосходным выбором для создания решений искусственного интеллекта следующего поколения.