PP-YOLOE+ vs YOLO11: техническое сравнение для обнаружения объектов
Выбор оптимальной модели обнаружения объектов — это критически важное решение, которое балансирует между точностью, скоростью и ограничениями развертывания. На этой странице представлено подробное техническое сравнение PP-YOLOE+, мощной модели из экосистемы PaddlePaddle от Baidu, и Ultralytics YOLO11, новейшей современной модели от Ultralytics. Хотя обе модели демонстрируют высокую производительность, YOLO11 выделяется своей превосходной эффективностью, универсальностью и удобной экосистемой, что делает ее рекомендуемым выбором для широкого спектра современных приложений компьютерного зрения.
PP-YOLOE+: Высокая точность в экосистеме PaddlePaddle
PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus) — это модель обнаружения объектов, разработанная Baidu в рамках их пакета PaddleDetection. Выпущенная в 2022 году, она фокусируется на достижении высокой точности при сохранении разумной эффективности, особенно в рамках платформы глубокого обучения PaddlePaddle.
Технические детали:
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Архитектура и ключевые особенности
PP-YOLOE+ — это детектор без anchor boxes, одноэтапный детектор, который основан на архитектуре YOLO с несколькими ключевыми улучшениями. Его конструкция направлена на улучшение компромисса между скоростью и точностью.
- Дизайн без Anchor: Устраняя предопределенные anchor boxes, модель упрощает конвейер обнаружения и снижает сложность настройки гиперпараметров.
- Эффективные компоненты: Архитектура часто использует backbones, такие как CSPRepResNet, и Path Aggregation Network (PAN) neck для эффективного объединения признаков.
- Обучение выравниванию задач (TAL): Использует специализированную функцию потерь и стратегию назначения меток для лучшего выравнивания задач классификации и локализации, что помогает повысить общую точность обнаружения.
- Интеграция PaddlePaddle: Модель глубоко интегрирована и оптимизирована для фреймворка PaddlePaddle, что делает ее естественным выбором для разработчиков, уже работающих в этой экосистеме.
Сильные и слабые стороны
Преимущества:
- Высокая точность: Модели PP-YOLOE+, особенно более крупные варианты, достигают конкурентоспособных показателей mAP на стандартных эталонных наборах данных, таких как набор данных COCO.
- Эффективная структура без привязки к якорям: Конструкция головки обнаружения оптимизирована для эффективности.
Слабые стороны:
- Зависимость от фреймворка: Основная оптимизация для PaddlePaddle может быть ограничением для большого сообщества разработчиков, использующих PyTorch, что требует преобразования фреймворка и потенциально приводит к потере оптимизации производительности.
- Более высокое использование ресурсов: Как показано в таблице производительности, модели PP-YOLOE+ обычно имеют большее количество параметров и больше FLOPs по сравнению с моделями YOLO11 при аналогичных уровнях точности, что приводит к большим вычислительным затратам.
- Ограниченная универсальность: PP-YOLOE+ в основном ориентирован на обнаружение объектов, тогда как другие современные фреймворки предлагают встроенную поддержку для более широкого спектра задач компьютерного зрения.
Ultralytics YOLO11: Современная производительность и универсальность
Ultralytics YOLO11 — это последняя эволюция в серии YOLO, разработанная Гленном Джохером и Цзин Цю в Ultralytics. Выпущенный в 2024 году, он устанавливает новый стандарт для обнаружения объектов в реальном времени, обеспечивая исключительный баланс скорости, точности и эффективности. Он разработан с нуля, чтобы быть универсальным, простым в использовании и развертываемым на широком спектре оборудования.
Технические детали:
- Авторы: Гленн Джохер, Цзин Цю
- Организация: Ultralytics
- Дата: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: https://docs.ultralytics.com/models/yolo11/
Архитектура и ключевые особенности
YOLO11 опирается на успешную основу своих предшественников, таких как YOLOv8, с усовершенствованной архитектурой, которая повышает извлечение признаков и скорость обработки.
- Оптимизированная архитектура: YOLO11 имеет оптимизированную структуру сети, которая обеспечивает более высокую точность при значительно меньшем количестве параметров и меньшем количестве операций с плавающей запятой, чем у конкурентов, таких как PP-YOLOE+. Эта эффективность имеет решающее значение для вывода в реальном времени и развертывания на периферийных устройствах с ограниченными ресурсами.
- Универсальность: Ключевым преимуществом YOLO11 является его встроенная поддержка нескольких задач компьютерного зрения в рамках единого унифицированного фреймворка. Это включает в себя обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB).
- Простота использования: YOLO11 является частью хорошо поддерживаемой экосистемы Ultralytics, которая уделяет первостепенное внимание удобству использования. Она предлагает простой Python API и CLI, исчерпывающую документацию и легкодоступные предварительно обученные веса.
- Эффективность обучения: Модель разработана для более быстрого времени обучения и требует меньше памяти, что делает современный ИИ более доступным для разработчиков и исследователей. Это контрастирует с другими типами моделей, такими как трансформеры, которые часто медленнее в обучении и требуют больше вычислительных ресурсов.
- Активная экосистема: Пользователи получают выгоду от активной разработки, сильной поддержки сообщества через GitHub и Discord, а также бесшовной интеграции с такими инструментами, как Ultralytics HUB для комплексного MLOps.
Сильные и слабые стороны
Преимущества:
- Превосходный баланс производительности: Предлагает отличный компромисс между скоростью и точностью для всех размеров моделей.
- Вычислительная эффективность: Меньшее количество параметров и FLOPs приводит к более быстрому инференсу и снижению требований к аппаратному обеспечению.
- Поддержка нескольких задач: Непревзойденная универсальность со встроенной поддержкой пяти основных задач компьютерного зрения.
- Удобная экосистема: Легкость установки, обучения и развертывания, подкрепленная обширными ресурсами и сильным сообществом.
- Deployment Flexibility (Гибкость развертывания): Оптимизировано для широкого спектра оборудования, от Raspberry Pi до облачных серверов.
Слабые стороны:
- Как одностадийный детектор, он может столкнуться с проблемами при работе с очень маленькими объектами по сравнению с некоторыми специализированными двухстадийными детекторами.
- Самые большие модели (например, YOLO11x) по-прежнему требуют значительной вычислительной мощности для работы в реальном времени, хотя и меньше, чем сопоставимые модели конкурентов.
Анализ производительности: PP-YOLOE+ в сравнении с YOLO11
Эталонные тесты производительности на наборе данных COCO наглядно демонстрируют преимущества YOLO11.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
- Точность и эффективность: В топовом сегменте YOLO11x соответствует 54,7 mAP у PP-YOLOE+x, но при этом использует только 58% параметров (56,9M против 98,42M) и меньшее количество FLOPs. Эта тенденция сохраняется и в меньших масштабах; например, YOLO11l превосходит PP-YOLOE+l по точности (53,4 против 52,9 mAP), используя менее половины параметров.
- Скорость инференса: Модели YOLO11 стабильно демонстрируют более высокую скорость инференса на GPU. Например, YOLO11l более чем на 25% быстрее, чем PP-YOLOE+l на T4 GPU, а YOLO11x более чем на 20% быстрее, чем PP-YOLOE+x. Это преимущество в скорости имеет решающее значение для приложений, требующих обработки в реальном времени, таких как автономные транспортные средства и робототехника.
- Масштабируемость: YOLO11 обеспечивает гораздо более эффективную кривую масштабирования. Разработчики могут достичь высокой точности без огромных вычислительных затрат, связанных с более крупными моделями PP-YOLOE+, что делает передовой ИИ более доступным.
Заключение и рекомендации
Хотя PP-YOLOE+ является эффективным детектором объектов, его сильные стороны наиболее заметны для пользователей, уже работающих в экосистеме Baidu PaddlePaddle.
Для подавляющего большинства разработчиков, исследователей и предприятий Ultralytics YOLO11 — это очевидный и превосходящий выбор. Он предлагает современное сочетание точности и эффективности, значительно снижая вычислительные затраты и позволяя развертывание на более широком спектре оборудования. Его непревзойденная универсальность в пяти различных задачах компьютерного зрения в сочетании с простой в использовании и хорошо поддерживаемой экосистемой позволяет пользователям создавать более сложные и мощные решения на основе искусственного интеллекта с меньшими усилиями.
Независимо от того, разрабатываете ли вы для периферии или облака, YOLO11 обеспечивает производительность, гибкость и доступность, необходимые для расширения границ возможного в компьютерном зрении.
Другие модели для рассмотрения
Если вы изучаете другие архитектуры, вам также могут быть интересны сравнения с такими моделями, как YOLOv10, YOLOv9 и RT-DETR, которые также поддерживаются в рамках Ultralytics.