PP-YOLOE+ vs. EfficientDet: техническое сравнение для обнаружения объектов
Выбор оптимальной модели обнаружения объектов имеет решающее значение для приложений компьютерного зрения. Эта страница предлагает подробное техническое сравнение между PP-YOLOE+ и EfficientDet, двумя значительными моделями, чтобы помочь вам принять обоснованное решение, основанное на требованиях вашего проекта. Мы углубимся в их архитектурные проекты, эталонные показатели производительности и пригодность для применения. Хотя обе модели внесли важный вклад, они представляют собой разные этапы в эволюции эффективных детекторов объектов.
PP-YOLOE+: Оптимизирована для эффективности и точности
PP-YOLOE+, разработанный авторами PaddlePaddle в Baidu и выпущенный 2 апреля 2022 года, является улучшенной версией серии PP-YOLOE. Он фокусируется на обеспечении высокой точности и эффективного развертывания, особенно в экосистеме PaddlePaddle. Он выделяется как детектор без anchor boxes, одноэтапный детектор, разработанный для превосходного баланса производительности и скорости в задачах обнаружения объектов.
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Архитектура и ключевые особенности
PP-YOLOE+ использует подход без anchor boxes, который упрощает структуру модели и процесс обучения, устраняя необходимость в предопределенных anchor boxes. Его архитектура включает в себя отдельную голову обнаружения, которая разделяет задачи классификации и локализации, повышая общую точность. Модель использует VariFocal Loss, специализированную функцию потерь, для лучшей обработки дисбаланса между положительными и отрицательными примерами, что дополнительно повышает точность классификации и ограничивающей рамки. Архитектура включает улучшения в backbone, neck с Path Aggregation Network (PAN) и head для повышения как точности, так и скорости inference.
Сильные и слабые стороны
- Преимущества: Высокая точность для своего количества параметров, anchor-free дизайн упрощает реализацию, и она хорошо поддерживается во фреймворке PaddlePaddle. Модель демонстрирует отличную скорость инференса на GPU при оптимизации с помощью TensorRT.
- Недостатки: В первую очередь оптимизирована для экосистемы PaddlePaddle, что может ограничить гибкость для пользователей других популярных фреймворков, таких как PyTorch. Ее поддержка сообщества и доступные ресурсы могут быть менее обширными, чем у глобально принятых моделей, таких как серия Ultralytics YOLO.
Случаи использования
Сбалансированная производительность и современная конструкция PP-YOLOE+ без anchor делают его универсальным выбором для различных приложений. Он хорошо подходит для таких задач, как контроль качества в промышленности, автоматизация переработки и улучшение операций умной розничной торговли.
EfficientDet: Масштабируемая и эффективная архитектура
EfficientDet был представлен командой Google Brain в ноябре 2019 года. Он установил новый стандарт эффективности в обнаружении объектов, представив семейство моделей, которые могли масштабироваться от периферийных устройств до крупных облачных серверов. Его основные инновации были сосредоточены на создании высокоэффективной и масштабируемой архитектуры.
- Авторы: Мингксинг Тан, Руоминг Панг и Куок В. Ле
- Организация: Google
- Дата: 20.11.2019
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- Документация: https://github.com/google/automl/tree/master/efficientdet
Архитектура и ключевые особенности
Архитектура EfficientDet построена на трех ключевых идеях:
- EfficientNet Backbone: В качестве основы для извлечения признаков используется высокоэффективная сеть EfficientNet, которая была разработана с использованием поиска нейронной архитектуры для оптимизации точности и FLOPs.
- BiFPN (Bi-directional Feature Pyramid Network): Вместо стандартной FPN, EfficientDet представляет BiFPN, более эффективный метод объединения многомасштабных признаков. Он обеспечивает простой и быстрый поток информации между различными уровнями признаков со взвешенными соединениями.
- Комплексное масштабирование (Compound Scaling): Новый метод масштабирования, который равномерно масштабирует глубину, ширину и разрешение для backbone, сети признаков и detection head, используя простой составной коэффициент. Это позволяет масштабировать модель от малого D0 до большого варианта D7 принципиальным и эффективным способом.
Анализ производительности
В таблице ниже представлено подробное сравнение производительности. Хотя EfficientDet был передовым решением на момент своего выпуска, результаты показывают, что более новые модели, такие как PP-YOLOE+, предлагают значительно лучшую производительность, особенно с точки зрения скорости инференса на GPU. Например, PP-YOLOE+l достигает более высокого mAP (52.9), чем EfficientDet-d5 (51.5), но более чем в 8 раз быстрее на T4 GPU с TensorRT. Это подчеркивает быстрый прогресс в архитектуре моделей и методах оптимизации.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Сильные и слабые стороны
- Преимущества: Революционная архитектура с BiFPN и составным масштабированием, которая повлияла на многие последующие модели. Отлично масштабируется в широком диапазоне вычислительных ресурсов.
- Недостатки: Более низкая скорость inference по сравнению с современными архитектурами. Архитектура, основанная на anchor-box, сложнее, чем альтернативы без anchor-box. Первоначальная реализация выполнена в TensorFlow, что может стать препятствием для исследовательского сообщества, в котором доминирует PyTorch.
Случаи использования
EfficientDet по-прежнему является жизнеспособным вариантом для приложений, где масштабируемость модели является ключевым фактором, а экстремальная производительность в реальном времени не является основным ограничением. Его можно использовать для пакетной обработки изображений в автономном режиме, облачных API-интерфейсов машинного зрения и определенных сценариев edge AI, где его небольшие варианты (D0-D2) могут обеспечить хорошее соотношение точности и ресурсов.
Узнайте больше об EfficientDet
Заключение: какую модель вам следует выбрать?
PP-YOLOE+ и EfficientDet — мощные модели, но они удовлетворяют разные потребности и представляют разные точки во временной шкале исследований в области обнаружения объектов.
- PP-YOLOE+ — отличный выбор, если вы работаете в экосистеме PaddlePaddle и вам нужен современный, быстрый и точный детектор без привязки к anchor boxes.
- EfficientDet остается знаковой моделью благодаря своим архитектурным инновациям. Однако для новых проектов его производительность в значительной степени превзойдена более новыми моделями.
Для разработчиков и исследователей, ищущих лучшее сочетание производительности, универсальности и простоты использования, мы рекомендуем рассмотреть серию Ultralytics YOLO. Такие модели, как YOLOv8 и новейшая YOLO11, предлагают несколько ключевых преимуществ:
- Баланс производительности: Модели Ultralytics YOLO обеспечивают современный компромисс между скоростью и точностью, что делает их подходящими как для развертывания на периферийных устройствах в реальном времени, так и для облачных приложений с высокой точностью.
- Универсальность: Это многозадачные модели, которые поддерживают не только обнаружение объектов, но и сегментацию экземпляров, оценку позы, классификацию и многое другое, и все это в рамках единой унифицированной структуры.
- Простота использования: Модели поставляются с простым Python API и CLI, обширной документацией и простым процессом обучения.
- Хорошо поддерживаемая экосистема: Ultralytics предоставляет надежную экосистему с активной разработкой, сильной поддержкой сообщества и бесшовной интеграцией с такими инструментами, как Ultralytics HUB для оптимизированного MLOps от управления набором данных до развертывания.
- Эффективность обучения: Модели Ultralytics YOLO известны своей эффективностью обучения, требуя меньше памяти и времени по сравнению со многими альтернативами, и поставляются с широким спектром предварительно обученных весов для ускорения пользовательских проектов.
Для более подробных сравнений вам может быть интересно изучить, как эти модели соотносятся с другими популярными архитектурами, такими как YOLO11 vs. EfficientDet или PP-YOLOE+ vs. YOLOv10.