YOLOv9 в сравнении с EfficientDet: подробное сравнение
Выбор оптимальной модели обнаружения объектов имеет решающее значение для задач компьютерного зрения, балансируя точность, скорость и вычислительные ресурсы. На этой странице представлено подробное техническое сравнение между Ultralytics YOLOv9 и EfficientDet, двумя важными моделями в области обнаружения объектов. Мы углубимся в их архитектурные проекты, эталонные показатели производительности и подходящие приложения, чтобы помочь вам принять обоснованное решение для ваших проектов.
YOLOv9: Современная точность и эффективность
YOLOv9, представленная в 2024 году Цзянь-Яо Ваном и Хун-Юанем Марком Ляо из Института информатики Academia Sinica (Тайвань), представляет собой значительный шаг вперед в серии YOLO. Она подробно описана в их статье "YOLOv9: Обучение тому, что вы хотите изучать, с использованием программируемой градиентной информации" и реализована в их репозитории GitHub. YOLOv9 решает проблему потери информации в глубоких сетях с помощью инновационных архитектурных элементов, таких как Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). Эти инновации обеспечивают эффективное обучение модели и поддержание высокой точности с меньшим количеством параметров, демонстрируя сильный баланс между производительностью и эффективностью.
Технические детали:
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21.02.2024
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Документация: https://docs.ultralytics.com/models/yolov9/
Сильные стороны
- Современная точность: YOLOv9 достигает превосходной точности в обнаружении объектов, часто превосходя конкурентов при аналогичном количестве параметров.
- Эффективное использование параметров: Архитектуры PGI и GELAN улучшают извлечение признаков и уменьшают потерю информации, что приводит к повышению производительности при меньшем количестве параметров и FLOPs.
- Масштабируемость: Семейство YOLOv9 включает в себя модели различных размеров (от YOLOv9t до YOLOv9e), что обеспечивает гибкость для различных вычислительных возможностей.
- Экосистема Ultralytics: Хотя оригинальное исследование принадлежит Academia Sinica, интеграция в рамках фреймворка Ultralytics предоставляет огромные преимущества. К ним относятся простота использования благодаря простому Python API, обширная документация и эффективные процессы обучения с легкодоступными предварительно обученными весами. Хорошо поддерживаемая экосистема обеспечивает активную разработку, сильную поддержку сообщества и интеграцию с такими инструментами, как Ultralytics HUB для обучения без кода.
- Низкие требования к памяти: Модели YOLO обычно демонстрируют более низкие требования к памяти во время обучения по сравнению со многими другими архитектурами, особенно с моделями на основе трансформеров, такими как RT-DETR.
Слабые стороны
- Новизна: Поскольку это более новая модель, примеров развертывания в реальных условиях может быть меньше, чем для более старых, устоявшихся моделей, таких как EfficientDet, хотя внедрение в сообществе Ultralytics происходит быстро.
- Специфичность задачи: В оригинальной статье YOLOv9 основное внимание уделяется обнаружению объектов. Однако его интеграция в экосистему Ultralytics намекает на более широкий потенциал, соответствующий многозадачным возможностям таких моделей, как Ultralytics YOLOv8.
Случаи использования
YOLOv9 особенно хорошо подходит для приложений, где точность и эффективность имеют первостепенное значение, например:
- Анализ изображений с высоким разрешением, например, использование компьютерного зрения для анализа спутниковых снимков.
- Понимание сложных сцен, необходимое в автономных транспортных средствах.
- Детальное распознавание объектов для таких задач, как контроль качества в производстве.
EfficientDet: Масштабируемое и эффективное обнаружение объектов
EfficientDet был представлен в 2019 году командой из Google Research. Он предложил новое семейство масштабируемых детекторов объектов, в которых приоритет отдавался эффективности без ущерба для точности. Архитектура модели основана на высокоэффективной базовой сети EfficientNet, новой двунаправленной пирамиде признаков (BiFPN) для объединения признаков и методе сложного масштабирования, который равномерно масштабирует разрешение, глубину и ширину для всех частей модели.
Технические детали:
- Авторы: Мингксинг Тан, Руоминг Панг, Куок В. Ле
- Организация: Google
- Дата: 20.11.2019
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
Сильные стороны
- Комплексное масштабирование (Compound Scaling): Ключевым нововведением EfficientDet является его систематический подход к масштабированию, позволяющий создавать семейство моделей (D0-D7), которые удовлетворяют различным ограничениям ресурсов.
- BiFPN: Двунаправленная сеть пирамиды признаков обеспечивает более насыщенное объединение многомасштабных признаков по сравнению с традиционными FPN, повышая точность обнаружения.
- Историческая значимость: На момент выпуска EfficientDet установил новый стандарт эффективности в обнаружении объектов, повлияв на многие последующие архитектуры.
Слабые стороны
- Устаревшая производительность: Несмотря на свою революционность для своего времени, EfficientDet был превзойден по точности и скорости более новыми моделями, такими как YOLOv9. Как показано в таблице производительности, модели YOLOv9 стабильно достигают более высокого mAP с меньшим количеством параметров и значительно более высокой скоростью инференса.
- Более медленный инференс: На современном оборудовании, таком как NVIDIA T4, даже самые маленькие модели EfficientDet медленнее, чем сопоставимые или более точные варианты YOLOv9.
- Ограниченная экосистема: EfficientDet — это в первую очередь исследовательский репозиторий. Ему не хватает всесторонней, удобной для пользователя экосистемы, предоставляемой Ultralytics, которая включает в себя оптимизированное обучение, развертывание и поддержку сообщества.
- Специфичность задачи: EfficientDet разработан исключительно для обнаружения объектов и не предлагает встроенной универсальности для других задач, таких как сегментация экземпляров или оценка позы, которые есть во фреймворке Ultralytics.
Случаи использования
EfficientDet все еще можно рассматривать для устаревших систем или в качестве базового уровня для академического сравнения. Его приложения включают:
- Обнаружение объектов общего назначения, где высокая скорость инференса не является основным ограничением.
- Образовательные цели для понимания сетей пирамиды признаков и принципов масштабирования моделей.
- Проекты, которые были стандартизированы на фреймворке TensorFlow, где находится оригинальная реализация.
Узнайте больше об EfficientDet
Анализ производительности: YOLOv9 против EfficientDet
Сравнение производительности YOLOv9 и EfficientDet наглядно демонстрирует прогресс, достигнутый в области обнаружения объектов за последние несколько лет. YOLOv9 стабильно предлагает превосходный компромисс между точностью, скоростью и размером модели.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.30 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Из таблицы вытекает несколько ключевых выводов:
- Точность и эффективность: Модель YOLOv9c достигает 53,0 mAP всего с 25,3M параметрами и очень быстрым временем инференса 7,16 мс на GPU T4. В отличие от этого, EfficientDet-d6 с сопоставимой точностью (52,6 mAP) требует более чем в два раза больше параметров (51,9M) и работает более чем в 12 раз медленнее – 89,29 мс.
- Первоклассная производительность: Самая большая модель, YOLOv9e, достигает впечатляющих 55.6 mAP, превосходя даже самую большую модель EfficientDet-d7 (53.7 mAP), будучи при этом более чем в 7 раз быстрее и требуя значительно меньше FLOPs.
- Легкие модели: В меньшем диапазоне YOLOv9s (46,8 mAP) предлагает сопоставимую точность с EfficientDet-d3 (47,5 mAP), но почти с половиной параметров и более чем в 5 раз быстрее на GPU.
Заключение: какую модель вам следует выбрать?
Практически для всех современных приложений обнаружения объектов YOLOv9 является явным победителем. Его усовершенствованная архитектура обеспечивает современную точность, сохраняя при этом исключительную скорость логического вывода и эффективность параметров. Интеграция в экосистему Ultralytics еще больше повышает его ценность, обеспечивая оптимизированный рабочий процесс от обучения до развертывания, подкрепленный надежной документацией и активным сообществом.
EfficientDet остается важной моделью с исторической и академической точек зрения, впервые предложив концепции масштабирования моделей и объединения признаков. Однако, для практической разработки и развертывания, ее производительность была затмена новыми, более эффективными архитектурами, такими как YOLOv9. Если вы начинаете новый проект или хотите обновить существующий, выбор YOLOv9 обеспечит превосходную производительность, более быстрые циклы разработки и лучшую поддержку будущих достижений.
Изучите другие модели
Если вы изучаете другие современные модели, рассмотрите возможность ознакомления со сравнениями с YOLOv10, YOLOv8 и архитектурами на основе трансформеров, такими как RT-DETR. Более подробный анализ вы можете найти на нашей странице сравнения моделей.