Перейти к содержанию

YOLOv9 vs. DAMO-YOLO: техническое сравнение

Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает потребность в точности, скорости инференса и вычислительной эффективности. На этой странице представлено подробное техническое сравнение двух мощных моделей: YOLOv9, известной своими архитектурными инновациями, и DAMO-YOLO, признанной за свою скорость. Мы рассмотрим их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов в области компьютерного зрения.

YOLOv9: Продвинутое обучение с программируемой градиентной информацией

YOLOv9 представляет собой значительный скачок вперед в обнаружении объектов, решая фундаментальные проблемы потери информации в глубоких нейронных сетях. Его интеграция в экосистему Ultralytics делает его не только мощным, но и исключительно доступным.

Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Документация: https://docs.ultralytics.com/models/yolov9/

Архитектура и ключевые особенности

YOLOv9 представляет две новаторские концепции: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для сохранения полной входной информации для функции потерь, смягчая проблему информационного узкого места, которая часто ухудшает производительность глубоких сетей. GELAN — это новая, высокоэффективная архитектура сети, которая оптимизирует использование параметров и вычислительные затраты.

При реализации в рамках фреймворка Ultralytics передовая архитектура YOLOv9 сочетается с набором функций, разработанных для разработчиков:

  • Простота использования: Оптимизированный пользовательский опыт с простым Python API и CLI, подкрепленный обширной документацией.
  • Хорошо поддерживаемая экосистема: Преимущества активной разработки, сильной поддержки сообщества, частых обновлений и интеграции с такими инструментами, как Ultralytics HUB, для обучения и развертывания без кода.
  • Эффективность обучения: Предлагает эффективные процессы обучения с легкодоступными предварительно обученными весами и обычно требует меньше памяти, чем многие конкурирующие модели.
  • Универсальность: Хотя в оригинальной статье основное внимание уделяется обнаружению объектов, в репозитории упоминаются возможности сегментации экземпляров и паноптической сегментации, что соответствует многозадачному характеру моделей Ultralytics.

Сильные стороны

  • Современная точность: Достигает лидирующих показателей mAP на наборе данных COCO, часто превосходя другие модели аналогичного масштаба.
  • Превосходная эффективность параметров: Архитектура GELAN позволяет YOLOv9 обеспечивать высокую точность со значительно меньшим количеством параметров и FLOPs по сравнению со многими конкурентами.
  • Сохранение информации: PGI эффективно решает проблему потери информации, обеспечивая более точное обучение более глубоких и сложных моделей.
  • Надежность и поддержка: Интеграция в экосистему Ultralytics обеспечивает надежность, непрерывное совершенствование и доступ к большому количеству ресурсов.

Слабые стороны

  • Более новая модель: Будучи недавним релизом, объем примеров развертывания, созданных сообществом, все еще может расти, хотя ее внедрение быстро ускоряется фреймворком Ultralytics.
  • Потребности в ресурсах для больших моделей: Самый большой вариант, YOLOv9-E, хотя и обладает высокой точностью, требует значительных вычислительных ресурсов для обучения.

Узнайте больше о YOLOv9

DAMO-YOLO — это быстрая и точная модель обнаружения объектов, разработанная Alibaba Group. Она использует несколько современных методов для достижения превосходного баланса между скоростью и производительностью, особенно на оборудовании GPU.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

Архитектура и ключевые особенности

Архитектура DAMO-YOLO является результатом сочетания передовых методов:

  • Neural Architecture Search (NAS): Использует NAS для создания эффективной backbone сети (TinyNAS).
  • Эффективный дизайн neck: Использует эффективный RepGFPN (Generalized Feature Pyramid Network) для объединения признаков.
  • ZeroHead: Упрощенная, вычислительно легкая голова обнаружения.
  • AlignedOTA: Улучшенная стратегия назначения меток для более эффективного обучения.
  • Дистилляция: Использует дистилляцию знаний для повышения производительности небольших моделей.

Сильные стороны

  • Высокая скорость инференса: DAMO-YOLO хорошо оптимизирована для быстрого инференса на GPU, что делает ее сильным кандидатом для сценариев инференса в реальном времени.
  • Высокая производительность: Обеспечивает конкурентное соотношение скорости и точности, особенно для своих меньших вариантов.
  • Инновационные техники: Включает современные методы, такие как NAS и расширенное назначение меток, для расширения границ производительности.
  • Anchor-Free: Как детектор без привязки к якорям (anchor-free detector), он упрощает конвейер обнаружения, устраняя необходимость настройки якорных прямоугольников.

Слабые стороны

  • Специфичность задачи: В основном разработан для обнаружения объектов, ему не хватает встроенной универсальности для других задач, таких как сегментация, оценка позы или классификация, которые есть в моделях Ultralytics.
  • Экосистема и поддержка: Как исследовательский проект, ему не хватает комплексной экосистемы, обширной документации и активной поддержки сообщества, которые характеризуют модели Ultralytics. Это может затруднить интеграцию и устранение неполадок.
  • Более высокое количество параметров: По сравнению с YOLOv9, модели DAMO-YOLO часто имеют больше параметров и FLOPs для достижения аналогичного или более низкого уровня точности.

Узнайте больше о DAMO-YOLO

Анализ производительности: YOLOv9 против DAMO-YOLO

При сравнении производительности YOLOv9 демонстрирует явное преимущество как в точности, так и в эффективности использования параметров. Самая большая модель, YOLOv9-E, устанавливает новый современный эталон с 55,6% mAP на COCO. Во всех размерах моделей YOLOv9 последовательно использует меньше параметров и, во многих случаях, меньше FLOPs, чем его аналоги DAMO-YOLO, для достижения более высокой точности.

Несмотря на то, что модели DAMO-YOLO демонстрируют очень высокую скорость инференса на NVIDIA T4 GPU, YOLOv9 остается весьма конкурентоспособной, особенно если учитывать ее превосходную точность и эффективность. Например, YOLOv9-C немного быстрее, чем DAMO-YOLO-L, при этом значительно точнее (53,0 против 50,8 mAP) и использует гораздо меньше параметров (25,3M против 42,1M).

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Идеальные варианты использования

YOLOv9

YOLOv9 — идеальный выбор для приложений, где точность и эффективность имеют первостепенное значение. Его способность обеспечивать самые современные результаты с меньшим количеством параметров делает его идеальным для:

  • Высокоточные системы: Приложения в области автономного вождения, анализа медицинских изображений и контроля качества в промышленности.
  • Развертывание с ограниченными ресурсами: Меньшие варианты YOLOv9 отлично подходят для периферийных AI устройств, где вычислительные ресурсы ограничены, но по-прежнему требуется высокая производительность.
  • Многозадачные решения: Проекты, которые могут быть расширены для включения сегментации или других задач компьютерного зрения, выигрывают от универсальной основы, предоставляемой экосистемой Ultralytics.
  • Исследования и разработки: Ее инновационная архитектура обеспечивает прочную основу для исследователей, изучающих новые рубежи в глубоком обучении.

DAMO-YOLO

DAMO-YOLO превосходно подходит для сценариев, в которых максимизация пропускной способности GPU является основной целью, а приложение строго ориентировано на обнаружение объектов.

  • Высокопроизводительная видеоаналитика: Облачные сервисы, которые обрабатывают большое количество видеопотоков одновременно.
  • Приложения реального времени на GPU: Системы, где скорость инференса на GPU является наиболее важным показателем, и небольшие компромиссы в точности допустимы.

Несмотря на то, что DAMO-YOLO является грозным детектором объектов с впечатляющей скоростью на GPU, Ultralytics YOLOv9 становится превосходным и более практичным выбором для подавляющего большинства разработчиков и исследователей.

YOLOv9 не только обеспечивает более высокую точность, но и делает это с большей эффективностью использования параметров. Это приводит к созданию моделей, которые меньше, дешевле в вычислительном отношении и проще в развертывании. Однако истинным отличительным фактором является экосистема Ultralytics. Выбирая YOLOv9, вы получаете доступ к хорошо поддерживаемой, полностью интегрированной платформе, которая упрощает каждый этап жизненного цикла MLOps — от аннотации и обучения данных до развертывания и мониторинга. Сочетание первоклассной производительности, простоты использования, универсальности в решении различных задач и надежной поддержки делает YOLOv9 наиболее эффективным и надежным решением для создания передовых приложений компьютерного зрения.

Изучите другие модели

Если вам интересно, как DAMO-YOLO соотносится с другими современными моделями, ознакомьтесь с этими другими сравнениями в нашей документации:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии