Перейти к содержанию

DAMO-YOLO против YOLOv9: техническое сравнение

Выбор подходящей модели обнаружения объектов — это критически важное решение, которое обеспечивает баланс между потребностью в точности, скорости и вычислительной эффективности. На этой странице представлено подробное техническое сравнение двух мощных моделей: DAMO-YOLO от Alibaba Group и YOLOv9. Мы рассмотрим их архитектурные инновации, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов в области компьютерного зрения. Хотя обе модели представляют значительные улучшения, YOLOv9, особенно в рамках экосистемы Ultralytics, предлагает убедительное сочетание современной производительности и удобных для разработчиков функций.

DAMO-YOLO: Быстрый и точный метод от Alibaba

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba, которая фокусируется на достижении превосходного баланса между скоростью и точностью. В ней представлено несколько новых методов для повышения производительности на широком спектре оборудования, от периферийных устройств до облачных GPU. Архитектура является результатом методологии «один раз для всех», где обучается суперсеть, а затем выводятся специализированные подсети с использованием поиска нейронной архитектуры (NAS) для соответствия различным вычислительным ограничениям.

Архитектура и ключевые особенности

Архитектура DAMO-YOLO включает в себя несколько ключевых инноваций:

  • NAS-Generated Backbones: Вместо разработанного вручную backbone, DAMO-YOLO использует backbones, обнаруженные с помощью NAS, которые оптимизированы для эффективности извлечения признаков.
  • Эффективный RepGFPN Neck: Он использует новую сеть feature pyramid neck, RepGFPN, которая разработана для эффективного слияния признаков и совместима с методами повторной параметризации для повышения скорости во время инференса.
  • ZeroHead: Упрощенная, легкая голова обнаружения, которая снижает вычислительные издержки при сохранении высокой производительности.
  • Назначение меток AlignedOTA: Улучшенная стратегия назначения меток, которая решает проблемы рассогласования между задачами классификации и регрессии, что приводит к более точным прогнозам.
  • Улучшение дистилляции: Дистилляция знаний используется для передачи знаний от большей обучающей модели к меньшей обучаемой модели, что еще больше повышает точность компактных моделей.

Сильные стороны

  • Высокая скорость GPU: DAMO-YOLO хорошо оптимизирована для быстрого инференса на GPU, что делает ее подходящей для обработки видео в реальном времени и других приложений, чувствительных к задержкам.
  • Масштабируемые модели: Предлагает семейство моделей (Tiny, Small, Medium, Large), которые обеспечивают четкий компромисс между скоростью и точностью, позволяя разработчикам выбрать оптимальный вариант для своего оборудования.
  • Инновационные техники: Использование NAS, эффективного neck и расширенного средства назначения меток демонстрирует современный подход к проектированию детекторов.

Слабые стороны

  • Специфичность задачи: DAMO-YOLO в основном разработан для обнаружения объектов, и ему не хватает встроенной универсальности для других задач, таких как сегментация экземпляров или оценка позы, которые есть во всеобъемлющих фреймворках, таких как Ultralytics.
  • Экосистема и удобство использования: Несмотря на свою мощность, ее экосистема менее развита, чем у Ultralytics. Пользователи могут обнаружить, что для обучения, развертывания и интеграции в производственные конвейеры требуется больше усилий.
  • Поддержка сообщества: Сообщество и доступные ресурсы могут быть меньше по сравнению с более широко используемыми моделями, такими как модели серии YOLO.

Узнайте больше о DAMO-YOLO

YOLOv9: Повышение точности и эффективности

Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Документация: https://docs.ultralytics.com/models/yolov9/

YOLOv9 представляет собой значительный скачок вперед в области обнаружения объектов в реальном времени, представляя новаторские концепции для решения проблемы потери информации в глубоких нейронных сетях. Его основные инновации, Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN), позволяют ему достигать превосходной точности и эффективности параметров. При интеграции в фреймворк Ultralytics, YOLOv9 сочетает в себе эту современную производительность с беспрецедентным удобством использования.

Архитектура и ключевые особенности

Сила YOLOv9 заключается в его новых архитектурных компонентах:

  • Программируемая градиентная информация (PGI): Этот механизм помогает смягчить проблему информационного узкого места, генерируя надежные градиенты через вспомогательную обратимую ветвь, гарантируя, что более глубокие слои получают полную входную информацию для точных обновлений.
  • Обобщенная эффективная сеть агрегации слоев (GELAN): Усовершенствованная сетевая архитектура, основанная на принципах CSPNet и ELAN. GELAN разработана для оптимального использования параметров и вычислительной эффективности, что делает ее одновременно мощной и быстрой.

Сильные стороны

  • Современная точность: YOLOv9 устанавливает новый стандарт точности на наборе данных COCO, превосходя многие предыдущие модели при аналогичных или меньших вычислительных затратах.
  • Превосходная эффективность: Как показано в таблице производительности, модели YOLOv9 часто достигают более высокой точности с меньшим количеством параметров и FLOPs по сравнению с конкурентами, что делает их идеальными для развертывания на различном оборудовании, от периферийных устройств до мощных серверов.
  • Хорошо поддерживаемая экосистема: Интегрированный в экосистему Ultralytics, YOLOv9 получает преимущества от простоты использования благодаря оптимизированному Python API и CLI, обширной документации и активной поддержке сообщества.
  • Эффективность обучения: Реализация Ultralytics обеспечивает эффективные процессы обучения с готовыми предварительно обученными весами, более низкими требованиями к памяти и простой интеграцией с такими инструментами, как Ultralytics HUB, для обучения без кода и MLOps.
  • Универсальность: Хотя в оригинальной статье основное внимание уделяется обнаружению, архитектура GELAN обладает высокой адаптивностью. Экосистема Ultralytics расширяет ее возможности для других задач компьютерного зрения, что соответствует многозадачной поддержке, реализованной в таких моделях, как YOLOv8.

Слабые стороны

  • Более новая модель: Будучи более новой архитектурой, количество учебных пособий, созданных сообществом, и интеграций со сторонними разработчиками все еще растет, хотя ее включение в библиотеку Ultralytics значительно ускорило ее внедрение.
  • Требования к ресурсам: Самые большие варианты YOLOv9, такие как YOLOv9-E, требуют значительных вычислительных ресурсов для обучения, хотя и обеспечивают первоклассную точность для своего размера.

Узнайте больше о YOLOv9

Анализ производительности: точность и скорость

При сравнении DAMO-YOLO и YOLOv9 становится ясно, что оба семейства моделей расширяют границы обнаружения объектов в реальном времени. Однако более внимательный взгляд на метрики показывает превосходную эффективность YOLOv9.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

На основании таблицы можно сделать несколько выводов:

  • Точность: Модели YOLOv9 стабильно достигают более высоких показателей mAP. Например, YOLOv9m превосходит DAMO-YOLOl с 51,4 mAP против 50,8 mAP. Самая большая модель, YOLOv9-E, достигает впечатляющего уровня в 55,6 mAP, устанавливая новый эталон.
  • Эффективность: YOLOv9 демонстрирует замечательную эффективность параметров и вычислений. YOLOv9m обеспечивает лучшую точность, чем DAMO-YOLOl, при этом используя менее половины параметров (20.0M против 42.1M) и меньше FLOPs (76.3B против 97.3B). Это делает YOLOv9 более эффективным выбором для достижения высокой производительности.
  • Скорость инференса: На T4 GPU скорости инференса конкурентоспособны. Например, DAMO-YOLOs (3,45 мс) и YOLOv9s (3,54 мс) очень близки по скорости, но YOLOv9s достигает более высокого mAP (46,8 против 46,0).

Заключение: какую модель вам следует выбрать?

И DAMO-YOLO, и YOLOv9 - отличные детекторы объектов с уникальными сильными сторонами. DAMO-YOLO предлагает быстрое и масштабируемое решение с инновационными методами, такими как NAS и эффективный RepGFPN neck, что делает его отличным выбором для приложений, требующих высокоскоростного инференса GPU.

Однако, для большинства разработчиков и исследователей YOLOv9 является рекомендуемым выбором, особенно при использовании в экосистеме Ultralytics. Он не только обеспечивает передовую точность и превосходную эффективность, но и предоставляет значительные преимущества в удобстве использования и поддержке. Фреймворк Ultralytics абстрагирует сложность, предлагая оптимизированный рабочий процесс от обучения до развертывания. Сочетание PGI и GELAN в YOLOv9 обеспечивает более продвинутую и эффективную архитектуру, а надежная экосистема Ultralytics гарантирует, что у вас есть инструменты, документация и поддержка сообщества, необходимые для достижения успеха.

Изучите другие модели

Если вам интересно, как DAMO-YOLO и YOLOv9 соотносятся с другими ведущими моделями, обязательно ознакомьтесь с этими другими сравнениями в документации Ultralytics:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии