DAMO-YOLO против YOLOv9: техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое обеспечивает баланс между потребностью в точности, скорости и вычислительной эффективности. На этой странице представлено подробное техническое сравнение двух мощных моделей: DAMO-YOLO от Alibaba Group и YOLOv9. Мы рассмотрим их архитектурные инновации, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов в области компьютерного зрения. Хотя обе модели представляют значительные улучшения, YOLOv9, особенно в рамках экосистемы Ultralytics, предлагает убедительное сочетание современной производительности и удобных для разработчиков функций.
DAMO-YOLO: Быстрый и точный метод от Alibaba
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba, которая фокусируется на достижении превосходного баланса между скоростью и точностью. В ней представлено несколько новых методов для повышения производительности на широком спектре оборудования, от периферийных устройств до облачных GPU. Архитектура является результатом методологии «один раз для всех», где обучается суперсеть, а затем выводятся специализированные подсети с использованием поиска нейронной архитектуры (NAS) для соответствия различным вычислительным ограничениям.
Архитектура и ключевые особенности
Архитектура DAMO-YOLO включает в себя несколько ключевых инноваций:
- NAS-Generated Backbones: Вместо разработанного вручную backbone, DAMO-YOLO использует backbones, обнаруженные с помощью NAS, которые оптимизированы для эффективности извлечения признаков.
- Эффективный RepGFPN Neck: Он использует новую сеть feature pyramid neck, RepGFPN, которая разработана для эффективного слияния признаков и совместима с методами повторной параметризации для повышения скорости во время инференса.
- ZeroHead: Упрощенная, легкая голова обнаружения, которая снижает вычислительные издержки при сохранении высокой производительности.
- Назначение меток AlignedOTA: Улучшенная стратегия назначения меток, которая решает проблемы рассогласования между задачами классификации и регрессии, что приводит к более точным прогнозам.
- Улучшение дистилляции: Дистилляция знаний используется для передачи знаний от большей обучающей модели к меньшей обучаемой модели, что еще больше повышает точность компактных моделей.
Сильные стороны
- Высокая скорость GPU: DAMO-YOLO хорошо оптимизирована для быстрого инференса на GPU, что делает ее подходящей для обработки видео в реальном времени и других приложений, чувствительных к задержкам.
- Масштабируемые модели: Предлагает семейство моделей (Tiny, Small, Medium, Large), которые обеспечивают четкий компромисс между скоростью и точностью, позволяя разработчикам выбрать оптимальный вариант для своего оборудования.
- Инновационные техники: Использование NAS, эффективного neck и расширенного средства назначения меток демонстрирует современный подход к проектированию детекторов.
Слабые стороны
- Специфичность задачи: DAMO-YOLO в основном разработан для обнаружения объектов, и ему не хватает встроенной универсальности для других задач, таких как сегментация экземпляров или оценка позы, которые есть во всеобъемлющих фреймворках, таких как Ultralytics.
- Экосистема и удобство использования: Несмотря на свою мощность, ее экосистема менее развита, чем у Ultralytics. Пользователи могут обнаружить, что для обучения, развертывания и интеграции в производственные конвейеры требуется больше усилий.
- Поддержка сообщества: Сообщество и доступные ресурсы могут быть меньше по сравнению с более широко используемыми моделями, такими как модели серии YOLO.
YOLOv9: Повышение точности и эффективности
Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Документация: https://docs.ultralytics.com/models/yolov9/
YOLOv9 представляет собой значительный скачок вперед в области обнаружения объектов в реальном времени, представляя новаторские концепции для решения проблемы потери информации в глубоких нейронных сетях. Его основные инновации, Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN), позволяют ему достигать превосходной точности и эффективности параметров. При интеграции в фреймворк Ultralytics, YOLOv9 сочетает в себе эту современную производительность с беспрецедентным удобством использования.
Архитектура и ключевые особенности
Сила YOLOv9 заключается в его новых архитектурных компонентах:
- Программируемая градиентная информация (PGI): Этот механизм помогает смягчить проблему информационного узкого места, генерируя надежные градиенты через вспомогательную обратимую ветвь, гарантируя, что более глубокие слои получают полную входную информацию для точных обновлений.
- Обобщенная эффективная сеть агрегации слоев (GELAN): Усовершенствованная сетевая архитектура, основанная на принципах CSPNet и ELAN. GELAN разработана для оптимального использования параметров и вычислительной эффективности, что делает ее одновременно мощной и быстрой.
Сильные стороны
- Современная точность: YOLOv9 устанавливает новый стандарт точности на наборе данных COCO, превосходя многие предыдущие модели при аналогичных или меньших вычислительных затратах.
- Превосходная эффективность: Как показано в таблице производительности, модели YOLOv9 часто достигают более высокой точности с меньшим количеством параметров и FLOPs по сравнению с конкурентами, что делает их идеальными для развертывания на различном оборудовании, от периферийных устройств до мощных серверов.
- Хорошо поддерживаемая экосистема: Интегрированный в экосистему Ultralytics, YOLOv9 получает преимущества от простоты использования благодаря оптимизированному Python API и CLI, обширной документации и активной поддержке сообщества.
- Эффективность обучения: Реализация Ultralytics обеспечивает эффективные процессы обучения с готовыми предварительно обученными весами, более низкими требованиями к памяти и простой интеграцией с такими инструментами, как Ultralytics HUB, для обучения без кода и MLOps.
- Универсальность: Хотя в оригинальной статье основное внимание уделяется обнаружению, архитектура GELAN обладает высокой адаптивностью. Экосистема Ultralytics расширяет ее возможности для других задач компьютерного зрения, что соответствует многозадачной поддержке, реализованной в таких моделях, как YOLOv8.
Слабые стороны
- Более новая модель: Будучи более новой архитектурой, количество учебных пособий, созданных сообществом, и интеграций со сторонними разработчиками все еще растет, хотя ее включение в библиотеку Ultralytics значительно ускорило ее внедрение.
- Требования к ресурсам: Самые большие варианты YOLOv9, такие как YOLOv9-E, требуют значительных вычислительных ресурсов для обучения, хотя и обеспечивают первоклассную точность для своего размера.
Анализ производительности: точность и скорость
При сравнении DAMO-YOLO и YOLOv9 становится ясно, что оба семейства моделей расширяют границы обнаружения объектов в реальном времени. Однако более внимательный взгляд на метрики показывает превосходную эффективность YOLOv9.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
На основании таблицы можно сделать несколько выводов:
- Точность: Модели YOLOv9 стабильно достигают более высоких показателей mAP. Например, YOLOv9m превосходит DAMO-YOLOl с 51,4 mAP против 50,8 mAP. Самая большая модель, YOLOv9-E, достигает впечатляющего уровня в 55,6 mAP, устанавливая новый эталон.
- Эффективность: YOLOv9 демонстрирует замечательную эффективность параметров и вычислений. YOLOv9m обеспечивает лучшую точность, чем DAMO-YOLOl, при этом используя менее половины параметров (20.0M против 42.1M) и меньше FLOPs (76.3B против 97.3B). Это делает YOLOv9 более эффективным выбором для достижения высокой производительности.
- Скорость инференса: На T4 GPU скорости инференса конкурентоспособны. Например, DAMO-YOLOs (3,45 мс) и YOLOv9s (3,54 мс) очень близки по скорости, но YOLOv9s достигает более высокого mAP (46,8 против 46,0).
Заключение: какую модель вам следует выбрать?
И DAMO-YOLO, и YOLOv9 - отличные детекторы объектов с уникальными сильными сторонами. DAMO-YOLO предлагает быстрое и масштабируемое решение с инновационными методами, такими как NAS и эффективный RepGFPN neck, что делает его отличным выбором для приложений, требующих высокоскоростного инференса GPU.
Однако, для большинства разработчиков и исследователей YOLOv9 является рекомендуемым выбором, особенно при использовании в экосистеме Ultralytics. Он не только обеспечивает передовую точность и превосходную эффективность, но и предоставляет значительные преимущества в удобстве использования и поддержке. Фреймворк Ultralytics абстрагирует сложность, предлагая оптимизированный рабочий процесс от обучения до развертывания. Сочетание PGI и GELAN в YOLOv9 обеспечивает более продвинутую и эффективную архитектуру, а надежная экосистема Ultralytics гарантирует, что у вас есть инструменты, документация и поддержка сообщества, необходимые для достижения успеха.
Изучите другие модели
Если вам интересно, как DAMO-YOLO и YOLOv9 соотносятся с другими ведущими моделями, обязательно ознакомьтесь с этими другими сравнениями в документации Ultralytics:
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 против DAMO-YOLO
- Ultralytics YOLO11 vs. DAMO-YOLO
- RT-DETR против DAMO-YOLO
- YOLOv9 против YOLOv8
- YOLOv9 vs. EfficientDet