YOLOv9 vs. DAMO-YOLO: техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает потребность в точности, скорости инференса и вычислительной эффективности. На этой странице представлено подробное техническое сравнение двух мощных моделей: YOLOv9, известной своими архитектурными инновациями, и DAMO-YOLO, признанной за свою скорость. Мы рассмотрим их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших проектов в области компьютерного зрения.
YOLOv9: Продвинутое обучение с программируемой градиентной информацией
YOLOv9 представляет собой значительный скачок вперед в обнаружении объектов, решая фундаментальные проблемы потери информации в глубоких нейронных сетях. Его интеграция в экосистему Ultralytics делает его не только мощным, но и исключительно доступным.
Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Документация: https://docs.ultralytics.com/models/yolov9/
Архитектура и ключевые особенности
YOLOv9 представляет две новаторские концепции: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для сохранения полной входной информации для функции потерь, смягчая проблему информационного узкого места, которая часто ухудшает производительность глубоких сетей. GELAN — это новая, высокоэффективная архитектура сети, которая оптимизирует использование параметров и вычислительные затраты.
При реализации в рамках фреймворка Ultralytics передовая архитектура YOLOv9 сочетается с набором функций, разработанных для разработчиков:
- Простота использования: Оптимизированный пользовательский опыт с простым Python API и CLI, подкрепленный обширной документацией.
- Хорошо поддерживаемая экосистема: Преимущества активной разработки, сильной поддержки сообщества, частых обновлений и интеграции с такими инструментами, как Ultralytics HUB, для обучения и развертывания без кода.
- Эффективность обучения: Предлагает эффективные процессы обучения с легкодоступными предварительно обученными весами и обычно требует меньше памяти, чем многие конкурирующие модели.
- Универсальность: Хотя в оригинальной статье основное внимание уделяется обнаружению объектов, в репозитории упоминаются возможности сегментации экземпляров и паноптической сегментации, что соответствует многозадачному характеру моделей Ultralytics.
Сильные стороны
- Современная точность: Достигает лидирующих показателей mAP на наборе данных COCO, часто превосходя другие модели аналогичного масштаба.
- Превосходная эффективность параметров: Архитектура GELAN позволяет YOLOv9 обеспечивать высокую точность со значительно меньшим количеством параметров и FLOPs по сравнению со многими конкурентами.
- Сохранение информации: PGI эффективно решает проблему потери информации, обеспечивая более точное обучение более глубоких и сложных моделей.
- Надежность и поддержка: Интеграция в экосистему Ultralytics обеспечивает надежность, непрерывное совершенствование и доступ к большому количеству ресурсов.
Слабые стороны
- Более новая модель: Будучи недавним релизом, объем примеров развертывания, созданных сообществом, все еще может расти, хотя ее внедрение быстро ускоряется фреймворком Ultralytics.
- Потребности в ресурсах для больших моделей: Самый большой вариант, YOLOv9-E, хотя и обладает высокой точностью, требует значительных вычислительных ресурсов для обучения.
DAMO-YOLO: Скорость и точность благодаря поиску нейронной архитектуры
DAMO-YOLO — это быстрая и точная модель обнаружения объектов, разработанная Alibaba Group. Она использует несколько современных методов для достижения превосходного баланса между скоростью и производительностью, особенно на оборудовании GPU.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
Архитектура и ключевые особенности
Архитектура DAMO-YOLO является результатом сочетания передовых методов:
- Neural Architecture Search (NAS): Использует NAS для создания эффективной backbone сети (TinyNAS).
- Эффективный дизайн neck: Использует эффективный RepGFPN (Generalized Feature Pyramid Network) для объединения признаков.
- ZeroHead: Упрощенная, вычислительно легкая голова обнаружения.
- AlignedOTA: Улучшенная стратегия назначения меток для более эффективного обучения.
- Дистилляция: Использует дистилляцию знаний для повышения производительности небольших моделей.
Сильные стороны
- Высокая скорость инференса: DAMO-YOLO хорошо оптимизирована для быстрого инференса на GPU, что делает ее сильным кандидатом для сценариев инференса в реальном времени.
- Высокая производительность: Обеспечивает конкурентное соотношение скорости и точности, особенно для своих меньших вариантов.
- Инновационные техники: Включает современные методы, такие как NAS и расширенное назначение меток, для расширения границ производительности.
- Anchor-Free: Как детектор без привязки к якорям (anchor-free detector), он упрощает конвейер обнаружения, устраняя необходимость настройки якорных прямоугольников.
Слабые стороны
- Специфичность задачи: В основном разработан для обнаружения объектов, ему не хватает встроенной универсальности для других задач, таких как сегментация, оценка позы или классификация, которые есть в моделях Ultralytics.
- Экосистема и поддержка: Как исследовательский проект, ему не хватает комплексной экосистемы, обширной документации и активной поддержки сообщества, которые характеризуют модели Ultralytics. Это может затруднить интеграцию и устранение неполадок.
- Более высокое количество параметров: По сравнению с YOLOv9, модели DAMO-YOLO часто имеют больше параметров и FLOPs для достижения аналогичного или более низкого уровня точности.
Анализ производительности: YOLOv9 против DAMO-YOLO
При сравнении производительности YOLOv9 демонстрирует явное преимущество как в точности, так и в эффективности использования параметров. Самая большая модель, YOLOv9-E, устанавливает новый современный эталон с 55,6% mAP на COCO. Во всех размерах моделей YOLOv9 последовательно использует меньше параметров и, во многих случаях, меньше FLOPs, чем его аналоги DAMO-YOLO, для достижения более высокой точности.
Несмотря на то, что модели DAMO-YOLO демонстрируют очень высокую скорость инференса на NVIDIA T4 GPU, YOLOv9 остается весьма конкурентоспособной, особенно если учитывать ее превосходную точность и эффективность. Например, YOLOv9-C немного быстрее, чем DAMO-YOLO-L, при этом значительно точнее (53,0 против 50,8 mAP) и использует гораздо меньше параметров (25,3M против 42,1M).
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Идеальные варианты использования
YOLOv9
YOLOv9 — идеальный выбор для приложений, где точность и эффективность имеют первостепенное значение. Его способность обеспечивать самые современные результаты с меньшим количеством параметров делает его идеальным для:
- Высокоточные системы: Приложения в области автономного вождения, анализа медицинских изображений и контроля качества в промышленности.
- Развертывание с ограниченными ресурсами: Меньшие варианты YOLOv9 отлично подходят для периферийных AI устройств, где вычислительные ресурсы ограничены, но по-прежнему требуется высокая производительность.
- Многозадачные решения: Проекты, которые могут быть расширены для включения сегментации или других задач компьютерного зрения, выигрывают от универсальной основы, предоставляемой экосистемой Ultralytics.
- Исследования и разработки: Ее инновационная архитектура обеспечивает прочную основу для исследователей, изучающих новые рубежи в глубоком обучении.
DAMO-YOLO
DAMO-YOLO превосходно подходит для сценариев, в которых максимизация пропускной способности GPU является основной целью, а приложение строго ориентировано на обнаружение объектов.
- Высокопроизводительная видеоаналитика: Облачные сервисы, которые обрабатывают большое количество видеопотоков одновременно.
- Приложения реального времени на GPU: Системы, где скорость инференса на GPU является наиболее важным показателем, и небольшие компромиссы в точности допустимы.
Заключение: почему YOLOv9 является рекомендуемым выбором
Несмотря на то, что DAMO-YOLO является грозным детектором объектов с впечатляющей скоростью на GPU, Ultralytics YOLOv9 становится превосходным и более практичным выбором для подавляющего большинства разработчиков и исследователей.
YOLOv9 не только обеспечивает более высокую точность, но и делает это с большей эффективностью использования параметров. Это приводит к созданию моделей, которые меньше, дешевле в вычислительном отношении и проще в развертывании. Однако истинным отличительным фактором является экосистема Ultralytics. Выбирая YOLOv9, вы получаете доступ к хорошо поддерживаемой, полностью интегрированной платформе, которая упрощает каждый этап жизненного цикла MLOps — от аннотации и обучения данных до развертывания и мониторинга. Сочетание первоклассной производительности, простоты использования, универсальности в решении различных задач и надежной поддержки делает YOLOv9 наиболее эффективным и надежным решением для создания передовых приложений компьютерного зрения.
Изучите другие модели
Если вам интересно, как DAMO-YOLO соотносится с другими современными моделями, ознакомьтесь с этими другими сравнениями в нашей документации:
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- RT-DETR против DAMO-YOLO
- YOLOX в сравнении с DAMO-YOLO
- YOLOv10 против DAMO-YOLO