YOLOv9 vs. DAMO-YOLO: Подробное техническое сравнение
В быстро развивающейся области компьютерного зрения выбор оптимальной архитектуры обнаружения объектов имеет решающее значение для успеха проекта. В этом анализе представлено подробное техническое сравнение двух впечатляющих моделей: YOLOv9, известной своими архитектурными инновациями в области градиентной информации, и DAMO-YOLO, модели от Alibaba Group, разработанной для высокоскоростного вывода. Мы рассмотрим их уникальные архитектуры, показатели производительности и идеальные сценарии развертывания, чтобы помочь разработчикам и исследователям принимать обоснованные решения.
YOLOv9: Программируемая градиентная информация для превосходной точности
YOLOv9 знаменует собой значительную эволюцию в серии You Only Look Once (YOLO), фокусируясь на решении проблемы информационного узкого места, присущей глубоким нейронным сетям. Обеспечивая сохранение критически важных входных данных на протяжении всех слоев сети, YOLOv9 достигает современной точности.
Авторы: Чен-Яо Ван и Хун-Юань Марк Ляо
Организация:Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Документация:Документация Ultralytics YOLOv9
Архитектура и ключевые инновации
Архитектура YOLOv9 построена на двух новаторских концепциях, разработанных для оптимизации эффективности глубокого обучения:
- Программируемая градиентная информация (PGI): PGI - это вспомогательная структура контроля, которая решает проблему потери информации при распространении данных через глубокие слои. Она гарантирует, что функция потерь получает надежные градиенты, позволяя модели изучать более эффективные признаки без увеличения стоимости вывода.
- Обобщенная эффективная сеть агрегации слоев (GELAN): Эта новая архитектура сочетает в себе сильные стороны CSPNet и ELAN. GELAN разработана для максимального использования параметров и вычислительной эффективности, обеспечивая легкую, но мощную магистральную сеть, поддерживающую различные вычислительные блоки.
Сильные стороны и экосистема
- Высочайшая точность: YOLOv9 достигает исключительных показателей mAP на наборе данных COCO, устанавливая эталоны для детекторов объектов в реальном времени.
- Эффективность параметров: Благодаря GELAN, модель обеспечивает высокую производительность с меньшим количеством параметров по сравнению со многими предшественниками.
- Интеграция Ultralytics: Будучи частью экосистемы Ultralytics, YOLOv9 выигрывает от унифицированного Python API, бесшовных опций экспорта моделей (ONNX, TensorRT, CoreML) и надежной документации.
- Стабильность обучения: Фреймворк PGI значительно улучшает скорость сходимости и стабильность во время обучения модели.
Слабые стороны
- Интенсивность использования ресурсов: Несмотря на эффективность для своего класса точности, самые большие варианты (например, YOLOv9-E) требуют значительного объема памяти GPU для обучения.
- Фокус на задачу: Основное исследование в первую очередь нацелено на обнаружение объектов, тогда как другие модели Ultralytics, такие как YOLO11, изначально поддерживают более широкий спектр задач, включая оценку позы и OBB из коробки.
DAMO-YOLO: поиск нейронной архитектуры для скорости
DAMO-YOLO служит свидетельством силы автоматизированного проектирования архитектуры. Разработанный Alibaba, он использует поиск нейронной архитектуры (NAS) для нахождения оптимального баланса между задержкой inference и производительностью detect, специально ориентируясь на промышленные применения.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:2211.15444
GitHub:tinyvision/DAMO-YOLO
Архитектура и ключевые особенности
DAMO-YOLO выделяется рядом технологических усовершенствований, направленных на максимизацию пропускной способности:
- Бэкбон MAE-NAS: Он использует структуру бэкбона, полученную с помощью Method-Aware Efficient Neural Architecture Search, оптимизируя топологию сети для конкретных аппаратных ограничений.
- Эффективный RepGFPN: Модель использует Reparameterized Generalized Feature Pyramid Network для своего neck, улучшая слияние признаков при сохранении низкой задержки.
- ZeroHead: облегченная конструкция головки обнаружения, которая позволяет снизить вычислительные затраты, обычно связанные с конечными слоями предсказания.
- AlignedOTA: Улучшенная стратегия назначения меток, которая решает проблему рассогласования между задачами классификации и регрессии во время обучения.
Сильные стороны
- Низкая задержка: DAMO-YOLO разработан для скорости, что делает его очень эффективным для инференса в реальном времени на периферийных устройствах и GPU.
- Автоматизированное проектирование: Использование NAS гарантирует, что архитектура математически настроена для эффективности, а не полагается исключительно на ручную эвристику.
- Без привязки к якорям: Он использует подход без привязки к якорям, упрощая процесс настройки гиперпараметров, связанных с anchor box.
Слабые стороны
- Ограниченная экосистема: По сравнению с обширным инструментарием, доступным для моделей Ultralytics, DAMO-YOLO имеет меньшее сообщество и меньше готовых инструментов интеграции для MLOps.
- Универсальность: В основном он специализируется на detect, не имея встроенных многозадачных возможностей (segmentation, classification), которые есть в более комплексных фреймворках.
Анализ производительности: скорость в сравнении с точностью
При сравнении показателей производительности становятся очевидными компромиссы между двумя архитектурами. YOLOv9 отдает приоритет сохранению информации для достижения превосходной точности, часто превосходя DAMO-YOLO по показателям mAP при сопоставимых размерах моделей. И наоборот, DAMO-YOLO фокусируется на чистой пропускной способности.
Однако, эффективность архитектуры GELAN в YOLOv9 позволяет ей оставаться весьма конкурентоспособной в скорости, предлагая при этом лучшее качество detect. Например, YOLOv9-C достигает значительно более высокого mAP (53.0%) по сравнению с DAMO-YOLO-L (50.8%), используя при этом меньше параметров (25.3M против 42.1M). Это подчеркивает способность YOLOv9 предоставлять «больше за меньшее» с точки зрения сложности модели.
Интерпретация производительности
При оценке моделей учитывайте FLOPs (операции с плавающей запятой) наряду с количеством параметров. Более низкий показатель FLOPs обычно указывает на модель, которая является вычислительно более легкой и потенциально более быстрой на мобильном или периферийном AI оборудовании.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Идеальные варианты использования
Архитектурные различия определяют идеальные сценарии развертывания для каждой модели.
Применение YOLOv9
YOLOv9 – предпочтительный выбор для приложений, где точность не подлежит обсуждению.
- Медицинская визуализация: Обнаружение незначительных аномалий в анализе медицинских изображений, где пропуск обнаружения может быть критичным.
- Автономная навигация: Передовые системы восприятия для беспилотных автомобилей, требующие высокой уверенности в обнаружении объектов.
- Детальное наблюдение: Системы безопасности, которым необходимо идентифицировать мелкие объекты или работать в сложных условиях с высокой зашумленностью.
Приложения DAMO-YOLO
DAMO-YOLO превосходен в средах, ограниченных жесткими ограничениями по задержке.
- Высокоскоростное производство: Промышленные линии, где системы компьютерного зрения должны не отставать от быстрых конвейерных лент.
- Видеоаналитика: Обработка огромных объемов видеопотоков, где стоимость пропускной способности является основной проблемой.
Преимущество Ultralytics
Несмотря на то, что обе модели технически впечатляют, выбор модели в рамках экосистемы Ultralytics, такой как YOLOv9 или передовая YOLO11, предлагает явные преимущества для разработчиков и предприятий.
Простой рабочий процесс и удобство использования
Ultralytics уделяет первоочередное внимание простоте использования. Модели доступны через унифицированный интерфейс, который абстрагирует сложный шаблонный код. Независимо от того, обучаетесь ли вы на пользовательских данных или запускаете вывод, процесс является последовательным и интуитивно понятным.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Хорошо поддерживаемая экосистема
Модели Ultralytics поддерживаются активным сообществом и частыми обновлениями. Такие функции, как Ultralytics HUB, позволяют управлять наборами данных и обучением через Интернет, а широкая интеграция с такими инструментами, как TensorBoard и MLflow, упрощает жизненный цикл MLOps. В отличие от этого, исследовательским моделям, таким как DAMO-YOLO, часто не хватает такого уровня постоянной поддержки и интеграции инструментов.
Универсальность и эффективность
Модели Ultralytics разработаны как универсальные. В то время как DAMO-YOLO специфичен для detect, модели Ultralytics, такие как YOLO11, расширяют возможности до instance segmentation, оценки позы и detect ориентированных ограничивающих рамок (OBB). Кроме того, они оптимизированы для эффективности памяти, часто требуя меньше памяти CUDA во время обучения по сравнению с другими архитектурами, что позволяет сэкономить на аппаратных затратах.
Заключение
В сравнении YOLOv9 и DAMO-YOLO обе модели демонстрируют быстрый прогресс в области ИИ. DAMO-YOLO предлагает убедительную архитектуру для чистой оптимизации скорости. Однако YOLOv9 выделяется как более надежное решение для большинства практических приложений. Он обеспечивает превосходную точность на параметр, использует усовершенствованную архитектуру для предотвращения потери информации и находится в процветающей экосистеме Ultralytics. Для разработчиков, стремящихся к наилучшему балансу производительности, простоты использования и долгосрочной поддержки, модели Ultralytics остаются рекомендуемым выбором.
Изучите другие модели
Узнайте, как другие современные модели сравниваются в нашей документации:
- YOLO11 vs. DAMO-YOLO
- YOLOv8 vs. DAMO-YOLO
- RT-DETR против DAMO-YOLO
- YOLOX в сравнении с DAMO-YOLO
- YOLOv10 vs DAMO-YOLO