YOLOv9 против YOLO: всестороннее техническое сравнение
В быстро развивающейся области компьютерного зрения выбор оптимальной архитектуры обнаружения объектов имеет решающее значение для успеха проекта. В данном анализе приводится подробное техническое сравнение двух грозных моделей: YOLOv9известной своими архитектурными инновациями в области градиентной информации, и YOLO, моделью от Alibaba Group, разработанной для высокоскоростных выводов. Мы рассматриваем их уникальные архитектуры, показатели производительности и идеальные сценарии развертывания, чтобы помочь разработчикам и исследователям принять обоснованные решения.
YOLOv9: программируемая информация о градиенте для превосходной точности
YOLOv9 - это значительная эволюция в серии You Only Look OnceYOLO), направленная на решение проблемы "узкого места" в информации, присущей глубоким нейронным сетям. Благодаря тому, что важнейшие входные данные сохраняются во всех слоях сети, YOLOv9 достигает высочайшей точности.
Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
Организация:Institute of Information Science, Academia Sinica, Taiwan
Дата: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9 Documentation
Архитектура и основные инновации
Архитектура YOLOv9 построена на двух новаторских концепциях, призванных оптимизировать эффективность глубокого обучения:
- Программируемая градиентная информация (PGI): PGI - это вспомогательная система надзора, которая решает проблему потери информации при распространении данных через глубокие слои. Она гарантирует, что функция потерь получает надежные градиенты, позволяя модели изучать более эффективные характеристики без дополнительных затрат на вывод.
- Обобщенная эффективная сеть агрегации уровней (Generalized Efficient Layer Aggregation Network, GELAN): Эта новая архитектура сочетает в себе сильные стороны CSPNet и ELAN. GELAN разработана для максимального использования параметров и эффективности вычислений, обеспечивая легкую, но мощную магистраль, поддерживающую различные вычислительные блоки.
Сильные стороны и экосистема
- Точность высшего уровня: YOLOv9 достигает исключительной точности mAP на наборе данныхCOCO , устанавливая эталоны для детекторов объектов в реальном времени.
- Эффективность параметров: Благодаря GELAN модель обеспечивает высокую производительность при меньшем количестве параметров по сравнению со многими предшественниками.
- Интеграция сUltralytics : Принадлежность к экосистеме Ultralytics означает, что YOLOv9 получает преимущества унифицированного Python API, удобных опций экспорта моделейONNX, TensorRT, CoreML) и надежной документации.
- Стабильность обучения: Система PGI значительно улучшает скорость сходимости и стабильность при обучении модели.
Слабые стороны
- Ресурсоемкость: Несмотря на эффективность для своего класса точности, самые большие варианты (например, YOLOv9) требуют значительных ресурсов GPU памяти для обучения.
- Задача: Основное исследование в первую очередь направлено на обнаружение объектов, в то время как другие модели Ultralytics , такие как YOLO11 поддерживают более широкий спектр задач, включая оценку позы и OBB из коробки.
YOLO: нейронная архитектура в поисках скорости
YOLO служит подтверждением возможностей автоматизированного проектирования архитектуры. Разработанная компанией Alibaba, она использует нейроархитектурный поиск (NAS) для поиска оптимального баланса между задержкой вывода и производительностью обнаружения, специально ориентированного на промышленные приложения.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date: 2022-11-23
Arxiv:2211.15444
GitHub:YOLO
Архитектура и ключевые особенности
YOLO отличает несколько технологических достижений, направленных на максимальное увеличение производительности:
- MAE-NAS Backbone: Используется магистральная структура, полученная в результате поиска эффективной нейронной архитектуры с учетом метода, оптимизирующая топологию сети под конкретные аппаратные ограничения.
- Эффективная сеть RepGFPN: В модели используется репараметризованная обобщенная сеть пирамид признаков, что улучшает слияние признаков при сохранении низкой задержки.
- ZeroHead: облегченная конструкция головки обнаружения, которая позволяет снизить вычислительные затраты, обычно связанные с конечными слоями предсказания.
- AlignedOTA: улучшенная стратегия присвоения меток, которая решает проблему несоответствия между задачами классификации и регрессии во время обучения.
Сильные стороны
- Низкая задержка: YOLO разработан с учетом скорости, что делает его очень эффективным для вычислений в реальном времени на граничных устройствах и GPU.
- Автоматизированное проектирование: Использование NAS гарантирует, что архитектура будет математически настроена на эффективность, а не полагаться только на ручную эвристику.
- Без якорей: Используется подход без якорей, что упрощает процесс настройки гиперпараметров, связанных с якорными ящиками.
Слабые стороны
- Ограниченная экосистема: По сравнению с обширным инструментарием, доступным для моделей Ultralytics , YOLO имеет меньшее сообщество и меньшее количество готовых инструментов интеграции для MLOps.
- Универсальность: Она специализируется в основном на обнаружении, не имея встроенных многозадачных возможностей (сегментация, классификация), которые есть в более комплексных системах.
Анализ производительности: скорость в сравнении с точностью
При сравнении показателей производительности становится очевидным компромисс между двумя архитектурами. В YOLOv9 приоритет отдается сохранению информации для достижения высочайшей точности, часто превосходя YOLO по показателям mAP при схожих размерах моделей. И наоборот, YOLO фокусируется на сырой пропускной способности.
Однако эффективность GELAN-архитектуры YOLOv9 позволяет ей оставаться конкурентоспособной по скорости, обеспечивая при этом лучшее качество обнаружения. Например, YOLOv9 достигает значительно более высокого mAP (53,0%) по сравнению с YOLO (50,8%), используя при этом меньшее количество параметров (25,3M против 42,1M). Это подчеркивает способность YOLOv9 обеспечивать "большее за меньшее" с точки зрения сложности модели.
Интерпретация спектакля
При оценке моделей учитывайте количество операций с плавающей запятой ( FLOPs ) наряду с количеством параметров. Более низкое количество FLOPs обычно указывает на то, что модель легче в вычислениях и потенциально быстрее на мобильном или граничном оборудовании ИИ.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Идеальные варианты использования
Различия в архитектуре диктуют идеальные сценарии развертывания для каждой модели.
Приложения YOLOv9
YOLOv9 - это предпочтительный выбор для применения в тех случаях, когда точность не является обязательным условием.
- Медицинская визуализация: Обнаружение тонких аномалий при анализе медицинских изображений, когда пропуск обнаружения может оказаться критическим.
- Автономная навигация: Передовые системы восприятия для самоуправляемых автомобилей, требующие высокой достоверности обнаружения объектов.
- Детальное наблюдение: Системы безопасности, которым необходимо идентифицировать мелкие объекты или работать в сложных условиях с большим количеством помех.
Приложения YOLO
YOLO отлично работает в средах, ограниченных жестким бюджетом на задержку.
- Высокоскоростное производство: Промышленные линии, где системы компьютерного зрения должны идти в ногу со скоростными конвейерами.
- Видеоаналитика: Обработка огромных объемов видеопотоков, где стоимость пропускной способности является первоочередной задачей.
Преимущество Ultralytics
Хотя обе модели технически впечатляют, выбор модели в экосистемеUltralytics - такой как YOLOv9 или передовая модель YOLO11-дает разработчикам и предприятиям явные преимущества.
Бесшовный рабочий процесс и удобство использования
Ultralytics уделяет первостепенное внимание простоте использования. Доступ к моделям осуществляется через единый интерфейс, который абстрагирует сложный шаблонный код. Независимо от того, проводите ли вы обучение на пользовательских данных или выполняете вывод, процесс является последовательным и интуитивно понятным.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Хорошо поддерживаемая экосистема
Модели Ultralytics поддерживаются активным сообществом и часто обновляются. Такие функции, как Ultralytics HUB позволяют управлять наборами данных и проводить обучение через Интернет, а широкая интеграция с такими инструментами, как TensorBoard и MLflow, упрощает жизненный цикл MLOps. В отличие от этого, исследовательские модели, такие как YOLO , часто не имеют такого уровня постоянной поддержки и интеграции инструментов.
Универсальность и эффективность
Модели Ultralytics разработаны для того, чтобы быть универсальными. В то время как YOLO специализируется на распознавании, модели Ultralytics , такие как YOLO11 , расширяют возможности до сегментации экземпляров, оценки позы и определения ориентированных ограничительных рамок (OBB). Кроме того, они оптимизированы с точки зрения эффективности использования памяти, часто требуя меньше памяти CUDA во время обучения по сравнению с другими архитектурами, что позволяет экономить на стоимости оборудования.
Заключение
При сравнении YOLOv9 и YOLO обе модели демонстрируют стремительный прогресс в области искусственного интеллекта. YOLO предлагает привлекательную архитектуру для чистой оптимизации скорости. Однако, YOLOv9 является более надежным решением для большинства практических приложений. Она обеспечивает превосходную точность по каждому параметру, использует передовую архитектуру для предотвращения потери информации и входит в процветающую экосистему Ultralytics . Для разработчиков, которые ищут оптимальный баланс между производительностью, простотой использования и долгосрочной поддержкой, модели Ultralytics остаются рекомендованным выбором.
Изучите другие модели
В нашей документации вы найдете сравнение с другими современными моделями:
- YOLO11 vs. DAMO-YOLO
- YOLOv8 vs. DAMO-YOLO
- RT-DETR против DAMO-YOLO
- YOLOX в сравнении с DAMO-YOLO
- YOLOv10 против YOLO