YOLO11 против YOLOv9: Техническое сравнение для обнаружения объектов
Ultralytics последовательно предоставляет современные модели YOLO, расширяя границы обнаружения объектов в реальном времени. На этой странице представлено техническое сравнение двух передовых моделей: Ultralytics YOLO11 и YOLOv9. Мы анализируем их архитектурные инновации, эталонные показатели производительности и подходящие приложения, чтобы помочь вам в выборе оптимальной модели для ваших задач компьютерного зрения.
Ultralytics YOLO11: Передовые технологии
Ultralytics YOLO11, новейшая итерация в серии Ultralytics YOLO, основана на предыдущих успехах, таких как YOLOv8. YOLO11 разработана для повышения точности и эффективности в различных задачах компьютерного зрения, включая обнаружение объектов, сегментацию экземпляров, классификацию изображений и оценку позы.
Технические детали:
- Авторы: Гленн Джохер, Цзин Цю
- Организация: Ultralytics
- Дата: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: https://docs.ultralytics.com/models/yolo11/
Архитектура и ключевые особенности
YOLO11 имеет архитектуру, разработанную для улучшенного извлечения признаков и более быстрой обработки. Он достигает более высокой точности, часто с меньшим количеством параметров, чем предшественники, улучшая производительность в реальном времени и позволяя развертывание на различных платформах, от периферийных устройств, таких как NVIDIA Jetson и Raspberry Pi, до облачной инфраструктуры. Ключевым преимуществом YOLO11 является его полная интеграция в хорошо поддерживаемую экосистему Ultralytics, предлагающую оптимизированный пользовательский интерфейс через простой Python API и обширную документацию. Эта экосистема обеспечивает эффективное обучение с легкодоступными предварительно обученными весами и получает выгоду от активной разработки, сильной поддержки сообщества через GitHub и Discord, а также частых обновлений. Кроме того, YOLO11 демонстрирует универсальность, поддерживая несколько задач машинного зрения, помимо обнаружения, что часто отсутствует в конкурирующих моделях. Он также обычно требует меньше памяти во время обучения и инференса по сравнению с другими типами моделей, такими как transformers.
Сильные стороны
- Баланс производительности: Отличный компромисс между скоростью и точностью.
- Простота использования: Простой API, исчерпывающая документация и интегрированная экосистема (Ultralytics HUB).
- Универсальность: Поддерживает задачи обнаружения, сегментации, классификации, определения позы и OBB.
- Эффективность: Оптимизирована для различного оборудования, эффективного обучения и меньшего объема памяти.
- Развитая поддержка: Активная разработка, мощная поддержка сообщества и частые обновления.
Слабые стороны
- Как одноэтапный детектор, может столкнуться с проблемами с очень маленькими объектами по сравнению с некоторыми двухэтапными детекторами.
- Более крупные модели требуют больше вычислительных ресурсов, хотя, как правило, меньше, чем модели на основе трансформеров.
Идеальные варианты использования
YOLO11 идеально подходит для приложений, требующих высокой точности и обработки в реальном времени:
- Умные города: Для управления дорожным движением и систем безопасности.
- Здравоохранение: В анализе медицинских изображений для диагностической поддержки.
- Производство: Для контроля качества на автоматизированных производственных линиях.
- Сельское хозяйство: В мониторинге здоровья посевов для точного земледелия.
YOLOv9: Повышение точности с помощью новых концепций
YOLOv9, представленная в начале 2024 года, представляет собой значительный академический вклад в обнаружение объектов, направленный на преодоление потери информации в глубоких нейронных сетях.
Технические детали:
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21.02.2024
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Документация: https://docs.ultralytics.com/models/yolov9/
Архитектура и ключевые особенности
YOLOv9 представляет две основные архитектурные инновации: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для предоставления полной входной информации для расчета функции потерь, тем самым смягчая проблему информационного узкого места, которая может ухудшить производительность в глубоких сетях. GELAN — это новая, высокоэффективная архитектура сети, которая оптимизирует использование параметров и вычислительную эффективность. Вместе эти функции позволяют YOLOv9 устанавливать новые эталоны точности на наборе данных COCO.
Сильные стороны
- Повышенная точность: Устанавливает новые передовые результаты на наборе данных COCO для детекторов объектов в реальном времени, превосходя многие предыдущие модели по mAP.
- Повышенная эффективность: GELAN и PGI способствуют созданию моделей, которые требуют меньше параметров и вычислительных ресурсов (FLOPs) для сопоставимой или лучшей производительности.
- Сохранение информации: PGI эффективно решает проблему информационного узкого места, что имеет решающее значение для точного обучения более глубоких и сложных сетей.
Слабые стороны
- Ресурсы для обучения: Как отмечено в документации YOLOv9, обучение моделей YOLOv9 может потребовать больше ресурсов и времени по сравнению с Ultralytics YOLOv5.
- Новая архитектура: Поскольку это более новая модель от другой исследовательской группы, ее экосистема, поддержка сообщества и интеграция со сторонними разработчиками менее развиты, чем у хорошо зарекомендовавшей себя экосистемы Ultralytics.
- Универсальность задач: В основном ориентирован на обнаружение объектов, не имеет встроенной поддержки для сегментации, классификации и оценки позы, которые есть в моделях Ultralytics, таких как YOLO11 и YOLOv8.
Идеальные варианты использования
YOLOv9 хорошо подходит для приложений, в которых достижение максимально возможной точности обнаружения объектов является основной целью:
- Расширенная видеоаналитика: Высокоточная трассировка и анализ в сложных сценах.
- Высокоточный промышленный контроль: Обнаружение мельчайших дефектов в производстве.
- Исследования и бенчмаркинг: Расширение границ точности обнаружения на стандартных наборах данных.
Прямое сравнение производительности: YOLO11 против YOLOv9
YOLO11 и YOLOv9 предлагают широкий выбор размеров моделей, что позволяет разработчикам найти правильный баланс между скоростью и точностью для своих конкретных потребностей. В следующей таблице представлено прямое сравнение их показателей производительности на наборе данных COCO.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Из данных видно, что модели YOLO11 предлагают исключительный баланс производительности. Например, YOLO11s достигает более высокого mAP, чем YOLOv9s, с меньшим количеством FLOPs. Аналогично, YOLO11l превосходит YOLOv9c по точности, имея при этом значительно более низкие FLOPs и более высокую скорость inference на GPU. В то время как самая большая модель YOLOv9-E достигает наивысшего mAP, YOLO11 обеспечивает более практичный компромисс во всем модельном ряду, особенно если учитывать всесторонние тесты скорости и простоту развертывания, предоставляемые фреймворком Ultralytics.
Архитектурные и Экосистемные Различия
Основное различие заключается в их философии проектирования. Ultralytics YOLO11 создан для практиков. Его архитектура оптимизирована не только для производительности, но и для удобства использования, универсальности и интеграции. Унифицированная структура поддерживает несколько задач из коробки, что значительно сокращает время разработки сложных систем искусственного интеллекта. Окружающая экосистема, включая Ultralytics HUB, обширную документацию и активное сообщество, делает его идеальным выбором для создания и развертывания готовых к производству приложений.
YOLOv9, с другой стороны, — это модель, ориентированная на исследования, которая представляет новаторские академические концепции. Ее сила заключается в новом подходе к решению проблем глубокого обучения, таких как потеря информации. Несмотря на свою мощность, этот фокус означает, что ей не хватает целостной, удобной для разработчиков экосистемы, которая определяет модели Ultralytics. Интеграция YOLOv9 в многозадачный конвейер или развертывание ее на различном оборудовании может потребовать больше ручных усилий и опыта.
Заключение: какую модель вам следует выбрать?
Для подавляющего большинства разработчиков, исследователей и предприятий Ultralytics YOLO11 является рекомендуемым выбором. Он предлагает превосходное сочетание высокой производительности, скорости, универсальности и беспрецедентной простоты использования. Надежная экосистема и активная поддержка гарантируют, что вы сможете быстро и эффективно перейти от концепции к производству. Его способность обрабатывать обнаружение, сегментацию, классификацию и многое другое в рамках единой структуры делает его мощным и перспективным решением.
YOLOv9 — отличная модель для специалистов и исследователей, чья основная цель — достичь абсолютно максимальной точности обнаружения на бенчмарках и которые готовы справиться с дополнительными сложностями обучения и развертывания вне интегрированной экосистемы.
Изучите другие модели
Мир обнаружения объектов постоянно развивается. Помимо YOLO11 и YOLOv9, вас могут заинтересовать и другие мощные модели, доступные в экосистеме Ultralytics. Ознакомьтесь с нашими сравнениями YOLOv10, предшественника YOLOv8 и RT-DETR на основе трансформеров, чтобы найти идеальное решение для вашего проекта.