Сравнение моделей: YOLOv9 и YOLOv8 для обнаружения объектов
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и вычислительные ресурсы. На этой странице представлено подробное техническое сравнение Ultralytics YOLOv8, универсальной и удобной модели, и YOLOv9, модели, известной своими новыми архитектурными достижениями. Мы проанализируем их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам определить, что лучше всего подходит для ваших проектов в области компьютерного зрения.
YOLOv9: Повышение точности с помощью новой архитектуры
YOLOv9 был представлен как значительный шаг вперед в обнаружении объектов, в первую очередь направленный на преодоление потери информации в глубоких нейронных сетях для повышения точности.
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21.02.2024
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Документация: https://docs.ultralytics.com/models/yolov9/
Архитектура и Ключевые Инновации
YOLOv9 представляет две основные инновации: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для предоставления полной входной информации для расчета функции потерь, что помогает смягчить проблему информационного узкого места и гарантирует, что для обновлений сети генерируются более надежные градиенты. GELAN — это новая, высокоэффективная архитектура сети, которая оптимизирует использование параметров и вычислительную эффективность. Вместе эти функции позволяют YOLOv9 достигать высокой точности, часто устанавливая новые современные эталоны в наборах данных, таких как COCO.
Сильные стороны
- Современная точность: Модели YOLOv9, особенно более крупные варианты, достигают топовых показателей mAP, расширяя границы точности обнаружения объектов в реальном времени.
- Высокая эффективность: Архитектура GELAN позволяет YOLOv9 обеспечивать высокую производительность с меньшим количеством параметров и вычислительных требований (FLOPs) по сравнению с некоторыми другими моделями с аналогичной точностью.
- Сохранение информации: PGI эффективно решает проблему потери информации в глубоких сетях, что имеет решающее значение для обучения очень глубоких и точных моделей.
Слабые стороны
- Экосистема и удобство использования: Как модель из исследовательского репозитория, YOLOv9 не имеет отлаженной, готовой к производству экосистемы, которую предоставляет Ultralytics. Процесс обучения может быть более сложным, а поддержка сообщества и интеграция со сторонними производителями менее развиты.
- Универсальность задач: Оригинальная реализация YOLOv9 в основном ориентирована на обнаружение объектов. Она не предлагает встроенной унифицированной поддержки для других задач компьютерного зрения, таких как сегментация, оценка позы или классификация, которые являются стандартными в моделях Ultralytics.
- Ресурсы для обучения: Обучение YOLOv9 может потребовать больше ресурсов и времени по сравнению с оптимизированными процессами, предлагаемыми Ultralytics YOLOv8.
Ultralytics YOLOv8: Универсальность и простота использования
Ultralytics YOLOv8 — это современная модель, разработанная Ultralytics, известная своим исключительным балансом скорости, точности и, что наиболее важно, простотой использования и универсальностью. Она разработана как полноценная платформа для обучения, проверки и развертывания моделей для широкого спектра задач визуального ИИ.
- Авторы: Glenn Jocher, Ayush Chaurasia, Jing Qiu
- Организация: Ultralytics
- Дата: 10.01.2023
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: https://docs.ultralytics.com/models/yolov8/
Архитектура и ключевые особенности
YOLOv8 основывается на успехах предыдущих версий YOLO со значительными архитектурными усовершенствованиями, включая новую anchor-free detection head и модифицированный backbone C2f (CSP с 2 свертками). Эта конструкция не только улучшает производительность, но и упрощает модель и этапы постобработки. Однако истинная сила YOLOv8 заключается в ее целостной экосистеме.
Сильные стороны
- Исключительный баланс производительности: YOLOv8 предлагает фантастический компромисс между скоростью и точностью, что делает его очень подходящим для широкого спектра реальных приложений, от периферийных устройств с ограниченными ресурсами до высокопроизводительных облачных серверов.
- Беспрецедентная универсальность: YOLOv8 — это настоящий многозадачный фреймворк. Он поддерживает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB) в рамках единого унифицированного фреймворка. Эта универсальность является основным преимуществом перед более специализированными моделями, такими как YOLOv9.
- Простота использования: Ultralytics уделила приоритетное внимание оптимизации пользовательского опыта. Благодаря простому Python API и CLI, обширной документации и множеству учебных пособий разработчики могут начать работу за считанные минуты.
- Хорошо поддерживаемая экосистема: YOLOv8 поддерживается активной разработкой со стороны Ultralytics, сильным сообществом open-source, частыми обновлениями и бесшовной интеграцией с Ultralytics HUB для обучения без кода и рабочих процессов MLOps.
- Эффективность обучения: Процесс обучения очень эффективен, с готовыми предварительно обученными весами и более низкими требованиями к памяти по сравнению со многими другими архитектурами, особенно моделями на основе трансформеров.
- Готовность к развертыванию: YOLOv8 разработана для простого развертывания со встроенной поддержкой экспорта в различные форматы, такие как ONNX, TensorRT и OpenVINO, что упрощает путь к производству.
Слабые стороны
- Пиковая точность: Будучи чрезвычайно точными, самые большие модели YOLOv9 могут достигать несколько более высокого mAP на эталонном тесте COCO в задаче чистого обнаружения объектов. Однако это часто достигается за счет универсальности и простоты использования.
Прямое сравнение производительности: точность и скорость
При сравнении производительности важно учитывать полную картину, включая точность (mAP), скорость инференса, размер модели (параметры) и вычислительные затраты (FLOP).
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Из таблицы видно, что YOLOv9-E достигает наивысшего mAP. Однако модели YOLOv8 демонстрируют превосходную скорость inference, особенно небольшие варианты, такие как YOLOv8n, что имеет решающее значение для приложений реального времени. YOLOv8 обеспечивает более полный и практичный профиль производительности на различном оборудовании, с хорошо документированными тестами скорости, которые необходимы для планирования производства.
Заключение: какую модель вам следует выбрать?
Выбор между YOLOv9 и YOLOv8 во многом зависит от приоритетов вашего проекта.
Выберите YOLOv9, если:
- Ваша основная и единственная цель — достичь абсолютно максимальной точности обнаружения объектов на таких бенчмарках, как COCO.
- Вы работаете в исследовательском контексте, где основной целью является изучение новых архитектур, таких как PGI и GELAN.
- У вас есть значительные вычислительные ресурсы и опыт для управления более сложным процессом обучения и развертывания.
Выберите Ultralytics YOLOv8, если:
- Вам нужна надежная, стабильная и простая в использовании модель для широкого спектра приложений.
- Вашему проекту требуется нечто большее, чем просто обнаружение объектов, например, сегментация экземпляров, оценка позы или классификация. Универсальность YOLOv8 экономит огромное количество времени на разработку.
- Вы уделяете приоритетное внимание быстрому и эффективному рабочему процессу, от обучения до развертывания. Экосистема Ultralytics разработана для ускорения вашего выхода в продакшн.
- Вам нужна модель, которая предлагает отличный баланс между скоростью и точностью, подходящая как для периферийных, так и для облачных развертываний.
- Вы цените сильную поддержку сообщества, непрерывные обновления и всестороннюю документацию.
Для подавляющего большинства разработчиков, исследователей и предприятий Ultralytics YOLOv8 является рекомендуемым выбором. Сочетание высокой производительности, невероятной универсальности и удобной, хорошо поддерживаемой экосистемы делает его более практичным и мощным инструментом для создания реальных решений в области компьютерного зрения.
Если вы изучаете другие модели, вам также может быть интересна Ultralytics YOLOv5, известная своей стабильностью и широким распространением, или RT-DETR, альтернативная архитектура на основе трансформеров. Больше сравнений вы можете найти на нашей странице сравнения моделей.