YOLOv9 против YOLO11: эволюция архитектуры и анализ производительности
Компьютерное зрение характеризуется стремительными инновациями, а модели постоянно расширяют границы точности, скорости и эффективности. В этом сравнении рассматриваются две важные вехи в области обнаружения объектов: YOLOv9модель, ориентированная на исследования и представляющая новые архитектурные концепции, и Ultralytics YOLO11новейшая разработка, готовая к производству и предназначенная для использования в реальных условиях.
Пока YOLOv9 фокусируется на устранении информационных узких мест глубокого обучения с помощью теоретических прорывов, Ultralytics YOLO11 совершенствует современную производительность (SOTA), уделяя особое внимание удобству использования, эффективности и бесшовной интеграции в экосистемуUltralytics .
Метрики производительности: Скорость и точность
В следующей таблице представлено прямое сравнение ключевых показателей производительности, оцененных на наборе данныхCOCO . При выборе модели очень важно соблюдать баланс между средней точностьюmAP) и скоростью вывода и вычислительными затратами (FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Как видно из данных, YOLO11 демонстрирует превосходную эффективность. Например, модель YOLO11n достигает более высокого mAP (39,5 %), чем YOLOv9t (38,3 %), используя при этом меньшее количество FLOP и значительно быстрее работая на GPU. Хотя самая большая модель YOLOv9e имеет небольшое преимущество в сырой точности, она требует почти вдвое больше времени на вывод, чем YOLO11l, что делает YOLO11 более прагматичным выбором для сценариев вывода в реальном времени.
YOLOv9: решение проблемы информационного узкого места
YOLOv9 был выпущен с конкретной научной целью: решить проблему потери информации при прохождении данных через глубокие нейронные сети. На его архитектуру сильно влияет необходимость сохранять градиентную информацию во время обучения.
Технические подробности:
Авторы: Chien-Yao Wang, Hong-Yuan Mark Liao
Организация:Institute of Information Science, Academia Sinica, Taiwan
Дата: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics
Основные архитектурные особенности
Основными инновациями YOLOv9 являются программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN).
- PGI: Эта вспомогательная система контроля гарантирует, что глубокие слои получают достоверную информацию о градиенте, смягчая "информационное узкое место", которое часто мешает сходимости глубоких сетей.
- GELAN: эта архитектура оптимизирует эффективность параметров, объединяя сильные стороны CSPNet и ELAN, что позволяет гибко масштабировать вычисления.
Академическая направленность
YOLOv9 служит отличным примером для исследователей, интересующихся теорией глубокого обучения, в частности, градиентным потоком и сохранением информации в конволюционных нейронных сетях.
Ultralytics YOLO11: универсальность и эффективность
Опираясь на наследие YOLOv8YOLO11 представляет собой вершину ориентированного на производство компьютерного зрения. Он разработан не только для получения результатов в бенчмарках, но и для практического применения, простоты использования и многозадачности.
Технические детали:
Авторы: Гленн Джочер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHubultralytics
Docsyolo11
Основные архитектурные особенности
YOLO11 представляет усовершенствованную архитектуру, разработанную для максимального извлечения признаков при минимизации вычислительных затрат. В ней используется улучшенная структура позвоночника и шеи, которая улучшает интеграцию признаков в разных масштабах, что очень важно для обнаружения мелких объектов.
Модель также отличается улучшенной конструкцией головы для более быстрой сходимости в процессе обучения. В отличие от моделей, ориентированных на исследования, YOLO11 построена на единой основе, которая поддерживает обнаружение, сегментацию, классификацию, оценку позы и ориентированные граничные поля (OBB).
Подробные пункты сравнения
Простота использования и экосистема
Одно из самых значительных различий заключается в пользовательском опыте. Ultralytics YOLO11 разработан с учетом интересов разработчиков. Он легко интегрируется с более широкой экосистемой Ultralytics , которая включает инструменты для аннотирования данных, управления наборами данных и экспорта моделей.
- YOLO11: Обучение, проверку и развертывание можно провести с помощью нескольких строк кода, используя
ultralyticsПакет Python или CLI. Он отличается частыми обновлениями, обширной документацией и многочисленным сообществом. - YOLOv9: Несмотря на поддержку библиотеки Ultralytics , оригинальная реализация и некоторые расширенные конфигурации могут потребовать более глубокого понимания основополагающей научной работы.
Требования к памяти и эффективность тренировок
Эффективное использование ресурсов - отличительная черта моделей Ultralytics . YOLO11 оптимизирован таким образом, что требует меньше памяти CUDA во время обучения по сравнению со многими альтернативами на основе трансформаторов или старыми итерациями YOLO . Это позволяет разработчикам обучать большие объемы партий на оборудовании потребительского класса, ускоряя цикл разработки.
Кроме того, YOLO11 предоставляет легкодоступные, высококачественные предварительно обученные веса для всех задач, обеспечивая быстрое и эффективное обучение переносу. Это контрастирует с исследовательскими моделями, которые могут предлагать ограниченное количество предварительно обученных контрольных точек, ориентированных в основном на обнаружение COCO .
Универсальность задач
Хотя YOLOv9 известен прежде всего своими достижениями в области обнаружения объектов, YOLO11 предлагает встроенную поддержку широкого спектра задач компьютерного зрения в рамках единого фреймворка:
- Сегментация объектов: Точное маскирование объектов.
- Оценка позы: Обнаружение ключевых точек скелета (например, для определения позы человека).
- Классификация: Классификация целых изображений.
- Ориентированные граничные коробки (OBB): Обнаружение повернутых объектов, что очень важно для аэрофотосъемки.
Унифицированный API
Переключение между задачами в YOLO11 осуществляется так же просто, как и изменение файла веса модели (например, с yolo11n.pt для обнаружения yolo11n-seg.pt для сегментации).
Пример кода: Сравнение в действии
Следующий Python демонстрирует, как легко обе модели могут быть загружены и использованы в рамках Ultralytics , подчеркивая унифицированный API, который упрощает тестирование различных архитектур.
from ultralytics import YOLO
# Load the research-focused YOLOv9 model (compact version)
model_v9 = YOLO("yolov9c.pt")
# Load the production-optimized YOLO11 model (medium version)
model_11 = YOLO("yolo11m.pt")
# Run inference on a local image
# YOLO11 provides a balance of speed and accuracy ideal for real-time apps
results_11 = model_11("path/to/image.jpg")
# Display results
results_11[0].show()
Идеальные варианты использования
Когда выбирать YOLOv9
YOLOv9 - отличный выбор для академических исследований и сценариев, где максимальная точность на статичных изображениях является единственным приоритетом, независимо от вычислительных затрат.
- Исследовательские проекты: Исследование градиентного потока и архитектуры нейронных сетей.
- Бенчмаркинг: Соревнования, в которых важна каждая доля mAP .
- Развертывание серверов высокого класса: Где имеются мощные графические процессоры (например, A100), способные обрабатывать большее количество FLOP в варианте 'E'.
Когда стоит выбирать Ultralytics YOLO11
YOLO11 - это рекомендуемый выбор для коммерческих приложений, вычислений на границе и многозадачных систем.
- Edge AI: развертывание на таких устройствах, как NVIDIA Jetson или Raspberry Pi, благодаря превосходному соотношению скорости и веса.
- Аналитика в реальном времени: Мониторинг трафика, спортивный анализ и контроль качества производства, где задержка является критически важной.
- Сложные конвейеры: Приложения, требующие одновременного обнаружения, сегментации и оценки позы.
- Быстрое прототипирование: Стартапы и предприятия, которым необходимо быстро перейти от концепции к внедрению, используют APIUltralytics .
Другие модели для изучения
Хотя YOLOv9 и YOLO11 являются мощными соперниками, библиотека Ultralytics поддерживает множество других моделей, предназначенных для конкретных нужд:
- YOLOv8: надежный предшественник YOLO11, по-прежнему широко используется и поддерживается.
- RT-DETR: детектор на основе трансформатора, который отличается высокой точностью, но может требовать больше памяти.
- YOLOv10: отдельная архитектура, ориентированная на обучение NMS для снижения задержки в определенных конфигурациях.
Ознакомьтесь с полным набором опций в разделе "Сравнение моделей".
Заключение
Обе архитектуры представляют собой значительные достижения в области компьютерного зрения. YOLOv9 вносит ценный теоретический вклад в обучение глубоких сетей, в то время как Ultralytics YOLO11 синтезирует эти достижения в надежный, универсальный и высокоэффективный инструмент для всего мира. Для большинства разработчиков и исследователей, стремящихся создавать масштабируемые приложения, работающие в режиме реального времени, баланс производительности, простоты использования и всесторонней поддержки экосистемы делает YOLO11 лучшим выбором.