Перейти к содержанию

YOLOv9 против YOLO11: эволюция архитектуры и анализ производительности

Компьютерное зрение характеризуется стремительными инновациями, а модели постоянно расширяют границы точности, скорости и эффективности. В этом сравнении рассматриваются две важные вехи в области обнаружения объектов: YOLOv9модель, ориентированная на исследования и представляющая новые архитектурные концепции, и Ultralytics YOLO11новейшая разработка, готовая к производству и предназначенная для использования в реальных условиях.

Пока YOLOv9 фокусируется на устранении информационных узких мест глубокого обучения с помощью теоретических прорывов, Ultralytics YOLO11 совершенствует современную производительность (SOTA), уделяя особое внимание удобству использования, эффективности и бесшовной интеграции в экосистемуUltralytics .

Метрики производительности: Скорость и точность

В следующей таблице представлено прямое сравнение ключевых показателей производительности, оцененных на наборе данныхCOCO . При выборе модели очень важно соблюдать баланс между средней точностьюmAP) и скоростью вывода и вычислительными затратами (FLOPs).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Как видно из данных, YOLO11 демонстрирует превосходную эффективность. Например, модель YOLO11n достигает более высокого mAP (39,5 %), чем YOLOv9t (38,3 %), используя при этом меньшее количество FLOP и значительно быстрее работая на GPU. Хотя самая большая модель YOLOv9e имеет небольшое преимущество в сырой точности, она требует почти вдвое больше времени на вывод, чем YOLO11l, что делает YOLO11 более прагматичным выбором для сценариев вывода в реальном времени.

YOLOv9: решение проблемы информационного узкого места

YOLOv9 был выпущен с конкретной научной целью: решить проблему потери информации при прохождении данных через глубокие нейронные сети. На его архитектуру сильно влияет необходимость сохранять градиентную информацию во время обучения.

Технические подробности:
Авторы: Chien-Yao Wang, Hong-Yuan Mark Liao
Организация:Institute of Information Science, Academia Sinica, Taiwan
Дата: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics

Основные архитектурные особенности

Основными инновациями YOLOv9 являются программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN).

  • PGI: Эта вспомогательная система контроля гарантирует, что глубокие слои получают достоверную информацию о градиенте, смягчая "информационное узкое место", которое часто мешает сходимости глубоких сетей.
  • GELAN: эта архитектура оптимизирует эффективность параметров, объединяя сильные стороны CSPNet и ELAN, что позволяет гибко масштабировать вычисления.

Академическая направленность

YOLOv9 служит отличным примером для исследователей, интересующихся теорией глубокого обучения, в частности, градиентным потоком и сохранением информации в конволюционных нейронных сетях.

Узнайте больше о YOLOv9

Ultralytics YOLO11: универсальность и эффективность

Опираясь на наследие YOLOv8YOLO11 представляет собой вершину ориентированного на производство компьютерного зрения. Он разработан не только для получения результатов в бенчмарках, но и для практического применения, простоты использования и многозадачности.

Технические детали:
Авторы: Гленн Джочер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHubultralytics
Docsyolo11

Основные архитектурные особенности

YOLO11 представляет усовершенствованную архитектуру, разработанную для максимального извлечения признаков при минимизации вычислительных затрат. В ней используется улучшенная структура позвоночника и шеи, которая улучшает интеграцию признаков в разных масштабах, что очень важно для обнаружения мелких объектов.

Модель также отличается улучшенной конструкцией головы для более быстрой сходимости в процессе обучения. В отличие от моделей, ориентированных на исследования, YOLO11 построена на единой основе, которая поддерживает обнаружение, сегментацию, классификацию, оценку позы и ориентированные граничные поля (OBB).

Узнайте больше о YOLO11

Подробные пункты сравнения

Простота использования и экосистема

Одно из самых значительных различий заключается в пользовательском опыте. Ultralytics YOLO11 разработан с учетом интересов разработчиков. Он легко интегрируется с более широкой экосистемой Ultralytics , которая включает инструменты для аннотирования данных, управления наборами данных и экспорта моделей.

  • YOLO11: Обучение, проверку и развертывание можно провести с помощью нескольких строк кода, используя ultralytics Пакет Python или CLI. Он отличается частыми обновлениями, обширной документацией и многочисленным сообществом.
  • YOLOv9: Несмотря на поддержку библиотеки Ultralytics , оригинальная реализация и некоторые расширенные конфигурации могут потребовать более глубокого понимания основополагающей научной работы.

Требования к памяти и эффективность тренировок

Эффективное использование ресурсов - отличительная черта моделей Ultralytics . YOLO11 оптимизирован таким образом, что требует меньше памяти CUDA во время обучения по сравнению со многими альтернативами на основе трансформаторов или старыми итерациями YOLO . Это позволяет разработчикам обучать большие объемы партий на оборудовании потребительского класса, ускоряя цикл разработки.

Кроме того, YOLO11 предоставляет легкодоступные, высококачественные предварительно обученные веса для всех задач, обеспечивая быстрое и эффективное обучение переносу. Это контрастирует с исследовательскими моделями, которые могут предлагать ограниченное количество предварительно обученных контрольных точек, ориентированных в основном на обнаружение COCO .

Универсальность задач

Хотя YOLOv9 известен прежде всего своими достижениями в области обнаружения объектов, YOLO11 предлагает встроенную поддержку широкого спектра задач компьютерного зрения в рамках единого фреймворка:

  • Сегментация объектов: Точное маскирование объектов.
  • Оценка позы: Обнаружение ключевых точек скелета (например, для определения позы человека).
  • Классификация: Классификация целых изображений.
  • Ориентированные граничные коробки (OBB): Обнаружение повернутых объектов, что очень важно для аэрофотосъемки.

Унифицированный API

Переключение между задачами в YOLO11 осуществляется так же просто, как и изменение файла веса модели (например, с yolo11n.pt для обнаружения yolo11n-seg.pt для сегментации).

Пример кода: Сравнение в действии

Следующий Python демонстрирует, как легко обе модели могут быть загружены и использованы в рамках Ultralytics , подчеркивая унифицированный API, который упрощает тестирование различных архитектур.

from ultralytics import YOLO

# Load the research-focused YOLOv9 model (compact version)
model_v9 = YOLO("yolov9c.pt")

# Load the production-optimized YOLO11 model (medium version)
model_11 = YOLO("yolo11m.pt")

# Run inference on a local image
# YOLO11 provides a balance of speed and accuracy ideal for real-time apps
results_11 = model_11("path/to/image.jpg")

# Display results
results_11[0].show()

Идеальные варианты использования

Когда выбирать YOLOv9

YOLOv9 - отличный выбор для академических исследований и сценариев, где максимальная точность на статичных изображениях является единственным приоритетом, независимо от вычислительных затрат.

  • Исследовательские проекты: Исследование градиентного потока и архитектуры нейронных сетей.
  • Бенчмаркинг: Соревнования, в которых важна каждая доля mAP .
  • Развертывание серверов высокого класса: Где имеются мощные графические процессоры (например, A100), способные обрабатывать большее количество FLOP в варианте 'E'.

Когда стоит выбирать Ultralytics YOLO11

YOLO11 - это рекомендуемый выбор для коммерческих приложений, вычислений на границе и многозадачных систем.

  • Edge AI: развертывание на таких устройствах, как NVIDIA Jetson или Raspberry Pi, благодаря превосходному соотношению скорости и веса.
  • Аналитика в реальном времени: Мониторинг трафика, спортивный анализ и контроль качества производства, где задержка является критически важной.
  • Сложные конвейеры: Приложения, требующие одновременного обнаружения, сегментации и оценки позы.
  • Быстрое прототипирование: Стартапы и предприятия, которым необходимо быстро перейти от концепции к внедрению, используют APIUltralytics .

Другие модели для изучения

Хотя YOLOv9 и YOLO11 являются мощными соперниками, библиотека Ultralytics поддерживает множество других моделей, предназначенных для конкретных нужд:

  • YOLOv8: надежный предшественник YOLO11, по-прежнему широко используется и поддерживается.
  • RT-DETR: детектор на основе трансформатора, который отличается высокой точностью, но может требовать больше памяти.
  • YOLOv10: отдельная архитектура, ориентированная на обучение NMS для снижения задержки в определенных конфигурациях.

Ознакомьтесь с полным набором опций в разделе "Сравнение моделей".

Заключение

Обе архитектуры представляют собой значительные достижения в области компьютерного зрения. YOLOv9 вносит ценный теоретический вклад в обучение глубоких сетей, в то время как Ultralytics YOLO11 синтезирует эти достижения в надежный, универсальный и высокоэффективный инструмент для всего мира. Для большинства разработчиков и исследователей, стремящихся создавать масштабируемые приложения, работающие в режиме реального времени, баланс производительности, простоты использования и всесторонней поддержки экосистемы делает YOLO11 лучшим выбором.


Комментарии