YOLO11 vs YOLOv9: Всестороннее техническое сравнение

В быстро развивающейся области компьютерного зрения выбор правильной модели detect объектов имеет решающее значение для успеха проекта. В этом сравнении рассматриваются технические нюансы между Ultralytics YOLO11, новейшей современной моделью, разработанной для эффективности в реальных условиях, и YOLOv9, архитектурой, ориентированной на исследования и известной своими теоретическими инновациями. Мы анализируем их архитектурные различия, показатели производительности и пригодность для различных сценариев развертывания.

Ultralytics YOLO11: Стандарт для Production AI

YOLO11, выпущенная 27 сентября 2024 года Гленном Джохером и Цзин Цю из Ultralytics, представляет собой кульминацию обширных исследований и разработок в области эффективного проектирования нейронных сетей. В отличие от академических моделей, которые часто отдают приоритет теоретическим показателям над практической применимостью, YOLO11 разработана для обеспечения оптимального баланса скорости, точности и эффективности использования ресурсов для разработчиков и предприятий.

Технические детали:

Авторы: Гленн Джохер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:ultralytics/ultralytics
Документация:Документация YOLO11

Архитектура и особенности

YOLO11 представляет собой усовершенствованную архитектуру, которая улучшает извлечение признаков, сохраняя при этом компактный форм-фактор. В ней используется улучшенная структура backbone и neck, специально разработанная для захвата сложных закономерностей с меньшим количеством параметров по сравнению с предыдущими поколениями, такими как YOLOv8. Такая философия проектирования гарантирует, что модели YOLO11 исключительно хорошо работают на оборудовании с ограниченными ресурсами, таком как периферийные устройства, без ущерба для возможности detect.

Отличительной особенностью YOLO11 является его собственная универсальность. В то время как многие модели являются строго детекторами объектов, YOLO11 поддерживает широкий спектр задач компьютерного зрения в рамках одной платформы:

Сильные стороны в производстве

Для разработчиков основным преимуществом YOLO11 является его интеграция в экосистему Ultralytics. Это обеспечивает удобство работы с простым Python API и всесторонним CLI.

Почему разработчики выбирают YOLO11

YOLO11 значительно сокращает "время выхода на рынок" для AI решений. Ее более низкие требования к памяти во время обучения и выводов делают ее доступной для более широкого спектра оборудования, избегая высоких затрат на VRAM, связанных с альтернативами на основе трансформеров.

Узнайте больше о YOLO11

YOLOv9: устранение информационных узких мест

YOLOv9, представленный в начале 2024 года Chien-Yao Wang и Hong-Yuan Mark Liao, фокусируется на решении теоретических задач глубокого обучения, в частности, проблемы информационного узкого места. Это свидетельство академической строгости, расширяющее границы возможного в сохранении признаков.

Технические детали:

Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
Организация:Academia Sinica
Дата: 21.02.2024
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Документация:Документация YOLOv9

Архитектурные инновации

YOLOv9 построен на двух основных концепциях: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI нацелен на сохранение входной информации при ее прохождении через глубокие слои, вычисляя надежный градиент для функции потерь. GELAN оптимизирует использование параметров, позволяя модели достигать высокой точности на датасете COCO относительно ее размера.

Производительность и компромиссы

YOLOv9 превосходен в бенчмарках необработанной точности, при этом его самый большой вариант, YOLOv9-E, достигает впечатляющих показателей mAP. Однако эта академическая направленность может привести к большей сложности при развертывании. Хотя оригинальная реализация и является мощной, ей не хватает встроенной многозадачности, имеющейся в фреймворке Ultralytics, поскольку она в основном ориентирована на detect. Кроме того, обучение этих архитектур может потребовать больше ресурсов по сравнению с высокооптимизированными конвейерами YOLO11.

Узнайте больше о YOLOv9

Метрики производительности: Скорость в сравнении с точностью

При выборе модели жизненно важно понимать компромисс между скоростью вывода и точностью обнаружения. В таблице ниже сравнивается производительность обоих семейств моделей на наборе данных COCO.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Анализ

Данные подчеркивают баланс производительности, заложенный в YOLO11.

Эффективность: YOLO11n превосходит YOLOv9t по точности (39,5% против 38,3%), потребляя при этом меньше FLOPs (6,5B против 7,7B), что делает его превосходным для мобильного развертывания.
Скорость: В целом, YOLO11 демонстрирует более быстрое время инференса на GPU T4 с использованием TensorRT, что является критическим фактором для видеоаналитики в реальном времени.
Точность: Хотя YOLOv9-E занимает первое место по необработанному mAP, это достигается за счет значительно более высокой задержки (16,77 мс против 11,3 мс для YOLO11x). Для большинства практических применений преимущество в скорости YOLO11 перевешивает незначительный прирост в mAP.

Удобство использования и экосистема

Разница в «мягких навыках» — простоте использования, документации и поддержке — это то, в чем модели Ultralytics действительно сильны.

Простота использования и эффективность обучения

YOLO11 разработан, чтобы быть доступным. Благодаря стандартной среде Python вы можете обучать, проверять и развертывать модели в строках кода. Ultralytics предоставляет предварительно обученные weights, которые позволяют использовать transfer learning, что значительно сокращает время обучения и углеродный след разработки AI.

В отличие от этого, хотя YOLOv9 доступен в пакете Ultralytics, его исходная исследовательская кодовая база требует более глубокого понимания конфигураций глубокого обучения. Пользователи YOLO11 получают выгоду от унифицированного интерфейса, который работает одинаково, независимо от того, выполняете ли вы сегментацию или классификацию.

Сравнение кода: Простота YOLO11

Обучение модели YOLO11 выполняется просто с использованием Ultralytics Python API.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Хорошо поддерживаемая экосистема

Выбор YOLO11 означает вход в поддерживаемую среду. Экосистема Ultralytics включает в себя:

Активная разработка: Частые обновления, обеспечивающие совместимость с последними версиями PyTorch и аппаратными драйверами.
Поддержка сообщества: Огромное сообщество на GitHub и Discord для решения проблем.
Документация: Обширные руководства, охватывающие все, от настройки гиперпараметров до экспорта моделей в ONNX.

Идеальные варианты использования

Когда следует выбирать YOLO11

YOLO11 — это рекомендуемый выбор для 95% коммерческих проектов и проектов для хобби благодаря своей универсальности и скорости.

Edge AI: Развертывание на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где память и FLOPs ограничены.
Наблюдение в реальном времени: Приложения, требующие высокой частоты кадров для мониторинга безопасности.
Multi-Task Applications: Проекты, требующие одновременного detect, segment и оценки позы без управления несколькими различными архитектурами моделей.

Когда следует выбирать YOLOv9

YOLOv9 лучше всего подходит для конкретных академических задач или сценариев, требующих высокой точности.

Бенчмаркинг исследований: Когда основная цель состоит в том, чтобы сравнить теоретические архитектуры или побить определенный показатель mAP на наборе данных, таком как COCO.
Оффлайн-обработка: Сценарии, в которых скорость инференса не является ограничением и важна каждая доля процента точности, например, при автономном анализе медицинских изображений.

Заключение

В то время как YOLOv9 представляет академическому сообществу захватывающие концепции, такие как PGI и GELAN, Ultralytics YOLO11 выделяется как превосходный практический выбор для создания AI-продуктов. Его непревзойденное сочетание скорости, точности, универсальности и простоты использования делает его лучшей моделью для современного компьютерного зрения. Поддерживаемый надежной экосистемой и разработанный для эффективности, YOLO11 позволяет разработчикам уверенно переходить от концепции к развертыванию.

Изучите другие модели

Если вам интересны дальнейшие сравнения, рассмотрите возможность изучения этих других высокопроизводительных моделей в библиотеке Ultralytics:

YOLOv10: Обнаружение объектов реального времени end-to-end.
YOLOv8: Предшественник YOLO11, все еще широко используемый в производстве.
RT-DETR: Детектор на основе трансформера, обеспечивающий высокую точность для сред с большим количеством GPU.