YOLO11 vs YOLOv9: Всестороннее техническое сравнение
В быстро развивающейся области компьютерного зрения выбор правильной модели detect объектов имеет решающее значение для успеха проекта. В этом сравнении рассматриваются технические нюансы между Ultralytics YOLO11, новейшей современной моделью, разработанной для эффективности в реальных условиях, и YOLOv9, архитектурой, ориентированной на исследования и известной своими теоретическими инновациями. Мы анализируем их архитектурные различия, показатели производительности и пригодность для различных сценариев развертывания.
Ultralytics YOLO11: Стандарт для Production AI
YOLO11, выпущенная 27 сентября 2024 года Гленном Джохером и Цзин Цю из Ultralytics, представляет собой кульминацию обширных исследований и разработок в области эффективного проектирования нейронных сетей. В отличие от академических моделей, которые часто отдают приоритет теоретическим показателям над практической применимостью, YOLO11 разработана для обеспечения оптимального баланса скорости, точности и эффективности использования ресурсов для разработчиков и предприятий.
Технические детали:
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- GitHub:ultralytics/ultralytics
- Документация:Документация YOLO11
Архитектура и особенности
YOLO11 представляет собой усовершенствованную архитектуру, которая улучшает извлечение признаков, сохраняя при этом компактный форм-фактор. В ней используется улучшенная структура backbone и neck, специально разработанная для захвата сложных закономерностей с меньшим количеством параметров по сравнению с предыдущими поколениями, такими как YOLOv8. Такая философия проектирования гарантирует, что модели YOLO11 исключительно хорошо работают на оборудовании с ограниченными ресурсами, таком как периферийные устройства, без ущерба для возможности detect.
Отличительной особенностью YOLO11 является его собственная универсальность. В то время как многие модели являются строго детекторами объектов, YOLO11 поддерживает широкий спектр задач компьютерного зрения в рамках одной платформы:
- Обнаружение объектов
- Сегментация экземпляров
- Классификация изображений
- Оценка позы
- Oriented Bounding Box (OBB)
Сильные стороны в производстве
Для разработчиков основным преимуществом YOLO11 является его интеграция в экосистему Ultralytics. Это обеспечивает удобство работы с простым Python API и всесторонним CLI.
Почему разработчики выбирают YOLO11
YOLO11 значительно сокращает "время выхода на рынок" для AI решений. Ее более низкие требования к памяти во время обучения и выводов делают ее доступной для более широкого спектра оборудования, избегая высоких затрат на VRAM, связанных с альтернативами на основе трансформеров.
YOLOv9: устранение информационных узких мест
YOLOv9, представленный в начале 2024 года Chien-Yao Wang и Hong-Yuan Mark Liao, фокусируется на решении теоретических задач глубокого обучения, в частности, проблемы информационного узкого места. Это свидетельство академической строгости, расширяющее границы возможного в сохранении признаков.
Технические детали:
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация:Academia Sinica
- Дата: 21.02.2024
- Arxiv:arXiv:2402.13616
- GitHub:WongKinYiu/yolov9
- Документация:Документация YOLOv9
Архитектурные инновации
YOLOv9 построен на двух основных концепциях: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI нацелен на сохранение входной информации при ее прохождении через глубокие слои, вычисляя надежный градиент для функции потерь. GELAN оптимизирует использование параметров, позволяя модели достигать высокой точности на датасете COCO относительно ее размера.
Производительность и компромиссы
YOLOv9 превосходен в бенчмарках необработанной точности, при этом его самый большой вариант, YOLOv9-E, достигает впечатляющих показателей mAP. Однако эта академическая направленность может привести к большей сложности при развертывании. Хотя оригинальная реализация и является мощной, ей не хватает встроенной многозадачности, имеющейся в фреймворке Ultralytics, поскольку она в основном ориентирована на detect. Кроме того, обучение этих архитектур может потребовать больше ресурсов по сравнению с высокооптимизированными конвейерами YOLO11.
Метрики производительности: Скорость в сравнении с точностью
При выборе модели жизненно важно понимать компромисс между скоростью вывода и точностью обнаружения. В таблице ниже сравнивается производительность обоих семейств моделей на наборе данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Анализ
Данные подчеркивают баланс производительности, заложенный в YOLO11.
- Эффективность: YOLO11n превосходит YOLOv9t по точности (39,5% против 38,3%), потребляя при этом меньше FLOPs (6,5B против 7,7B), что делает его превосходным для мобильного развертывания.
- Скорость: В целом, YOLO11 демонстрирует более быстрое время инференса на GPU T4 с использованием TensorRT, что является критическим фактором для видеоаналитики в реальном времени.
- Точность: Хотя YOLOv9-E занимает первое место по необработанному mAP, это достигается за счет значительно более высокой задержки (16,77 мс против 11,3 мс для YOLO11x). Для большинства практических применений преимущество в скорости YOLO11 перевешивает незначительный прирост в mAP.
Удобство использования и экосистема
Разница в «мягких навыках» — простоте использования, документации и поддержке — это то, в чем модели Ultralytics действительно сильны.
Простота использования и эффективность обучения
YOLO11 разработан, чтобы быть доступным. Благодаря стандартной среде Python вы можете обучать, проверять и развертывать модели в строках кода. Ultralytics предоставляет предварительно обученные weights, которые позволяют использовать transfer learning, что значительно сокращает время обучения и углеродный след разработки AI.
В отличие от этого, хотя YOLOv9 доступен в пакете Ultralytics, его исходная исследовательская кодовая база требует более глубокого понимания конфигураций глубокого обучения. Пользователи YOLO11 получают выгоду от унифицированного интерфейса, который работает одинаково, независимо от того, выполняете ли вы сегментацию или классификацию.
Сравнение кода: Простота YOLO11
Обучение модели YOLO11 выполняется просто с использованием Ultralytics Python API.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
Хорошо поддерживаемая экосистема
Выбор YOLO11 означает вход в поддерживаемую среду. Экосистема Ultralytics включает в себя:
- Активная разработка: Частые обновления, обеспечивающие совместимость с последними версиями PyTorch и аппаратными драйверами.
- Поддержка сообщества: Огромное сообщество на GitHub и Discord для решения проблем.
- Документация: Обширные руководства, охватывающие все, от настройки гиперпараметров до экспорта моделей в ONNX.
Идеальные варианты использования
Когда следует выбирать YOLO11
YOLO11 — это рекомендуемый выбор для 95% коммерческих проектов и проектов для хобби благодаря своей универсальности и скорости.
- Edge AI: Развертывание на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где память и FLOPs ограничены.
- Наблюдение в реальном времени: Приложения, требующие высокой частоты кадров для мониторинга безопасности.
- Multi-Task Applications: Проекты, требующие одновременного detect, segment и оценки позы без управления несколькими различными архитектурами моделей.
Когда следует выбирать YOLOv9
YOLOv9 лучше всего подходит для конкретных академических задач или сценариев, требующих высокой точности.
- Бенчмаркинг исследований: Когда основная цель состоит в том, чтобы сравнить теоретические архитектуры или побить определенный показатель mAP на наборе данных, таком как COCO.
- Оффлайн-обработка: Сценарии, в которых скорость инференса не является ограничением и важна каждая доля процента точности, например, при автономном анализе медицинских изображений.
Заключение
В то время как YOLOv9 представляет академическому сообществу захватывающие концепции, такие как PGI и GELAN, Ultralytics YOLO11 выделяется как превосходный практический выбор для создания AI-продуктов. Его непревзойденное сочетание скорости, точности, универсальности и простоты использования делает его лучшей моделью для современного компьютерного зрения. Поддерживаемый надежной экосистемой и разработанный для эффективности, YOLO11 позволяет разработчикам уверенно переходить от концепции к развертыванию.
Изучите другие модели
Если вам интересны дальнейшие сравнения, рассмотрите возможность изучения этих других высокопроизводительных моделей в библиотеке Ultralytics:
- YOLOv10: Обнаружение объектов реального времени end-to-end.
- YOLOv8: Предшественник YOLO11, все еще широко используемый в производстве.
- RT-DETR: Детектор на основе трансформера, обеспечивающий высокую точность для сред с большим количеством GPU.