YOLOv6.0 против YOLO11: глубокое погружение в выбор модели
Выбор оптимальной архитектуры компьютерного зрения является ключевым решением для разработчиков и исследователей, стремящихся найти баланс между точностью, скоростью и эффективностью использования ресурсов. В данном анализе приводится всестороннее техническое сравнение YOLOv6.0 и Ultralytics YOLO11в котором рассматриваются их архитектурные инновации, показатели производительности и пригодность для развертывания в реальном мире. В то время как YOLOv6.0 после своего выпуска добился значительных успехов в промышленных приложениях, YOLO11 представляет собой последнюю эволюцию в современном (SOTA) искусственном интеллекте зрения, предлагая повышенную универсальность и надежную экосистему.
YOLOv6.0
Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
Organization: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: YOLOv6
Docs: https:ultralytics
YOLOv6.0 был разработан компанией Meituan с особым акцентом на промышленные приложения. Выпущенный в начале 2023 года, он был разработан для оптимизации компромисса между скоростью вывода и точностью обнаружения, ориентируясь на сценарии реального времени на стандартном оборудовании.
Архитектура и ключевые особенности
Архитектура YOLOv6.0 представляет собой философию проектирования, ориентированную на аппаратное обеспечение. В ней используется эффективная структура "позвоночника" и "шеи", призванная максимизировать пропускную способность на графических процессорах. Среди ключевых нововведений - использование техники саморасширения в процессе обучения, которая помогает меньшим моделям обучаться на основе больших, что повышает точность без увеличения стоимости вывода. Кроме того, фреймворк делает акцент на квантовании моделей, обеспечивая специальную поддержку для развертывания моделей на оборудовании с ограниченными вычислительными ресурсами.
Сильные стороны
- Промышленная оптимизация: Предназначена для задач обнаружения объектов в промышленности, где задаются конкретные аппаратные ограничения.
- Поддержка квантования: Предлагает установленные рабочие процессы для квантования после обучения, что полезно для конкретных конвейеров развертывания по краям.
- Мобильные варианты: Включает конфигурации YOLOv6Lite, оптимизированные для мобильных процессоров.
Слабые стороны
- Ограниченная универсальность: В основном ограничивается обнаружением объектов, отсутствует встроенная поддержка сложных задач, таких как сегментация объектов, оценка позы или ориентированные ограничивающие рамки (OBB).
- Эффективность использования ресурсов: Как показано в разделе "Производительность", модели YOLOv6 часто требуют большего количества FLOP и параметров для достижения уровня точности, сравнимого с более новыми архитектурами.
- Масштаб экосистемы: Несмотря на открытый исходный код, экосистема менее обширна, чем платформа Ultralytics , и потенциально предлагает меньше интеграций для MLOps, управления данными и бесшовного развертывания.
Ultralytics YOLO11
Авторы: Гленн Джочер и Цзин Цю
Организация: Ultralytics
Дата: 2024-09-27
GitHub: ultralytics
Docs: https:yolo11
Ultralytics YOLO11 - это последняя итерация знаменитой серии YOLO , пересматривающая ожидания в отношении производительности и простоты использования. Выпущенный в конце 2024 года, он опирается на наследие инноваций и представляет собой модель, которая не только быстрее и точнее, но и удивительно универсальна в широком спектре задач компьютерного зрения.
Архитектура и ключевые особенности
YOLO11 имеет усовершенствованную архитектуру без якорей, которая значительно улучшает возможности извлечения признаков, снижая при этом вычислительные затраты. Приоритет в дизайне отдается эффективности параметров, что позволяет модели достигать более высоких mAP с меньшим количеством параметров по сравнению с предшественниками и конкурентами. Эта эффективность выражается в меньшем использовании памяти как при обучении, так и при выводе, что является критическим преимуществом по сравнению с моделями на основе трансформаторов, которые часто требуют значительного объема памяти GPU .
Универсальность в действии
В отличие от многих специализированных моделей, YOLO11 поддерживает обнаружение объектов, сегментацию объектов, классификацию изображений, оценку позы и обнаружение ориентированных границ (Oriented Bounding Box, OBB) в рамках единой, унифицированной структуры.
Сильные стороны
- Непревзойденный баланс производительности: Обеспечивает современную точность при значительно меньшем размере модели и количестве FLOP, что делает его идеальным как для граничного ИИ на таких устройствах, как NVIDIA Jetson, так и для масштабируемых облачных развертываний.
- Всеобъемлющая экосистема: Опираясь на активно поддерживаемую экосистему Ultralytics , пользователи получают преимущества от частых обновлений, обширной документации и бесшовной интеграции с такими инструментами, как Ultralytics HUB, для обучения и развертывания.
- Простота использования: оптимизированный Python API и CLI позволяют разработчикам перейти от установки к выводам за считанные минуты, демократизируя доступ к передовому ИИ.
- Эффективность обучения: Оптимизированные процедуры обучения и доступные предварительно обученные веса обеспечивают более быструю сходимость и снижение вычислительных затрат.
Слабые стороны
- Принятие новой архитектуры: Поскольку новая архитектура является передовым релизом, сторонние учебные пособия и ресурсы сообщества быстро растут, но их количество может быть меньше, чем для старых моделей, таких как YOLOv5.
Сравнение производительности
Приведенный ниже анализ бенчмарков подчеркивает выигрыш в эффективности YOLO11 по сравнению с YOLOv6.0. Данные, полученные на наборе данныхCOCO , демонстрируют, что модели Ultralytics неизменно достигают высокой точности при меньших вычислительных затратах.
Например, модель YOLO11m превосходит YOLOv6.0m по точности (51,5 против 50,0 mAP), используя при этом примерно на 42% меньше параметров и на 20% меньше FLOP. Такая эффективность крайне важна для снижения задержек и энергопотребления в реальных приложениях.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Методологии обучения и экосистема
Опыт обучения в этих двух фреймворках существенно различается. YOLOv6 опирается на стандартные скрипты глубокого обучения и делает акцент на саморасщеплении для достижения пиковых показателей производительности, что может усложнить конвейер обучения.
В отличие от, Ultralytics YOLO11 предназначен для повышения производительности разработчиков. Он легко интегрируется с современным стеком MLOps, поддерживая автоматическое ведение логов с Weights & Biases, Cometи TensorBoard. Процесс обучения отличается высокой эффективностью использования памяти, что часто позволяет использовать большие объемы партий на одном и том же оборудовании по сравнению с другими детекторами.
Пример простоты использования
YOLO11 позволяет обучить пользовательскую модель с помощью всего нескольких строк кода на Python , демонстрируя простоту API Ultralytics :
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Идеальные варианты использования
Выбирая между этими моделями, учитывайте специфические требования вашего проекта:
YOLOv6.0 является жизнеспособным кандидатом для:
- Устаревшие промышленные системы: Среды, в которых специфические оптимизации YOLOv6 , учитывающие особенности оборудования, соответствуют существующей инфраструктуре.
- Обнаружение статичных объектов: Проекты, в которых требуется строгое определение границ, без необходимости дальнейшего расширения до сегментации или оценки позы.
Ultralytics YOLO11 является рекомендуемым выбором для:
- Многозадачные приложения: Сценарии, требующие одновременного обнаружения, оценки положения и сегментации, например, в робототехнике или продвинутой спортивной аналитике.
- Пограничное развертывание: Приложения, работающие на устройствах с ограниченными ресурсами, таких как Raspberry Pi, где низкое количество параметров и высокая точность YOLO11 обеспечивают наилучшую производительность на ватт.
- Быстрая разработка: Команды, которым необходимо быстро выполнять итерации, используя обширную документацию и активную поддержку сообщества для более быстрого решения проблем.
- Коммерческие решения: Приложения корпоративного уровня, пользующиеся стабильностью и возможностями лицензирования, предоставляемыми Ultralytics.
Заключение
В то время как YOLOv6.0 остается достойной моделью для определенных промышленных ниш, Ultralytics YOLO11 устанавливает новый стандарт для компьютерного зрения. Превосходный баланс точности и эффективности в сочетании с возможностью решать разнообразные задачи компьютерного зрения делает его более перспективным и универсальным решением. Низкие требования к памяти и надежная, хорошо поддерживаемая экосистема, окружающая YOLO11 , позволяют разработчикам уверенно создавать, внедрять и масштабировать свои решения в области ИИ.
Для тех, кто заинтересован в дальнейших исследованиях, в документации Ultralytics предлагается сравнение с другими моделями, такими как YOLOv8, YOLOv10, и RT-DETR.