YOLOv6-3.0 против YOLO11: глубокое погружение в выбор модели
Выбор оптимальной архитектуры компьютерного зрения является ключевым решением для разработчиков и исследователей, стремящихся сбалансировать точность, скорость и эффективность использования ресурсов. В этом анализе представлено всестороннее техническое сравнение YOLOv6-3.0 и Ultralytics YOLO11, рассматриваются их архитектурные инновации, показатели производительности и пригодность для реального развертывания. В то время как YOLOv6-3.0 добилась значительных успехов в промышленных приложениях после своего выпуска, YOLO11 представляет собой последнюю эволюцию в современном (SOTA) vision AI, предлагая расширенную универсальность и надежную экосистему.
YOLOv6-3.0
Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
Организация: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Документация: https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0 был разработан компанией Meituan с особым акцентом на промышленные применения. Выпущенный в начале 2023 года, он был разработан для оптимизации компромисса между скоростью inference и точностью detect, специально ориентируясь на сценарии реального времени на стандартном оборудовании.
Архитектура и ключевые особенности
Архитектура YOLOv6-3.0 представляет философию проектирования, ориентированную на "аппаратное обеспечение". Она использует эффективную структуру backbone и neck, предназначенную для максимального увеличения пропускной способности на GPU. Ключевые нововведения включают использование методов self-distillation во время обучения, которые помогают небольшим моделям учиться у более крупных, чтобы повысить точность без увеличения стоимости вывода. Кроме того, фреймворк делает акцент на квантовании моделей, обеспечивая конкретную поддержку для развертывания моделей на оборудовании с ограниченными вычислительными ресурсами.
Сильные стороны
- Промышленная оптимизация: Разработано для промышленных задач обнаружения объектов, где определены конкретные аппаратные ограничения.
- Поддержка квантования: Предлагает установленные рабочие процессы для квантования после обучения, что полезно для конкретных конвейеров развертывания на периферии.
- Мобильные варианты: Включает конфигурации YOLOv6Lite, оптимизированные для мобильных CPU.
Слабые стороны
- Ограниченная универсальность: В основном ограничивается object detection, отсутствует встроенная поддержка сложных задач, таких как instance segmentation, оценка позы или ориентированные ограничивающие рамки (OBB).
- Эффективность использования ресурсов: Как показано в разделе производительности, модели YOLOv6 часто требуют больше FLOPs и количества параметров для достижения уровней точности, сопоставимых с более новыми архитектурами.
- Область применения экосистемы: Несмотря на открытый исходный код, экосистема менее обширна, чем платформа Ultralytics, что потенциально предлагает меньше интеграций для MLOps, управления данными и бесшовного развертывания.
Ultralytics YOLO11
Авторы: Glenn Jocher и Jing Qiu
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 является последней итерацией в известной серии YOLO, переопределяя ожидания от производительности и простоты использования. Выпущенный в конце 2024 года, он опирается на наследие инноваций, чтобы предоставить модель, которая не только быстрее и точнее, но и удивительно универсальна в широком спектре задач компьютерного зрения.
Архитектура и ключевые особенности
YOLO11 имеет усовершенствованную anchor-free архитектуру, которая значительно улучшает возможности извлечения признаков при одновременном снижении вычислительных затрат. В конструкции приоритет отдается эффективности параметров, что позволяет модели достигать более высоких показателей mAP с меньшим количеством параметров по сравнению с ее предшественниками и конкурентами. Эта эффективность приводит к снижению использования памяти как во время обучения, так и во время inference, что является критическим преимуществом перед моделями на основе transformer, которые часто требуют значительного объема памяти GPU.
Универсальность в действии
В отличие от многих специализированных моделей, YOLO11 изначально поддерживает Object Detection, Instance Segmentation, Image Classification, Pose Estimation и Oriented Bounding Box (OBB) detect в рамках единого унифицированного фреймворка.
Сильные стороны
- Непревзойденный баланс производительности: Обеспечивает современную точность со значительно уменьшенным размером модели и FLOPs, что делает его идеальным как для периферийного AI на таких устройствах, как NVIDIA Jetson, так и для масштабируемых облачных развертываний.
- Comprehensive Ecosystem: Поддерживаемые активно развивающейся экосистемой Ultralytics, пользователи получают выгоду от частых обновлений, обширной документации и бесшовной интеграции с такими инструментами, как Ultralytics HUB для обучения и развертывания.
- Простота использования: Оптимизированный Python API и CLI позволяют разработчикам перейти от установки к выводу за считанные минуты, демократизируя доступ к передовому ИИ.
- Эффективность обучения: Оптимизированные процедуры обучения и доступные предварительно обученные веса обеспечивают более быструю сходимость и снижение вычислительных затрат.
Слабые стороны
- Внедрение новой архитектуры: Будучи передовым релизом, сторонние руководства и ресурсы сообщества быстро растут, но их может быть меньше, чем для устаревших моделей, таких как YOLOv5.
Сравнение производительности
Приведенный ниже анализ эталонных тестов подчеркивает повышение эффективности YOLO11 по сравнению с YOLOv6-3.0. Данные, оцененные на наборе данных COCO, показывают, что модели Ultralytics постоянно достигают превосходной точности при меньшей вычислительной нагрузке.
Например, модель YOLO11m превосходит YOLOv6-3.0m по точности (51.5 против 50.0 mAP), используя при этом примерно на 42% меньше параметров и на 20% меньше FLOPs. Эта эффективность имеет решающее значение для снижения задержки и энергопотребления в реальных приложениях.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Методологии обучения и экосистема
Опыт обучения значительно различается между двумя фреймворками. YOLOv6 опирается на стандартные скрипты глубокого обучения и делает упор на самодистилляцию для достижения пиковых показателей производительности, что может усложнить конвейер обучения.
В отличие от этого, Ultralytics YOLO11 разработана для повышения продуктивности разработчиков. Она легко интегрируется с современной MLOps средой, поддерживая автоматическое ведение журналов с помощью Weights & Biases, Comet и TensorBoard. Процесс обучения отличается высокой эффективностью использования памяти, что часто позволяет использовать больший размер пакета на том же оборудовании по сравнению с другими детекторами.
Пример простоты использования
YOLO11 позволяет обучить пользовательскую модель всего несколькими строками кода на python, демонстрируя простоту API Ultralytics:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Идеальные варианты использования
При выборе между этими моделями учитывайте конкретные требования вашего проекта:
YOLOv6-3.0 является жизнеспособным кандидатом для:
- Устаревшие промышленные системы (Legacy Industrial Systems): Среды, в которых специфические аппаратные оптимизации YOLOv6 соответствуют существующей инфраструктуре.
- Обнаружение статичных объектов: Проекты, в которых требуется строгое определение границ, без необходимости дальнейшего расширения до сегментации или оценки позы.
Ultralytics YOLO11 — рекомендуемый выбор для:
- Multi-Task Applications: Сценарии, требующие одновременного detect, оценки позы и segment, например, в робототехнике или продвинутой спортивной аналитике.
- Развертывание на периферии: Приложения, работающие на устройствах с ограниченными ресурсами, таких как Raspberry Pi, где низкое количество параметров и высокая точность YOLO11 обеспечивают наилучшую производительность на ватт.
- Быстрая разработка: Команды, которым необходимо быстро выполнять итерации, используя обширную документацию и активную поддержку сообщества для более быстрого решения проблем.
- Коммерческие решения: Приложения корпоративного уровня, выигрывающие от стабильности и вариантов лицензирования, предоставляемых Ultralytics.
Заключение
В то время как YOLOv6-3.0 остается достойной моделью для конкретных промышленных ниш, Ultralytics YOLO11 устанавливает новый стандарт для компьютерного зрения. Его превосходный баланс точности и эффективности в сочетании с возможностью решать разнообразные задачи компьютерного зрения делает его более перспективным и универсальным решением. Более низкие требования к памяти и надежная, хорошо поддерживаемая экосистема, окружающая YOLO11, гарантируют, что разработчики смогут уверенно создавать, развертывать и масштабировать свои решения на основе ИИ.
Для тех, кто заинтересован в дальнейшем изучении, документация Ultralytics предлагает сравнения с другими моделями, такими как YOLOv8, YOLOv10 и RT-DETR.