YOLOv6-3.0 против YOLO11: глубокое погружение в выбор модели

Выбор оптимальной архитектуры компьютерного зрения является ключевым решением для разработчиков и исследователей, стремящихся сбалансировать точность, скорость и эффективность использования ресурсов. В этом анализе представлено всестороннее техническое сравнение YOLOv6-3.0 и Ultralytics YOLO11, рассматриваются их архитектурные инновации, показатели производительности и пригодность для реального развертывания. В то время как YOLOv6-3.0 добилась значительных успехов в промышленных приложениях после своего выпуска, YOLO11 представляет собой последнюю эволюцию в современном (SOTA) vision AI, предлагая расширенную универсальность и надежную экосистему.

YOLOv6-3.0

Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
Организация: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Документация: https://docs.ultralytics.com/models/yolov6/

YOLOv6-3.0 был разработан компанией Meituan с особым акцентом на промышленные применения. Выпущенный в начале 2023 года, он был разработан для оптимизации компромисса между скоростью inference и точностью detect, специально ориентируясь на сценарии реального времени на стандартном оборудовании.

Архитектура и ключевые особенности

Архитектура YOLOv6-3.0 представляет философию проектирования, ориентированную на "аппаратное обеспечение". Она использует эффективную структуру backbone и neck, предназначенную для максимального увеличения пропускной способности на GPU. Ключевые нововведения включают использование методов self-distillation во время обучения, которые помогают небольшим моделям учиться у более крупных, чтобы повысить точность без увеличения стоимости вывода. Кроме того, фреймворк делает акцент на квантовании моделей, обеспечивая конкретную поддержку для развертывания моделей на оборудовании с ограниченными вычислительными ресурсами.

Сильные стороны

Промышленная оптимизация: Разработано для промышленных задач обнаружения объектов, где определены конкретные аппаратные ограничения.
Поддержка квантования: Предлагает установленные рабочие процессы для квантования после обучения, что полезно для конкретных конвейеров развертывания на периферии.
Мобильные варианты: Включает конфигурации YOLOv6Lite, оптимизированные для мобильных CPU.

Слабые стороны

Ограниченная универсальность: В основном ограничивается object detection, отсутствует встроенная поддержка сложных задач, таких как instance segmentation, оценка позы или ориентированные ограничивающие рамки (OBB).
Эффективность использования ресурсов: Как показано в разделе производительности, модели YOLOv6 часто требуют больше FLOPs и количества параметров для достижения уровней точности, сопоставимых с более новыми архитектурами.
Область применения экосистемы: Несмотря на открытый исходный код, экосистема менее обширна, чем платформа Ultralytics, что потенциально предлагает меньше интеграций для MLOps, управления данными и бесшовного развертывания.

Узнайте больше о YOLOv6

Ultralytics YOLO11

Авторы: Glenn Jocher и Jing Qiu
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 является последней итерацией в известной серии YOLO, переопределяя ожидания от производительности и простоты использования. Выпущенный в конце 2024 года, он опирается на наследие инноваций, чтобы предоставить модель, которая не только быстрее и точнее, но и удивительно универсальна в широком спектре задач компьютерного зрения.

Архитектура и ключевые особенности

YOLO11 имеет усовершенствованную anchor-free архитектуру, которая значительно улучшает возможности извлечения признаков при одновременном снижении вычислительных затрат. В конструкции приоритет отдается эффективности параметров, что позволяет модели достигать более высоких показателей mAP с меньшим количеством параметров по сравнению с ее предшественниками и конкурентами. Эта эффективность приводит к снижению использования памяти как во время обучения, так и во время inference, что является критическим преимуществом перед моделями на основе transformer, которые часто требуют значительного объема памяти GPU.

Универсальность в действии

В отличие от многих специализированных моделей, YOLO11 изначально поддерживает Object Detection, Instance Segmentation, Image Classification, Pose Estimation и Oriented Bounding Box (OBB) detect в рамках единого унифицированного фреймворка.

Сильные стороны

Непревзойденный баланс производительности: Обеспечивает современную точность со значительно уменьшенным размером модели и FLOPs, что делает его идеальным как для периферийного AI на таких устройствах, как NVIDIA Jetson, так и для масштабируемых облачных развертываний.
Comprehensive Ecosystem: Поддерживаемые активно развивающейся экосистемой Ultralytics, пользователи получают выгоду от частых обновлений, обширной документации и бесшовной интеграции с такими инструментами, как Ultralytics HUB для обучения и развертывания.
Простота использования: Оптимизированный Python API и CLI позволяют разработчикам перейти от установки к выводу за считанные минуты, демократизируя доступ к передовому ИИ.
Эффективность обучения: Оптимизированные процедуры обучения и доступные предварительно обученные веса обеспечивают более быструю сходимость и снижение вычислительных затрат.

Слабые стороны

Внедрение новой архитектуры: Будучи передовым релизом, сторонние руководства и ресурсы сообщества быстро растут, но их может быть меньше, чем для устаревших моделей, таких как YOLOv5.

Узнайте больше о YOLO11

Сравнение производительности

Приведенный ниже анализ эталонных тестов подчеркивает повышение эффективности YOLO11 по сравнению с YOLOv6-3.0. Данные, оцененные на наборе данных COCO, показывают, что модели Ultralytics постоянно достигают превосходной точности при меньшей вычислительной нагрузке.

Например, модель YOLO11m превосходит YOLOv6-3.0m по точности (51.5 против 50.0 mAP), используя при этом примерно на 42% меньше параметров и на 20% меньше FLOPs. Эта эффективность имеет решающее значение для снижения задержки и энергопотребления в реальных приложениях.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Методологии обучения и экосистема

Опыт обучения значительно различается между двумя фреймворками. YOLOv6 опирается на стандартные скрипты глубокого обучения и делает упор на самодистилляцию для достижения пиковых показателей производительности, что может усложнить конвейер обучения.

В отличие от этого, Ultralytics YOLO11 разработана для повышения продуктивности разработчиков. Она легко интегрируется с современной MLOps средой, поддерживая автоматическое ведение журналов с помощью Weights & Biases, Comet и TensorBoard. Процесс обучения отличается высокой эффективностью использования памяти, что часто позволяет использовать больший размер пакета на том же оборудовании по сравнению с другими детекторами.

Пример простоты использования

YOLO11 позволяет обучить пользовательскую модель всего несколькими строками кода на python, демонстрируя простоту API Ultralytics:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Идеальные варианты использования

При выборе между этими моделями учитывайте конкретные требования вашего проекта:

YOLOv6-3.0 является жизнеспособным кандидатом для:

Устаревшие промышленные системы (Legacy Industrial Systems): Среды, в которых специфические аппаратные оптимизации YOLOv6 соответствуют существующей инфраструктуре.
Обнаружение статичных объектов: Проекты, в которых требуется строгое определение границ, без необходимости дальнейшего расширения до сегментации или оценки позы.

Ultralytics YOLO11 — рекомендуемый выбор для:

Multi-Task Applications: Сценарии, требующие одновременного detect, оценки позы и segment, например, в робототехнике или продвинутой спортивной аналитике.
Развертывание на периферии: Приложения, работающие на устройствах с ограниченными ресурсами, таких как Raspberry Pi, где низкое количество параметров и высокая точность YOLO11 обеспечивают наилучшую производительность на ватт.
Быстрая разработка: Команды, которым необходимо быстро выполнять итерации, используя обширную документацию и активную поддержку сообщества для более быстрого решения проблем.
Коммерческие решения: Приложения корпоративного уровня, выигрывающие от стабильности и вариантов лицензирования, предоставляемых Ultralytics.

Заключение

В то время как YOLOv6-3.0 остается достойной моделью для конкретных промышленных ниш, Ultralytics YOLO11 устанавливает новый стандарт для компьютерного зрения. Его превосходный баланс точности и эффективности в сочетании с возможностью решать разнообразные задачи компьютерного зрения делает его более перспективным и универсальным решением. Более низкие требования к памяти и надежная, хорошо поддерживаемая экосистема, окружающая YOLO11, гарантируют, что разработчики смогут уверенно создавать, развертывать и масштабировать свои решения на основе ИИ.

Для тех, кто заинтересован в дальнейшем изучении, документация Ultralytics предлагает сравнения с другими моделями, такими как YOLOv8, YOLOv10 и RT-DETR.

YOLOv6-3.0 против YOLO11: глубокое погружение в выбор модели

YOLOv6-3.0

Архитектура и ключевые особенности

Сильные стороны

Слабые стороны

Ultralytics YOLO11

Архитектура и ключевые особенности

Сильные стороны

Слабые стороны

Сравнение производительности

Методологии обучения и экосистема

Пример простоты использования

Идеальные варианты использования

Заключение

Комментарии