Перейти к содержанию

YOLOv6-3.0 против YOLO11: глубокое погружение в выбор модели

Выбор оптимальной архитектуры компьютерного зрения является ключевым решением для разработчиков и исследователей, стремящихся сбалансировать точность, скорость и эффективность использования ресурсов. В этом анализе представлено всестороннее техническое сравнение YOLOv6-3.0 и Ultralytics YOLO11, рассматриваются их архитектурные инновации, показатели производительности и пригодность для реального развертывания. В то время как YOLOv6-3.0 добилась значительных успехов в промышленных приложениях после своего выпуска, YOLO11 представляет собой последнюю эволюцию в современном (SOTA) vision AI, предлагая расширенную универсальность и надежную экосистему.

YOLOv6-3.0

Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
Организация: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Документация: https://docs.ultralytics.com/models/yolov6/

YOLOv6-3.0 был разработан компанией Meituan с особым акцентом на промышленные применения. Выпущенный в начале 2023 года, он был разработан для оптимизации компромисса между скоростью inference и точностью detect, специально ориентируясь на сценарии реального времени на стандартном оборудовании.

Архитектура и ключевые особенности

Архитектура YOLOv6-3.0 представляет философию проектирования, ориентированную на "аппаратное обеспечение". Она использует эффективную структуру backbone и neck, предназначенную для максимального увеличения пропускной способности на GPU. Ключевые нововведения включают использование методов self-distillation во время обучения, которые помогают небольшим моделям учиться у более крупных, чтобы повысить точность без увеличения стоимости вывода. Кроме того, фреймворк делает акцент на квантовании моделей, обеспечивая конкретную поддержку для развертывания моделей на оборудовании с ограниченными вычислительными ресурсами.

Сильные стороны

  • Промышленная оптимизация: Разработано для промышленных задач обнаружения объектов, где определены конкретные аппаратные ограничения.
  • Поддержка квантования: Предлагает установленные рабочие процессы для квантования после обучения, что полезно для конкретных конвейеров развертывания на периферии.
  • Мобильные варианты: Включает конфигурации YOLOv6Lite, оптимизированные для мобильных CPU.

Слабые стороны

  • Ограниченная универсальность: В основном ограничивается object detection, отсутствует встроенная поддержка сложных задач, таких как instance segmentation, оценка позы или ориентированные ограничивающие рамки (OBB).
  • Эффективность использования ресурсов: Как показано в разделе производительности, модели YOLOv6 часто требуют больше FLOPs и количества параметров для достижения уровней точности, сопоставимых с более новыми архитектурами.
  • Область применения экосистемы: Несмотря на открытый исходный код, экосистема менее обширна, чем платформа Ultralytics, что потенциально предлагает меньше интеграций для MLOps, управления данными и бесшовного развертывания.

Узнайте больше о YOLOv6

Ultralytics YOLO11

Авторы: Glenn Jocher и Jing Qiu
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 является последней итерацией в известной серии YOLO, переопределяя ожидания от производительности и простоты использования. Выпущенный в конце 2024 года, он опирается на наследие инноваций, чтобы предоставить модель, которая не только быстрее и точнее, но и удивительно универсальна в широком спектре задач компьютерного зрения.

Архитектура и ключевые особенности

YOLO11 имеет усовершенствованную anchor-free архитектуру, которая значительно улучшает возможности извлечения признаков при одновременном снижении вычислительных затрат. В конструкции приоритет отдается эффективности параметров, что позволяет модели достигать более высоких показателей mAP с меньшим количеством параметров по сравнению с ее предшественниками и конкурентами. Эта эффективность приводит к снижению использования памяти как во время обучения, так и во время inference, что является критическим преимуществом перед моделями на основе transformer, которые часто требуют значительного объема памяти GPU.

Универсальность в действии

В отличие от многих специализированных моделей, YOLO11 изначально поддерживает Object Detection, Instance Segmentation, Image Classification, Pose Estimation и Oriented Bounding Box (OBB) detect в рамках единого унифицированного фреймворка.

Сильные стороны

  • Непревзойденный баланс производительности: Обеспечивает современную точность со значительно уменьшенным размером модели и FLOPs, что делает его идеальным как для периферийного AI на таких устройствах, как NVIDIA Jetson, так и для масштабируемых облачных развертываний.
  • Comprehensive Ecosystem: Поддерживаемые активно развивающейся экосистемой Ultralytics, пользователи получают выгоду от частых обновлений, обширной документации и бесшовной интеграции с такими инструментами, как Ultralytics HUB для обучения и развертывания.
  • Простота использования: Оптимизированный Python API и CLI позволяют разработчикам перейти от установки к выводу за считанные минуты, демократизируя доступ к передовому ИИ.
  • Эффективность обучения: Оптимизированные процедуры обучения и доступные предварительно обученные веса обеспечивают более быструю сходимость и снижение вычислительных затрат.

Слабые стороны

  • Внедрение новой архитектуры: Будучи передовым релизом, сторонние руководства и ресурсы сообщества быстро растут, но их может быть меньше, чем для устаревших моделей, таких как YOLOv5.

Узнайте больше о YOLO11

Сравнение производительности

Приведенный ниже анализ эталонных тестов подчеркивает повышение эффективности YOLO11 по сравнению с YOLOv6-3.0. Данные, оцененные на наборе данных COCO, показывают, что модели Ultralytics постоянно достигают превосходной точности при меньшей вычислительной нагрузке.

Например, модель YOLO11m превосходит YOLOv6-3.0m по точности (51.5 против 50.0 mAP), используя при этом примерно на 42% меньше параметров и на 20% меньше FLOPs. Эта эффективность имеет решающее значение для снижения задержки и энергопотребления в реальных приложениях.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Методологии обучения и экосистема

Опыт обучения значительно различается между двумя фреймворками. YOLOv6 опирается на стандартные скрипты глубокого обучения и делает упор на самодистилляцию для достижения пиковых показателей производительности, что может усложнить конвейер обучения.

В отличие от этого, Ultralytics YOLO11 разработана для повышения продуктивности разработчиков. Она легко интегрируется с современной MLOps средой, поддерживая автоматическое ведение журналов с помощью Weights & Biases, Comet и TensorBoard. Процесс обучения отличается высокой эффективностью использования памяти, что часто позволяет использовать больший размер пакета на том же оборудовании по сравнению с другими детекторами.

Пример простоты использования

YOLO11 позволяет обучить пользовательскую модель всего несколькими строками кода на python, демонстрируя простоту API Ultralytics:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Идеальные варианты использования

При выборе между этими моделями учитывайте конкретные требования вашего проекта:

YOLOv6-3.0 является жизнеспособным кандидатом для:

  • Устаревшие промышленные системы (Legacy Industrial Systems): Среды, в которых специфические аппаратные оптимизации YOLOv6 соответствуют существующей инфраструктуре.
  • Обнаружение статичных объектов: Проекты, в которых требуется строгое определение границ, без необходимости дальнейшего расширения до сегментации или оценки позы.

Ultralytics YOLO11 — рекомендуемый выбор для:

  • Multi-Task Applications: Сценарии, требующие одновременного detect, оценки позы и segment, например, в робототехнике или продвинутой спортивной аналитике.
  • Развертывание на периферии: Приложения, работающие на устройствах с ограниченными ресурсами, таких как Raspberry Pi, где низкое количество параметров и высокая точность YOLO11 обеспечивают наилучшую производительность на ватт.
  • Быстрая разработка: Команды, которым необходимо быстро выполнять итерации, используя обширную документацию и активную поддержку сообщества для более быстрого решения проблем.
  • Коммерческие решения: Приложения корпоративного уровня, выигрывающие от стабильности и вариантов лицензирования, предоставляемых Ultralytics.

Заключение

В то время как YOLOv6-3.0 остается достойной моделью для конкретных промышленных ниш, Ultralytics YOLO11 устанавливает новый стандарт для компьютерного зрения. Его превосходный баланс точности и эффективности в сочетании с возможностью решать разнообразные задачи компьютерного зрения делает его более перспективным и универсальным решением. Более низкие требования к памяти и надежная, хорошо поддерживаемая экосистема, окружающая YOLO11, гарантируют, что разработчики смогут уверенно создавать, развертывать и масштабировать свои решения на основе ИИ.

Для тех, кто заинтересован в дальнейшем изучении, документация Ultralytics предлагает сравнения с другими моделями, такими как YOLOv8, YOLOv10 и RT-DETR.


Комментарии