YOLO11 против YOLOv6-3.0: Подробное сравнение моделей
Выбор правильной модели компьютерного зрения имеет решающее значение для достижения оптимальной производительности в задачах обнаружения объектов. На этой странице представлено техническое сравнение между Ultralytics YOLO11 и YOLOv6-3.0 с упором на их архитектуры, показатели производительности, методологии обучения и идеальные варианты использования, чтобы помочь вам выбрать наиболее подходящий вариант для вашего проекта. Хотя оба являются мощными детекторами, YOLO11 выделяется как более универсальное, эффективное и удобное решение, интегрированное в комплексную и активно поддерживаемую экосистему.
Ultralytics YOLO11
Авторы: Glenn Jocher и Jing Qiu
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 – это новейшая современная модель от Ultralytics, представляющая собой последнюю эволюцию в серии YOLO. Выпущенная в сентябре 2024 года, она основана на предыдущих версиях, таких как YOLOv8, с архитектурными усовершенствованиями, направленными на повышение скорости и точности. YOLO11 разработана для обеспечения превосходной производительности и эффективности в широком спектре задач компьютерного зрения, включая обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB).
Архитектура и ключевые особенности
YOLO11 имеет оптимизированную архитектуру, которая обеспечивает точный баланс между размером модели, скоростью инференса и точностью. Ключевые улучшения включают улучшенные слои извлечения признаков и оптимизированную структуру сети, минимизирующую вычислительные издержки. Эта конструкция обеспечивает эффективную работу на различном оборудовании, от периферийных устройств до облачных серверов. Как детектор без привязки к anchor-ам, YOLO11 упрощает процесс обнаружения и часто улучшает обобщение, что делает его более современным и эффективным выбором.
Сильные стороны
- Превосходный баланс производительности: Достигает более высоких показателей mAP с меньшим количеством параметров по сравнению со многими конкурентами, предлагая отличный компромисс между скоростью и точностью, как видно из таблицы производительности ниже.
- Универсальность: Поддерживает несколько задач компьютерного зрения в рамках единой унифицированной структуры, предоставляя комплексное решение, которое выходит далеко за рамки простого обнаружения объектов. Это является значительным преимуществом перед моделями, ориентированными на одну задачу, такими как YOLOv6.
- Простота использования: Преимущества оптимизированной экосистемы Ultralytics, включающей простой Python API, обширную документацию и легкодоступные предварительно обученные веса.
- Хорошо поддерживаемая экосистема: Активно разрабатывается и поддерживается Ultralytics, с частыми обновлениями, сильной поддержкой сообщества через GitHub и Discord, и бесшовной интеграцией с Ultralytics HUB для обучения и развертывания без кода.
- Эффективность обучения: Предлагает высокоэффективные процессы обучения, часто требующие меньше памяти по сравнению с другими архитектурами, такими как модели на основе трансформеров, которые медленнее в обучении и требуют больше ресурсов.
Слабые стороны
- Новая модель: Поскольку это последний релиз, объем учебных пособий от сообщества и сторонних инструментов все еще растет по сравнению с более устоявшимися моделями, такими как YOLOv5.
- Обнаружение мелких объектов: Как и большинство одноэтапных детекторов, может столкнуться с проблемами при работе с очень мелкими объектами по сравнению со специализированными двухэтапными детекторами, хотя в большинстве сценариев он по-прежнему работает надежно.
Идеальные варианты использования
Сочетание точности, скорости и универсальности YOLO11 делает ее идеальной для широкого спектра современных приложений:
- Приложения реального времени, требующие высокой точности (например, автономные системы, робототехника).
- Сценарии с несколькими задачами, требующие одновременного обнаружения, сегментации и оценки позы, например, в передовых системах безопасности.
- Развертывание на различных платформах, от периферийных устройств с ограниченными ресурсами (NVIDIA Jetson, Raspberry Pi) до мощной облачной инфраструктуры.
- Приложения в сферах безопасности, розничной торговли, здравоохранения и производства.
YOLOv6-3.0
Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
Организация: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Документация: https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0, разработанный Meituan, представляет собой фреймворк для обнаружения объектов, разработанный в первую очередь для промышленных приложений. Выпущенный в начале 2023 года, он был направлен на обеспечение баланса между скоростью и точностью, подходящего для реальных сценариев развертывания на тот момент.
Архитектура и ключевые особенности
В YOLOv6 были представлены архитектурные модификации, такие как эффективный backbone и neck-дизайн. В версии 3.0 эти элементы были дополнительно усовершенствованы и внедрены такие методы, как самодистилляция во время обучения, для повышения производительности. Он также предлагает специальные модели, оптимизированные для мобильного развертывания (YOLOv6Lite), демонстрируя свою ориентацию на аппаратные оптимизации.
Сильные стороны
- Хороший компромисс между скоростью и точностью: Предлагает конкурентную производительность, особенно для задач промышленного обнаружения объектов, где скорость является основным фактором.
- Поддержка квантования: Предоставляет инструменты и учебные пособия по квантованию моделей, что полезно для развертывания на оборудовании с ограниченными ресурсами.
- Мобильная оптимизация: Включает варианты YOLOv6Lite, специально разработанные для мобильного вывода или вывода на базе CPU.
Слабые стороны
- Ограниченная универсальность задач: В основном ориентирован на обнаружение объектов, не хватает встроенной поддержки сегментации, классификации или оценки позы, которые есть во всеобъемлющем фреймворке Ultralytics YOLO11. Это ограничивает его применимость в современных, многогранных AI-проектах.
- Экосистема и обслуживание: Будучи проектом с открытым исходным кодом, экосистема не так всеобъемлюща и активно поддерживается, как платформа Ultralytics. Это может привести к замедлению обновлений, меньшему количеству интеграций и уменьшению поддержки сообщества для разработчиков.
- Более высокое использование ресурсов: Как показано в таблице ниже, более крупные модели YOLOv6 могут иметь значительно больше параметров и FLOPs по сравнению с эквивалентами YOLO11 для аналогичного mAP, что потенциально требует больше вычислительных ресурсов для обучения и развертывания.
Идеальные варианты использования
YOLOv6-3.0 подходит для:
- Промышленные приложения, где скорость обнаружения объектов является наиболее важным фактором.
- Сценарии развертывания, использующие квантование или требующие мобильно-оптимизированных моделей для устаревших систем.
- Проекты, которые исключительно сосредоточены на обнаружении объектов и не требуют многозадачности.
Сравнение производительности: YOLO11 против YOLOv6-3.0
В следующей таблице представлено подробное сравнение производительности моделей YOLO11 и YOLOv6-3.0 на наборе данных COCO.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Данные ясно показывают, что модели YOLO11 стабильно достигают более высоких показателей mAP, чем их аналоги YOLOv6-3.0 в аналогичных масштабах, и при этом используют значительно меньше параметров и FLOP. Например, YOLO11m превосходит YOLOv6-3.0m по точности (51,5 против 50,0 mAP) почти с половиной параметров (20,1M против 34,9M). Эта превосходная эффективность делает YOLO11 более мощным и экономичным решением для развертывания. В то время как YOLOv6-3.0n демонстрирует очень быстрый вывод на GPU, YOLO11 обеспечивает гораздо лучший общий баланс точности, размера модели и универсальности.
Заключение и рекомендации
Несмотря на то, что YOLOv6-3.0 внесла солидный вклад в область обнаружения объектов, Ultralytics YOLO11 является явным победителем для разработчиков и исследователей, ищущих современное, универсальное и эффективное решение для компьютерного зрения.
YOLO11 не только обеспечивает более высокую точность с меньшими вычислительными ресурсами, но и расширяет свои возможности для широкого спектра задач, включая сегментацию, классификацию и оценку позы в рамках единой, простой в использовании структуры. Надежная и активно поддерживаемая экосистема Ultralytics, включающая обширную документацию, поддержку сообщества и такие инструменты, как Ultralytics HUB, обеспечивает плавную разработку и развертывание.
Для любого нового проекта рекомендуется использовать YOLO11. Тем, кто интересуется другими современными архитектурами, также может быть полезно изучить сравнения с такими моделями, как YOLOv10 или RT-DETR.