YOLOv6-3.0 vs YOLOv10: Подробное техническое сравнение

Выбор оптимальной модели компьютерного зрения имеет решающее значение для успеха инициатив AI, балансируя такие факторы, как задержка inference, точность и вычислительная эффективность. В этом всестороннем техническом сравнении рассматриваются две известные архитектуры object detection: YOLOv6-3.0, разработанная для промышленной скорости, и YOLOv10, известная своей эффективностью в реальном времени. Мы анализируем их архитектурные инновации, эталонные показатели и идеальные варианты использования, чтобы помочь вам в процессе выбора.

YOLOv6-3.0: Промышленная скорость и точность

YOLOv6-3.0, разработанный отделом vision intelligence в Meituan, представляет собой одноэтапную структуру detect объектов, специально оптимизированную для промышленных применений. Выпущенный в начале 2023 года, он уделяет приоритетное внимание удобным для оборудования конструкциям, чтобы максимизировать пропускную способность на GPU и периферийных устройствах, отвечая строгим требованиям inference в реальном времени в производстве и логистике.

Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация:Meituan
Дата: 13.01.2023
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
Документация:https://docs.ultralytics.com/models/yolov6/

Архитектура и ключевые особенности

YOLOv6-3.0 представляет собой "Full-Scale Reloading" своей архитектуры, включающий несколько передовых методов для улучшения feature extraction и скорости сходимости:

Эффективный Backbone с репараметризацией: Он использует аппаратный backbone, который позволяет упростить сложные структуры обучения в более быстрые слои inference, оптимизируя FLOPS без ущерба для точности.
Двунаправленное объединение (BiC): Конструкция neck использует BiC для улучшения сигналов локализации, обеспечивая лучшее объединение признаков в разных масштабах.
Обучение с использованием Anchor (AAT): Несмотря на то, что YOLOv6-3.0 в основном не использует anchor, он повторно вводит вспомогательные ветви на основе anchor во время обучения, чтобы стабилизировать сходимость и повысить производительность.

Сильные и слабые стороны

Преимущества: YOLOv6-3.0 превосходно подходит для сценариев, требующих высокой пропускной способности. Ее поддержка квантования моделей позволяет эффективно развертывать ее на мобильных платформах и во встроенных системах. Варианты "Lite" особенно полезны для сред с ограниченными ресурсами CPU.

Недостатки: Как модель, ориентированная исключительно на обнаружение объектов, она не имеет встроенной поддержки более широких задач, таких как сегментация экземпляров или оценка позы, которые есть в унифицированных фреймворках, таких как YOLO11. Кроме того, по сравнению с более новыми моделями, ее эффективность по параметрам ниже, что требует больше памяти для достижения сопоставимых уровней точности.

Идеальный вариант использования: Автоматизация производства

YOLOv6-3.0 является сильным кандидатом для manufacturing automation, где камеры на сборочных линиях должны быстро обрабатывать потоки высокого разрешения для detect дефектов или сортировки элементов.

Узнайте больше о YOLOv6

YOLOv10: Граница эффективности End-to-End

Представленный исследователями из Университета Цинхуа в мае 2024 года, YOLOv10 расширяет границы семейства YOLO, устраняя необходимость в Non-Maximum Suppression (NMS) во время постобработки. Это нововведение позиционирует его как модель следующего поколения для приложений, критичных к задержкам.

Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
Организация:Университет Цинхуа
Дата: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Документация:https://docs.ultralytics.com/models/yolov10/

Архитектура и ключевые особенности

YOLOv10 использует целостную стратегию проектирования, ориентированную на эффективность и точность:

Обучение без NMS: Используя согласованные двойные назначения (один ко многим для обучения, один к одному для inference), YOLOv10 predict единственный лучший bounding box для каждого объекта. Это устраняет вычислительные издержки и изменчивость задержки, связанные с постобработкой NMS.
Целостный дизайн модели: Архитектура имеет облегченные классификационные головы и пространственно-канальную разделенную дискретизацию, что значительно снижает параметры модели и вычислительные затраты.
Блочный дизайн, управляемый рангом: Для повышения эффективности модель использует блочный дизайн, управляемый рангом, чтобы уменьшить избыточность на этапах, где обработка признаков менее важна.

Сильные и слабые стороны

Преимущества: YOLOv10 предлагает превосходный компромисс между скоростью и точностью, часто достигая более высокого mAP со значительно меньшим количеством параметров, чем предшественники. Ее интеграция в экосистему Ultralytics Python делает ее невероятно простой в обучении и развертывании вместе с другими моделями.

Недостатки: Будучи относительно новым участником, ресурсы сообщества и сторонние инструменты все еще растут. Как и YOLOv6, она специализируется на обнаружении, тогда как пользователи, которым нужны многозадачные возможности, могут предпочесть YOLO11.

Предупреждение: Прорыв в эффективности

Удаление NMS позволяет YOLOv10 достичь стабильной задержки вывода, что является решающим фактором для критически важных систем, таких как автономные транспортные средства, где время обработки должно быть детерминированным.

Узнайте больше о YOLOv10

Анализ производительности: Метрики и бенчмарки

В следующей таблице сравнивается производительность YOLOv6-3.0 и YOLOv10 на COCO dataset. Ключевые метрики включают размер модели, mean Average Precision (mAP) и скорость inference на CPU и GPU.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Основные выводы

Эффективность параметров: YOLOv10 демонстрирует замечательную эффективность. Например, YOLOv10s достигает более высокого mAP (46,7%), чем YOLOv6-3.0s (45,0%), используя при этом менее половины параметров (7,2 млн против 18,5 млн). Этот уменьшенный объем памяти жизненно важен для устройств периферийного ИИ.
Задержка (Latency): Хотя YOLOv6-3.0n показывает немного более быструю необработанную задержку TensorRT (1.17 мс против 1.56 мс), YOLOv10 устраняет шаг NMS, который часто занимает дополнительное время в реальных конвейерах, не зафиксированное во времени необработанного инференса модели.
Точность: Практически во всех масштабах YOLOv10 обеспечивает более высокую точность, что делает его более надежным выбором для обнаружения сложных объектов в сложных условиях.

Использование и реализация

Ultralytics предоставляет оптимизированный интерфейс для использования этих моделей. YOLOv10 изначально поддерживается в ultralytics пакет, обеспечивающий бесшовную обучение и предсказание.

Запуск YOLOv10 с Ultralytics

Вы можете запустить YOLOv10, используя Python API, всего несколькими строками кода. Это подчеркивает простоту использования, присущую экосистеме Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg", save=True)

# Train the model on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

Использование YOLOv6-3.0

YOLOv6-3.0 обычно требует клонирования официального репозитория Meituan для обучения и inference, поскольку он следует другой структуре кодовой базы.

# Clone the YOLOv6 repository
git clone https://github.com/meituan/YOLOv6
cd YOLOv6
pip install -r requirements.txt

# Inference using the official script
python tools/infer.py --weights yolov6s.pt --source path/to/image.jpg

Вывод: выбор правильной модели

Обе модели представляют собой значительные достижения в области компьютерного зрения. YOLOv6-3.0 остается надежным выбором для устаревших промышленных систем, специально оптимизированных для его архитектуры. Однако YOLOv10, как правило, предлагает лучшую рентабельность инвестиций для новых проектов благодаря своей архитектуре без NMS, превосходной эффективности параметров и более высокой точности.

Разработчикам, стремящимся к максимальной универсальности и поддержке экосистемы, настоятельно рекомендуется Ultralytics YOLO11. YOLO11 не только обеспечивает современную производительность обнаружения, но и изначально поддерживает оценку позы, OBB и классификацию в рамках единого, хорошо поддерживаемого пакета. Экосистема Ultralytics обеспечивает эффективные процессы обучения, низкое потребление памяти и простой экспорт в такие форматы, как ONNX и TensorRT, что позволяет уверенно развертывать надежные решения на основе ИИ.

Дополнительная литература

Изучите универсальную YOLO11 для многозадачного визуального ИИ.
Сравните YOLOv10 и RT-DETR для обнаружения на основе трансформеров.
Узнайте о экспорте моделей для достижения максимальной скорости развертывания.

YOLOv6-3.0 vs YOLOv10: Подробное техническое сравнение

YOLOv6-3.0: Промышленная скорость и точность

Архитектура и ключевые особенности

Сильные и слабые стороны

YOLOv10: Граница эффективности End-to-End

Архитектура и ключевые особенности

Сильные и слабые стороны

Анализ производительности: Метрики и бенчмарки

Основные выводы

Использование и реализация

Запуск YOLOv10 с Ultralytics

Использование YOLOv6-3.0

Вывод: выбор правильной модели

Дополнительная литература

Комментарии