YOLOv10 vs YOLOv6-3.0: Эволюция обнаружения объектов в реальном времени

Выбор правильной архитектуры компьютерного зрения является ключевым решением, которое влияет на эффективность, точность и масштабируемость ваших проектов искусственного интеллекта. По мере ускорения развития области detectирования объектов разработчикам часто приходится выбирать между установленными отраслевыми стандартами и передовыми инновациями. В этом руководстве представлено всестороннее техническое сравнение между YOLOv10 и YOLOv6-3.0, двумя известными моделями, разработанными для высокопроизводительных приложений.

YOLOv10: Граница обнаружения без NMS

YOLOv10 представляет собой смену парадигмы в линейке YOLO, фокусируясь на устранении узких мест в конвейере развертывания для достижения реальной сквозной эффективности в реальном времени. Разработанный исследователями из Университета Цинхуа, он вводит архитектурные изменения, которые устраняют необходимость в немаксимальном подавлении (NMS), обычном этапе постобработки, который традиционно увеличивает задержку.

Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
Организация:Университет Цинхуа
Дата: 2024-05-23
Arxiv:View Paper
GitHub:Репозиторий YOLOv10
Документация:Документация YOLOv10

Архитектура и инновации

YOLOv10 оптимизирует задержку при выводе и производительность модели с помощью нескольких ключевых механизмов:

Обучение без NMS: Используя Consistent Dual Assignments, YOLOv10 обучает модель для получения расширенных контрольных сигналов во время обучения, одновременно predict отдельные высококачественные detections во время inference. Это устраняет вычислительные издержки NMS, упрощая конвейер развертывания модели.
Целостный дизайн эффективности и точности: Архитектура имеет облегченную классификационную голову и пространственно-канальную разделенную дискретизацию. Эти компоненты снижают вычислительные затраты (FLOPs), сохраняя при этом важную информацию о признаках.
Крупноядерная свертка (Large-Kernel Convolution): Селективное использование крупноядерных сверток на глубоких этапах увеличивает поле восприятия, позволяя модели лучше понимать глобальный контекст без значительного снижения скорости.

Узнайте больше о YOLOv10

YOLOv6-3.0: Оптимизация промышленного уровня

Выпущенный в начале 2023 года YOLOv6.0 (часто называемый просто YOLOv6) был разработан компанией Meituan специально для промышленных приложений. В ней приоритет отдается аппаратному обеспечению, которое максимально увеличивает пропускную способность GPU, что делает ее надежным кандидатом для автоматизации фабрик и крупномасштабной обработки видео.

Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг и др.
Организация:Meituan
Дата: 13.01.2023
Arxiv:View Paper
GitHub:Репозиторий YOLOv6
Документация:Документация YOLOv6

Архитектура и инновации

YOLOv6-3.0 фокусируется на оптимизации компромисса между скоростью и точностью за счет агрессивной структурной настройки:

Репараметризуемый Backbone: Он использует EfficientRep backbone, который позволяет использовать сложные структуры во время обучения, которые сворачиваются в более простые и быстрые блоки во время инференса.
Стратегия гибридных каналов: Этот подход уравновешивает стоимость доступа к памяти и вычислительную мощность, оптимизируя сеть для различных аппаратных ограничений.
Самодистилляция: Стратегия обучения, при которой сеть-ученик учится у себя (или у версии учителя), чтобы улучшить сходимость и итоговую точность без увеличения стоимости инференса.

Узнайте больше о YOLOv6

Проектирование с учетом аппаратного обеспечения

YOLOv6 был специально разработан как "дружественный к оборудованию", ориентированный на оптимизированную производительность на NVIDIA GPU, таких как T4 и V100. Это делает его особенно эффективным в сценариях, где доступно и настроено конкретное аппаратное ускорение.

Анализ производительности

В следующем сравнении используются метрики из COCO dataset, стандартного бенчмарка для object detection. В таблице показано, как YOLOv10 расширяет границы в плане эффективности параметров и точности.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Основные выводы

Эффективность параметров: YOLOv10 демонстрирует значительное уменьшение размера модели. Например, YOLOv10s достигает более высокой точности (46,7% mAP), чем YOLOv6-3.0s (45,0% mAP), используя при этом менее половины параметров (7,2 млн против 18,5 млн). Этот меньший объем памяти критически важен для периферийных устройств с ограниченным объемом оперативной памяти.
Computational Cost: Количество FLOPs (операций с плавающей запятой) значительно ниже для YOLOv10 по сравнению с аналогичными уровнями, что приводит к снижению энергопотребления и потенциально более низкой рабочей температуре на оборудовании edge AI.
Точность: YOLOv10 стабильно набирает более высокий mAP (средняя точность) во всех масштабах, что указывает на его большую надежность при обнаружении объектов в различных условиях.
Скорость: В то время как YOLOv6-3.0n демонстрирует небольшое преимущество в необработанной задержке TensorRT на GPU T4, реальная выгода от архитектуры YOLOv10 без NMS часто приводит к более высокой общей пропускной способности системы за счет устранения узкого места постобработки на CPU.

Интеграция и экосистема

Одно из наиболее существенных различий заключается в экосистеме и простоте использования. В то время как YOLOv6 является мощным автономным репозиторием, YOLOv10 выигрывает от интеграции в экосистему Ultralytics. Это обеспечивает разработчикам бесперебойный рабочий процесс от аннотации данных до развертывания.

Простота использования с Ultralytics

Использование моделей Ultralytics гарантирует вам доступ к стандартизированному, простому Python API. Вы можете переключаться между моделями, такими как YOLOv8 и YOLOv10 с минимальными изменениями кода, что является гибкостью, недоступной при переключении между разрозненными фреймворками.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train the model on your custom data
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("path/to/image.jpg")

Универсальность и перспективность

Хотя YOLOv6-3.0 в основном ориентирован на detect, фреймворк Ultralytics поддерживает более широкий спектр задач компьютерного зрения, включая segmentation, классификацию и оценку позы. Пользователям, которым требуются многозадачные возможности, часто рекомендуется перейти на YOLO11, поскольку он предлагает современную производительность во всех этих модальностях в рамках одного унифицированного API.

Оптимизированное обучение

Обучение с Ultralytics позволяет использовать такие функции, как автоматическая настройка гиперпараметров и ведение журналов в реальном времени через TensorBoard или Weights & Biases, что значительно ускоряет цикл исследований и производства.

Идеальные варианты использования

Когда следует выбирать YOLOv10

Развертывание на периферии: Благодаря низкому количеству параметров и конструкции без NMS, YOLOv10 идеально подходит для встроенных систем, таких как NVIDIA Jetson или Raspberry Pi, где ресурсы CPU для постобработки ограничены.
Приложения реального времени: Приложения, требующие немедленной обратной связи, такие как автономные транспортные средства или навигация дронов, выигрывают от предсказуемой задержки NMS-free inference.
Новые проекты: Для любого нового проекта превосходный компромисс между точностью и эффективностью, а также поддержка современной экосистемы делают YOLOv10 предпочтительным выбором по сравнению со старыми архитектурами.

Когда следует выбирать YOLOv6-3.0

Устаревшие системы: Если существующий производственный конвейер уже в значительной степени оптимизирован для конкретной архитектуры YOLOv6 и затраты на перепроектирование являются непомерно высокими.
Специфические нагрузки GPU: В сценариях, строго ограниченных пропускной способностью TensorRT на оборудовании эпохи T4, где специфические оптимизации YOLOv6 все еще могут иметь незначительное преимущество в необработанных fps, особенно для nano модели.

Заключение

Несмотря на то, что YOLOv6-3.0 служил надежным эталоном для промышленного object detection после своего выпуска, YOLOv10 представляет собой следующий шаг в развитии vision AI. Благодаря своей архитектуре без NMS, значительно уменьшенному количеству параметров и более высокой точности, YOLOv10 предлагает более эффективное и масштабируемое решение для современных задач компьютерного зрения.

Для разработчиков, стремящихся к самым последним достижениям в универсальности и производительности в detect, segment и оценке позы, мы также рекомендуем изучить YOLO11. Как часть активно поддерживаемой экосистемы Ultralytics, эти модели гарантируют, что вы останетесь в авангарде инноваций в области ИИ благодаря надежной поддержке сообщества и постоянным улучшениям.

Для получения дополнительной информации о сравнении моделей ознакомьтесь с нашим анализом YOLOv10 vs YOLOv8 или изучите возможности RT-DETR для обнаружения на основе трансформеров.

YOLOv10 vs YOLOv6-3.0: Эволюция обнаружения объектов в реальном времени

YOLOv10: Граница обнаружения без NMS

Архитектура и инновации

YOLOv6-3.0: Оптимизация промышленного уровня

Архитектура и инновации

Анализ производительности

Основные выводы

Интеграция и экосистема

Простота использования с Ultralytics

Универсальность и перспективность

Идеальные варианты использования

Когда следует выбирать YOLOv10

Когда следует выбирать YOLOv6-3.0

Заключение

Комментарии