YOLOv5 YOLO: технический анализ эволюции систем обнаружения объектов

В быстро развивающемся мире компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. В этом руководстве сравниваются YOLOv5, легендарный репозиторий, который сделал искусственный интеллект доступным для всех, и YOLO, архитектуру, ориентированную на исследования, разработанную командой TinyVision компании Alibaba. Хотя обе модели нацелены на высокую эффективность, они подходят к решению проблемы с разными философиями в отношении архитектуры, простоты использования и готовности к развертыванию.

Обзор модели и истоки

YOLOv5

Выпущено в середине 2020 года компанией Ultralytics, YOLOv5 отраслевым стандартом не только благодаря своей архитектуре, но и благодаря инженерным решениям. В нем особое внимание уделяется удобству использования, надежным конвейерам обучения и беспроблемной экспортируемости. Он остается одной из наиболее широко используемых моделей искусственного интеллекта в области машинного зрения во всем мире.

Авторы: Гленн Джокер
Организация:Ultralytics
Дата: 2020-06-26
GitHub:ultralytics/yolov5

Узнайте больше о YOLOv5

DAMO-YOLO

Предложенная в конце 2022 года Alibaba Group,YOLO Distillation-Augmented MOdel) объединяет в себе передовые технологии, такие как Neural Architecture Search (NAS), эффективную Reparameterized Generalized-FPN (RepGFPN) и широкое использование дистилляции для повышения производительности.

Авторы: Сяньчжэ Сюй, Ици Цзян и др.
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

Сравнение технической архитектуры

Архитектурные различия между этими двумя моделями подчеркивают переход от эвристических конструкций типа «мешок бесплатных подарков» к автоматизированным архитектурам, основанным на поиске.

YOLOv5: стандарт CSP-Darknet

YOLOv5 модифицированную основу CSP-Darknet53, подключенную к шее сети агрегации путей (PANet). Его основная сила заключается в модульной конструкции и «наборе бесплатных бонусов», применяемых во время обучения, таких как аугментация Mosaic и эволюция гиперпараметров с помощью генетического алгоритма.

Магистраль: CSP-Darknet
Шейка: PANet с блоками CSP
Голова: соединенная голова на основе якорей в стиле YOLOv3

YOLO: NAS и дистилляция

YOLO от стандартных ручных конструкций, используя поиск нейронной архитектуры (NAS) для нахождения оптимальной базовой структуры (MAE-NAS).

Основа: MAE-NAS (на основе поиска)
Шея: RepGFPN (Reparameterized Generalized FPN), позволяющая эффективно объединять признаки.
Голова: ZeroHead (двойные проекционные слои) в сочетании с AlignedOTA для присвоения меток.
Дистилляция: основной компонент, в котором более крупная «учительская» модель направляет обучение меньшей «ученической» модели, что усложняет процесс обучения, но повышает конечную точность.

Сложность дистилляции

Хотя дистилляция повышает точностьYOLO, она значительно усложняет процесс обучения по сравнению с YOLOv5. Пользователи часто должны сначала обучить или загрузить модель-учитель, что повышает барьер для входа для пользовательских наборов данных.

Метрики производительности

В следующей таблице сравниваются результаты различных масштабов моделей на наборе данных COCO .YOLO высокие результаты по академическим показателям, а YOLOv5 конкурентоспособным по пропускной способности и универсальности развертывания.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Анализ результатов

Эффективность: YOLOv5n (Nano) остается лидером в области легких вычислений, имея значительно меньшее количество параметров (2,6 млн против 8,5 млн) и FLOP по сравнению сYOLO, что делает его гораздо более подходящим для экстремальных случаев на стандартных процессорах.
Точность:YOLO свой конвейер дистилляции для получения более высоких mAP из аналогичных значений параметров, особенно в малых и средних диапазонах.
Скорость вывода: YOLOv5 обеспечивает более быстрый CPU через ONNX благодаря более простым архитектурным блокам, которые высоко оптимизированы в стандартных библиотеках.

Обучение и удобство использования

Это основное отличие для разработчиков. Ultralytics уделяет приоритетное внимание опыту «от нуля до героя», в то время как исследовательские репозитории часто требуют обширной настройки.

YOLOv5: оптимизированный опыт

YOLOv5 удобный интерфейс командной строки и Python , которые стали отраслевым стандартом. Обучение на пользовательском наборе данных требует минимальной настройки.

import torch

# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt

YOLO: сложность исследований

ОбучениеYOLO предполагает более сложную систему настройки. Зависимость от графика дистилляции означает, что пользователям часто приходится управлять двумя моделями (учителем и учеником) на этапе обучения, что увеличиваеттребования к памяти GPU и накладные расходы на настройку.

Ultralytics : экосистема и универсальность

В то время какYOLO мощным детектором объектов, Ultralytics предлагает более широкий набор возможностей, необходимых для современных проектов в области искусственного интеллекта.

Универсальность: помимо простых ограничительных рамок, Ultralytics сегментацию экземпляров, оценку позы, классификацию и обнаружение ориентированных ограничительных рамок (OBB).YOLO в основномYOLO на стандартное обнаружение.
Развертывание: Ultralytics легко экспортируются в такие форматы, как TensorRT, CoreML, TFLite и OpenVINO одной команды.
Поддержка сообщества: насчитывающее миллионы пользователей Ultralytics предоставляет обширные ресурсы, учебные материалы и интеграции с сторонними продуктами, которые не могут предложить исследовательские репозитории.

Следующее поколение: YOLO26

Для разработчиков, впечатленных эффективностью моделей на основе NAS, но нуждающихся в простоте использования YOLOv5, рекомендуется использовать YOLO26. Выпущенная в 2026 году, она сочетает в себе лучшие качества обеих моделей.

Полная NMS: как и в случае с недавними научными прорывами, YOLO26 отказывается от использования Non-Maximum Suppression (NMS), упрощая процессы развертывания.
Оптимизатор MuSGD: Вдохновленный обучением LLM, этот гибридный оптимизатор обеспечивает стабильную сходимость.
Оптимизация для периферийных устройств: YOLO26 работает на процессорах на 43 % быстрее, что делает его лучшим выбором для периферийных вычислений по сравнению с YOLOv5 YOLO.

Узнайте больше о YOLO26

Заключение

YOLO — это отличный вклад в область исследований компьютерного зрения, демонстрирующий мощь нейронного архитектурного поиска и дистилляции. Это отличный вариант для исследователей, которые хотят изучить передовые методы архитектурного поиска или добиться максимальной точности при определенных аппаратных ограничениях, когда сложность обучения не является препятствием.

YOLOv5и его современный преемник YOLO26 по-прежнему остаются предпочтительным выбором практически для всех производственных внедрений. Сочетание низкого потребления памяти, широкой поддержки задач (сегментация, поза, OBB) и надежной Ultralytics гарантирует, что проекты переходят от прототипа к производству с минимальными затруднениями.

Тем, кому нужны самые передовые функции и характеристики, мы настоятельно рекомендуем ознакомиться с YOLO26, который предлагает исследователям высокую эффективность и удобство использования, которым Ultralytics .

Дополнительная литература

Ознакомьтесь с последней версией документации по YOLO26.
Посмотрите репозиторий YOLOv5 .
Узнайте об основах обнаружения объектов в реальном времени.
Сравните другие модели, такие как RT-DETR для решений на основе трансформаторов.