Перейти к содержанию

YOLO против YOLOv8: техническое погружение

Область обнаружения объектов постоянно развивается, исследователи и инженеры стремятся найти баланс между конкурирующими требованиями скорости, точности и вычислительной эффективности. Две известные архитектуры, которые произвели значительный фурор в сообществе компьютерного зрения, - это YOLO, разработанная компанией Alibaba Group, и YOLOv8созданная Ultralytics.

В этом техническом сравнении рассматриваются архитектурные инновации, показатели производительности и практическое удобство использования обеих моделей. В то время как YOLO представляет новые исследовательские концепции, такие как поиск нейронной архитектуры (NAS), Ultralytics YOLOv8 фокусируется на предоставлении надежной, удобной экосистемы, которая упрощает рабочий процесс от обучения до развертывания.

Анализ производительности: скорость и точность

Чтобы понять, как эти модели смотрятся в реальных сценариях, мы проанализировали их производительность на стандартном наборе данныхCOCO . Приведенные ниже метрики подчеркивают компромисс между средней точностьюmAP), скоростью вывода на различном оборудовании и сложностью модели.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Основные выводы

Полученные данные свидетельствуют о различных преимуществах в зависимости от цели развертывания:

  • Edge Performance: Сайт YOLOv8n (Nano) является бесспорным лидером для сред с ограниченными ресурсами. Имея всего 3,2 М параметров и 8,7 Б FLOPs, она достигает самой высокой скорости вычислений как на CPU , так и на GPU. Это делает ее идеальной для мобильных приложений или IoT-устройств, где не хватает памяти и мощности.
  • Пиковая точность: Для приложений, где точность имеет первостепенное значение, YOLOv8x достигает наивысшего показателя mAP - 53,9%. В то время как модели YOLO показывают хорошие результаты, самый большой вариант YOLOv8 еще больше расширяет границы точности обнаружения.
  • Компромисс между задержками: YOLO демонстрирует впечатляющую производительность на специализированных GPU (например, T4), что обусловлено оптимизированной для NAS основой. Однако Ultralytics YOLOv8 сохраняет превосходный баланс на более широком спектре аппаратных средств, включая CPU, обеспечивая более широкую гибкость развертывания.

YOLO: инновации, основанные на исследованиях

YOLO - это продукт исследовательских инициатив Alibaba Group. Название расшифровывается как "Discovery, Adventure, Momentum, and Outlook", что отражает стремление к исследованию новых архитектурных рубежей.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date: 2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO

Архитектурные особенности

YOLO объединяет несколько передовых технологий для оптимизации компромисса между задержкой и точностью:

  1. MAE-NAS Backbone: Для автоматического поиска эффективных сетевых структур используется метод поиска нейронной архитектуры (NAS), в частности, метод MAE-NAS.
  2. RepGFPN Neck: Обобщенная сеть пирамид с большим количеством параметров (GFPN) используется для максимизации потока информации между различными уровнями масштаба, улучшая обнаружение объектов на различных расстояниях.
  3. ZeroHead: Чтобы уравновесить тяжелую шею, в модели используется легкая "ZeroHead", снижающая вычислительную нагрузку на финальном этапе обнаружения.
  4. AlignedOTA: стратегия динамического присвоения меток, которая выравнивает задачи классификации и регрессии во время обучения, помогая модели сходиться более эффективно.

Узнайте больше о DAMO-YOLO

Ultralytics YOLOv8: стандарт экосистемы

YOLOv8 представляет собой усовершенствованную архитектуру YOLO с упором на удобство использования, универсальность и современную производительность. В отличие от чисто исследовательских моделей, YOLOv8 создан как продукт для разработчиков, с упором на хорошо поддерживаемую экосистему и простоту интеграции.

Авторы: Гленн Джочер, Аюш Чаурасия и Цзин Цю
Организация:Ultralytics
Дата: 2023-01-10
Документы:Ultralytics YOLOv8

Архитектурные достоинства

  • Обнаружение без якорей: YOLOv8 исключает якорные поля, сокращая количество гиперпараметров, которые необходимо настраивать разработчикам, и упрощая процесс обучения.
  • Модуль C2f: В архитектуре модуль C3 заменен на модуль C2f, предлагающий более богатую информацию о градиентном потоке и сохраняющий при этом малую занимаемую площадь.
  • Разделенная голова: благодаря разделению задач классификации и регрессии в голове модель достигает более высокой точности локализации.
  • Унифицированный фреймворк: Возможно, самая сильная архитектурная особенность этой системы - встроенная поддержка нескольких задач технического зрения:сегментации объектов, оценки положения, классификации и ориентированного обнаружения объектов (OBB)- и все это в рамках одной кодовой базы.

Знаете ли вы?

Ultralytics обеспечивает беспрепятственный экспорт моделей в оптимизированные форматы, такие как ONNX, TensorRT, CoreMLи OpenVINO. Такая возможность экспорта гарантирует, что ваши обученные модели смогут эффективно работать практически на любой аппаратной платформе.

Узнайте больше о YOLOv8

Удобство использования и опыт разработчиков

Наиболее существенные различия между этими двумя моделями заключаются в простоте использования и окружающей экосистеме.

Ultralytics YOLO Модели славятся своим опытом "от нуля до героя". После простой установки PIP разработчики получают доступ к мощному CLI и Python API. Это значительно снижает барьер для входа в систему по сравнению с исследовательскими репозиториями, которые часто требуют сложной настройки среды.

Эффективность обучения

Модели Ultralytics разработаны для повышения эффективности обучения. Они эффективно используют память CUDA , что позволяет использовать большие объемы партий или проводить обучение на графических процессорах потребительского класса. Кроме того, наличие высококачественных предварительно обученных весов ускоряет сходимость, экономя ценное вычислительное время и энергию.

Вот полный, запускаемый пример того, как загрузить и предсказать с помощью модели YOLOv8 всего в трех строках Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

В отличие от этого, хотя YOLO обеспечивает высокую производительность, он, как правило, требует более ручной настройки и знакомства с фреймворками, ориентированными на исследования, что делает его менее доступным для быстрого создания прототипов или коммерческой интеграции.

Заключение: Выбор правильного инструмента

И YOLO , и YOLOv8 - исключительные достижения в области компьютерного зрения.

YOLO - отличный выбор для исследователей, интересующихся нейронной архитектурой поиска, а также для тех, кто развертывает систему именно на том оборудовании, где ее пользовательская основа полностью оптимизирована.

Однако для большинства разработчиков, исследователей и предприятий, Ultralytics YOLOv8 (и более новая версия YOLO11) предлагает более выгодное предложение:

  1. Универсальность: В рамках одной системы можно обрабатывать обнаружение, сегментацию, позу и OBB.
  2. Простота использования: Непревзойденная документация, простой API и мощная поддержка сообщества.
  3. Развертывание: Широкая поддержка режимов экспорта охватывает все - от мобильных телефонов до облачных серверов.
  4. Баланс производительности: Отличное соотношение точности и скорости, особенно на устройствах с CPU и Edge.

Для тех, кто хочет оставаться на передовой, мы также рекомендуем обратить внимание на YOLO11который развивает сильные стороны YOLOv8 с еще большей эффективностью и точностью.

Изучите другие сравнения моделей

Чтобы помочь вам принять наиболее обоснованное решение для ваших проектов в области компьютерного зрения, изучите эти дополнительные подробные сравнения:


Комментарии