DAMO-YOLO против YOLOv8: глубокий технический анализ

Ландшафт object detection постоянно развивается, и исследователи и инженеры стремятся сбалансировать конкурирующие требования скорости, точности и вычислительной эффективности. Двумя известными архитектурами, которые произвели значительный фурор в сообществе компьютерного зрения, являются DAMO-YOLO, разработанная Alibaba Group, и YOLOv8, созданная Ultralytics.

Это техническое сравнение исследует архитектурные инновации, показатели производительности и практическую применимость обеих моделей. В то время как DAMO-YOLO представляет новые исследовательские концепции, такие как Neural Architecture Search (NAS), Ultralytics YOLOv8 фокусируется на предоставлении надежной, удобной для пользователя экосистемы, которая упрощает рабочий процесс от обучения до развертывания.

Анализ производительности: скорость и точность

Чтобы понять, как эти модели сравниваются в реальных сценариях, мы анализируем их производительность на стандартном наборе данных COCO. Приведенные ниже метрики подчеркивают компромиссы между средней точностью (mAP), скоростью логического вывода на различном оборудовании и сложностью модели.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Основные выводы

Данные показывают явные преимущества в зависимости от целевой платформы развертывания:

Производительность на периферии: Модель YOLOv8n (Nano) является бесспорным лидером для сред с ограниченными ресурсами. Имея всего 3,2 млн параметров и 8,7 млрд FLOPs, она достигает максимальной скорости inference как на CPU, так и на GPU. Это делает ее идеальной для мобильных приложений или устройств IoT, где память и мощность ограничены.
Пиковая точность: Для приложений, где точность имеет первостепенное значение, YOLOv8x достигает наивысшего mAP, равного 53,9%. Хотя модели DAMO-YOLO показывают хорошие результаты, самый большой вариант YOLOv8 расширяет границы точности обнаружения.
Компромиссы задержки (Latency Trade-offs): DAMO-YOLO демонстрирует впечатляющую пропускную способность на выделенных GPU (например, T4) благодаря своей NAS-оптимизированной магистрали. Однако Ultralytics YOLOv8 поддерживает превосходный баланс на более широком спектре оборудования, включая CPU, обеспечивая более широкую гибкость развертывания.

DAMO-YOLO: Инновации, основанные на исследованиях

DAMO-YOLO является продуктом исследовательских инициатив Alibaba Group. Название расшифровывается как "Discovery, Adventure, Momentum, and Outlook" («Открытие, Приключение, Импульс и Перспектива»), что отражает стремление к исследованию новых архитектурных горизонтов.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

Архитектурные особенности

DAMO-YOLO интегрирует несколько передовых технологий для оптимизации компромисса между задержкой и точностью:

Бэкбон MAE-NAS: Он использует поиск нейронной архитектуры (NAS) для автоматического обнаружения эффективных сетевых структур, в частности, используя метод, называемый MAE-NAS.
RepGFPN Neck: Для максимизации потока информации между различными уровнями масштаба используется сильно параметризованная сеть Generalized Feature Pyramid Network (GFPN), что улучшает detect объектов на разных расстояниях.
ZeroHead: Чтобы уравновесить тяжелую шею, в модели используется легкая "ZeroHead", снижающая вычислительную нагрузку на финальном этапе обнаружения.
AlignedOTA: Стратегия динамического назначения меток, которая согласовывает задачи классификации и регрессии во время обучения, помогая модели более эффективно сходиться.

Узнайте больше о DAMO-YOLO

Ultralytics YOLOv8: Стандарт экосистемы

YOLOv8 представляет собой усовершенствование архитектуры YOLO, ориентированное на удобство использования, универсальность и современную производительность. В отличие от чисто исследовательских моделей, YOLOv8 разработан как продукт для разработчиков, с акцентом на хорошо поддерживаемую экосистему и простоту интеграции.

Авторы: Гленн Джокер, Аюш Чаурасия и Цзин Цю
Организация:Ultralytics
Дата: 2023-01-10
Документация:Ultralytics YOLOv8

Архитектурные преимущества

Detect без Anchor: YOLOv8 устраняет anchor boxes, уменьшая количество гиперпараметров, которые необходимо настраивать разработчикам, и упрощая процесс обучения.
C2f Module: Архитектура заменяет модуль C3 на C2f, предлагая более богатую информацию о потоке градиентов, сохраняя при этом небольшой размер.
Разделенная голова (Decoupled Head): Благодаря разделению задач классификации и регрессии в голове, модель достигает более высокой точности локализации.
Унифицированный фреймворк: Возможно, самой сильной архитектурной особенностью является встроенная поддержка нескольких задач компьютерного зрения—instance segmentation, оценка позы, classification и detect объектов с ориентацией (obb)—все в рамках единой кодовой базы.

Вы знали?

Ultralytics обеспечивает простой способ экспорта моделей в оптимизированные форматы, такие как ONNX, TensorRT, CoreML и OpenVINO. Эта возможность экспорта гарантирует, что ваши обученные модели смогут эффективно работать практически на любой аппаратной платформе.

Узнайте больше о YOLOv8

Удобство использования и опыт разработчиков

Наиболее существенное различие между двумя моделями заключается в простоте их использования и окружающей экосистеме.

Модели Ultralytics YOLO известны своим опытом «из нуля в героя». С помощью простой установки PIP разработчики получают доступ к мощному CLI и Python API. Это значительно снижает входной барьер по сравнению с исследовательскими репозиториями, которые часто требуют сложной настройки среды.

Эффективность обучения

Модели Ultralytics разработаны для эффективности обучения. Они эффективно используют память CUDA, что позволяет использовать большие размеры пакетов или обучение на GPU потребительского уровня. Кроме того, доступность высококачественных предварительно обученных весов ускоряет сходимость, экономя ценное время вычислений и энергию.

Вот полный, готовый к запуску пример того, как загрузить модель YOLOv8 и выполнить прогнозирование всего в три строки на Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

В отличие от этого, хотя DAMO-YOLO предлагает высокую производительность, она обычно требует больше ручной настройки и знакомства с фреймворками, ориентированными на исследования, что делает ее менее доступной для быстрого прототипирования или коммерческой интеграции.

Вывод: выбор правильного инструмента

DAMO-YOLO и YOLOv8 — исключительные достижения в области компьютерного зрения.

DAMO-YOLO - отличный выбор для исследователей, интересующихся поиском нейронных архитектур, и для тех, кто развертывает их специально на оборудовании, где его пользовательский backbone полностью оптимизирован.

Однако, для большинства разработчиков, исследователей и предприятий Ultralytics YOLOv8 (и более новая YOLO11) предлагает превосходное ценностное предложение:

Универсальность: Возможность обработки Detection, Segmentation, Pose и OBB в одном фреймворке.
Простота использования: Непревзойденная документация, простой API и надежная поддержка сообщества.
Развертывание: Обширная поддержка режимов экспорта охватывает все, от мобильных телефонов до облачных серверов.
Баланс производительности: Отличное соотношение точности и скорости, особенно на CPU и периферийных устройствах.

Для тех, кто хочет оставаться на самом переднем крае, мы также рекомендуем ознакомиться с YOLO11, которая опирается на сильные стороны YOLOv8, обеспечивая еще большую эффективность и точность.

Изучите другие сравнения моделей

Чтобы помочь вам принять наиболее обоснованное решение для ваших проектов в области компьютерного зрения, изучите эти дополнительные подробные сравнения: