YOLO11 против DAMO-YOLO: техническое сравнение

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. На этой странице представлено подробное техническое сравнение между Ultralytics YOLO11 и DAMO-YOLO — двумя высокопроизводительными архитектурами, разработанными для скорости и точности. В то время как DAMO-YOLO представляет инновационные методы из академических исследований, YOLO11 выделяется как универсальное, готовое к производству решение, поддерживаемое надежной экосистемой.

Краткое изложение

Ultralytics YOLO11 представляет собой последнюю эволюцию в серии YOLO, оптимизируя вывод в реальном времени на различном оборудовании, от периферийных устройств до облачных серверов. Он изначально поддерживает несколько задач, включая detect, segment и оценку позы, что делает его унифицированным решением для сложных конвейеров AI.

DAMO-YOLO, разработанный Alibaba Group, фокусируется на балансировке скорости и точности detect с использованием поиска нейронных архитектур (NAS) и новых методов слияния признаков. Это в первую очередь детектор, ориентированный на исследования и оптимизированный для пропускной способности GPU.

Ultralytics YOLO11

Авторы: Гленн Джокер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

YOLO11 совершенствует современный уровень, внедряя архитектурные улучшения, которые повышают извлечение признаков, сохраняя при этом высокую эффективность. Он использует модифицированный backbone CSPNet и усовершенствованную голову без привязки к anchor для обеспечения превосходной точности с меньшим количеством параметров по сравнению с предыдущими поколениями.

Ключевые особенности и преимущества

Универсальность: В отличие от многих специализированных моделей, YOLO11 — это многозадачная структура. Она поддерживает object detection, instance segmentation, image classification, pose estimation и oriented bounding boxes (OBB).
Усовершенствованная архитектура: Включает блоки C3k2 и модули C2PSA (Cross-Stage Partial with Spatial Attention) для эффективного захвата сложных паттернов, повышения производительности на небольших объектах и сложных фонах.
Broad Hardware Support: Оптимизировано для CPU и GPU inference, предлагая различные масштабы моделей (от Nano до X-Large) для соответствия ограничениям, начиная от Raspberry Pi и заканчивая NVIDIA A100 кластерами.
Простота использования: Python API и CLI от Ultralytics позволяют разработчикам обучать, проверять и развертывать модели с минимальным количеством кода.

Экосистема, готовая к Production

YOLO11 легко интегрируется с экосистемой Ultralytics, включая инструменты для управления данными, обучения моделей через Ultralytics HUB и экспорт в один клик в такие форматы, как ONNX, TensorRT и CoreML.

Узнайте больше о YOLO11

DAMO-YOLO

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO разработан с акцентом на низкую задержку и высокую пропускную способность для промышленных применений. Он представляет несколько «новых технических» компонентов для семейства YOLO, чтобы расширить границы компромисса между скоростью и точностью.

Архитектурные инновации

Бэкбон MAE-NAS: Использует поиск нейронной архитектуры (NAS), управляемый Mean Absolute Error (MAE), для автоматического обнаружения эффективной топологии сети.
Эффективный RepGFPN: Обобщенная пирамида признаков (Generalized Feature Pyramid Network, GFPN), которая использует повторную параметризацию, позволяя выполнять сложное слияние признаков во время обучения, при этом сворачиваясь в более быструю и простую структуру во время inference.
ZeroHead: облегченная головка обнаружения, которая разделяет задачи классификации и регрессии, значительно снижая вычислительные затраты на конечные выходные слои.
AlignedOTA: Улучшенная стратегия назначения меток, которая решает проблему рассогласования между достоверностью классификации и точностью регрессии во время обучения.

Несмотря на то, что DAMO-YOLO превосходит в определенных метриках, это в первую очередь исследовательский репозиторий. Ему не хватает обширной документации, постоянных обновлений и широкой поддержки сообщества, которые есть в экосистеме Ultralytics.

Узнайте больше о DAMO-YOLO

Метрики производительности: Прямое сравнение

В следующей таблице сравнивается производительность YOLO11 и DAMO-YOLO на COCO val2017 dataset. Ключевые метрики включают Mean Average Precision (mAP) и скорость inference на CPU и GPU.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Анализ результатов

Превосходство в эффективности: YOLO11 демонстрирует превосходную эффективность параметров. Например, модель YOLO11m достигает 51.5 mAP всего с 20.1 миллионами параметров, в то время как сопоставимая DAMO-YOLOm отстает с 49.2 mAP и большим объемом в 28.2 миллиона параметров.
Максимальная точность: Самый большой вариант, YOLO11x, достигает замечательного значения 54.7 mAP, превосходя самую большую модель DAMO-YOLO из списка. Это делает YOLO11 предпочтительным выбором для задач, требующих высокой точности, таких как медицинская визуализация или выявление дефектов.
Развертывание на периферии: Модель YOLO11n (Nano) исключительно легкая (2,6 млн параметров) и быстрая (1,5 мс на T4), что делает ее идеальной для встроенных систем, где память ограничена. В отличие от этого, самая маленькая модель DAMO-YOLO значительно тяжелее (8,5 млн параметров).
Производительность CPU: Ultralytics предоставляет прозрачные тесты производительности CPU, подчеркивая пригодность YOLO11 для развертываний без выделенных ускорителей. DAMO-YOLO официально не сообщает данные о скорости CPU, что ограничивает ее оценку для IoT-приложений с низким энергопотреблением.

Глубокий технический анализ

Обучение и архитектура

DAMO-YOLO в значительной степени полагается на поиск нейронной архитектуры (NAS) для определения своей базовой сети. Хотя это может привести к теоретически оптимальным структурам, это часто приводит к нерегулярным блокам, которые могут быть недружелюбны к оборудованию на всех устройствах. В отличие от этого, YOLO11 использует созданные вручную, усовершенствованные блоки (C3k2, C2PSA), которые интуитивно разработаны для стандартных библиотек ускорения GPU и CPU.

YOLO11 также подчеркивает эффективность обучения. Она быстро сходится благодаря оптимизированным гиперпараметрам и стратегиям увеличения данных. Ее требования к памяти во время обучения обычно ниже, чем у сложных архитектур на основе трансформеров или NAS, что позволяет исследователям обучать эффективные модели на оборудовании потребительского класса.

Экосистема и удобство использования

Одним из наиболее значительных отличий является экосистема. DAMO-YOLO — это, прежде всего, репозиторий кода для воспроизведения результатов научных работ.

Ultralytics YOLO11, однако, является полнофункциональной платформой:

Документация: Подробные руководства по всем аспектам конвейера.
Интеграции: Нативная поддержка MLFlow, TensorBoard и Weights & Biases для отслеживания экспериментов.
Сообщество: Огромное активное сообщество на GitHub и Discord, которое обеспечивает быстрое исправление ошибок и ответы на вопросы.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
path = model.export(format="onnx")

Заключение

Несмотря на то, что DAMO-YOLO представляет впечатляющие академические концепции, такие как MAE-NAS и RepGFPN, Ultralytics YOLO11 остается превосходным выбором для подавляющего большинства разработчиков и предприятий. Его сочетание современной точности, легкой архитектуры и процветающей экосистемы гарантирует, что проекты будут не только производительными, но и поддерживаемыми и масштабируемыми.

Для разработчиков, ищущих надежное, универсальное и высокопроизводительное решение компьютерного зрения, YOLO11 предоставляет инструменты и метрики, необходимые для достижения успеха в 2025 году и в последующий период.

Изучите другие сравнения моделей

Чтобы лучше понимать ландшафт моделей обнаружения объектов, изучите эти связанные сравнения: