Перейти к содержанию

YOLO11 против DAMO-YOLO: техническое сравнение

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. На этой странице представлено подробное техническое сравнение между Ultralytics YOLO11 и DAMO-YOLO — двумя высокопроизводительными архитектурами, разработанными для скорости и точности. В то время как DAMO-YOLO представляет инновационные методы из академических исследований, YOLO11 выделяется как универсальное, готовое к производству решение, поддерживаемое надежной экосистемой.

Краткое изложение

Ultralytics YOLO11 представляет собой последнюю эволюцию в серии YOLO, оптимизируя вывод в реальном времени на различном оборудовании, от периферийных устройств до облачных серверов. Он изначально поддерживает несколько задач, включая detect, segment и оценку позы, что делает его унифицированным решением для сложных конвейеров AI.

DAMO-YOLO, разработанный Alibaba Group, фокусируется на балансировке скорости и точности detect с использованием поиска нейронных архитектур (NAS) и новых методов слияния признаков. Это в первую очередь детектор, ориентированный на исследования и оптимизированный для пропускной способности GPU.

Ultralytics YOLO11

Авторы: Гленн Джокер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

YOLO11 совершенствует современный уровень, внедряя архитектурные улучшения, которые повышают извлечение признаков, сохраняя при этом высокую эффективность. Он использует модифицированный backbone CSPNet и усовершенствованную голову без привязки к anchor для обеспечения превосходной точности с меньшим количеством параметров по сравнению с предыдущими поколениями.

Ключевые особенности и преимущества

  • Универсальность: В отличие от многих специализированных моделей, YOLO11 — это многозадачная структура. Она поддерживает object detection, instance segmentation, image classification, pose estimation и oriented bounding boxes (OBB).
  • Усовершенствованная архитектура: Включает блоки C3k2 и модули C2PSA (Cross-Stage Partial with Spatial Attention) для эффективного захвата сложных паттернов, повышения производительности на небольших объектах и сложных фонах.
  • Broad Hardware Support: Оптимизировано для CPU и GPU inference, предлагая различные масштабы моделей (от Nano до X-Large) для соответствия ограничениям, начиная от Raspberry Pi и заканчивая NVIDIA A100 кластерами.
  • Простота использования: Python API и CLI от Ultralytics позволяют разработчикам обучать, проверять и развертывать модели с минимальным количеством кода.

Экосистема, готовая к Production

YOLO11 легко интегрируется с экосистемой Ultralytics, включая инструменты для управления данными, обучения моделей через Ultralytics HUB и экспорт в один клик в такие форматы, как ONNX, TensorRT и CoreML.

Узнайте больше о YOLO11

DAMO-YOLO

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO разработан с акцентом на низкую задержку и высокую пропускную способность для промышленных применений. Он представляет несколько «новых технических» компонентов для семейства YOLO, чтобы расширить границы компромисса между скоростью и точностью.

Архитектурные инновации

  • Бэкбон MAE-NAS: Использует поиск нейронной архитектуры (NAS), управляемый Mean Absolute Error (MAE), для автоматического обнаружения эффективной топологии сети.
  • Эффективный RepGFPN: Обобщенная пирамида признаков (Generalized Feature Pyramid Network, GFPN), которая использует повторную параметризацию, позволяя выполнять сложное слияние признаков во время обучения, при этом сворачиваясь в более быструю и простую структуру во время inference.
  • ZeroHead: облегченная головка обнаружения, которая разделяет задачи классификации и регрессии, значительно снижая вычислительные затраты на конечные выходные слои.
  • AlignedOTA: Улучшенная стратегия назначения меток, которая решает проблему рассогласования между достоверностью классификации и точностью регрессии во время обучения.

Несмотря на то, что DAMO-YOLO превосходит в определенных метриках, это в первую очередь исследовательский репозиторий. Ему не хватает обширной документации, постоянных обновлений и широкой поддержки сообщества, которые есть в экосистеме Ultralytics.

Узнайте больше о DAMO-YOLO

Метрики производительности: Прямое сравнение

В следующей таблице сравнивается производительность YOLO11 и DAMO-YOLO на COCO val2017 dataset. Ключевые метрики включают Mean Average Precision (mAP) и скорость inference на CPU и GPU.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Анализ результатов

  1. Превосходство в эффективности: YOLO11 демонстрирует превосходную эффективность параметров. Например, модель YOLO11m достигает 51.5 mAP всего с 20.1 миллионами параметров, в то время как сопоставимая DAMO-YOLOm отстает с 49.2 mAP и большим объемом в 28.2 миллиона параметров.
  2. Максимальная точность: Самый большой вариант, YOLO11x, достигает замечательного значения 54.7 mAP, превосходя самую большую модель DAMO-YOLO из списка. Это делает YOLO11 предпочтительным выбором для задач, требующих высокой точности, таких как медицинская визуализация или выявление дефектов.
  3. Развертывание на периферии: Модель YOLO11n (Nano) исключительно легкая (2,6 млн параметров) и быстрая (1,5 мс на T4), что делает ее идеальной для встроенных систем, где память ограничена. В отличие от этого, самая маленькая модель DAMO-YOLO значительно тяжелее (8,5 млн параметров).
  4. Производительность CPU: Ultralytics предоставляет прозрачные тесты производительности CPU, подчеркивая пригодность YOLO11 для развертываний без выделенных ускорителей. DAMO-YOLO официально не сообщает данные о скорости CPU, что ограничивает ее оценку для IoT-приложений с низким энергопотреблением.

Глубокий технический анализ

Обучение и архитектура

DAMO-YOLO в значительной степени полагается на поиск нейронной архитектуры (NAS) для определения своей базовой сети. Хотя это может привести к теоретически оптимальным структурам, это часто приводит к нерегулярным блокам, которые могут быть недружелюбны к оборудованию на всех устройствах. В отличие от этого, YOLO11 использует созданные вручную, усовершенствованные блоки (C3k2, C2PSA), которые интуитивно разработаны для стандартных библиотек ускорения GPU и CPU.

YOLO11 также подчеркивает эффективность обучения. Она быстро сходится благодаря оптимизированным гиперпараметрам и стратегиям увеличения данных. Ее требования к памяти во время обучения обычно ниже, чем у сложных архитектур на основе трансформеров или NAS, что позволяет исследователям обучать эффективные модели на оборудовании потребительского класса.

Экосистема и удобство использования

Одним из наиболее значительных отличий является экосистема. DAMO-YOLO — это, прежде всего, репозиторий кода для воспроизведения результатов научных работ.

Ultralytics YOLO11, однако, является полнофункциональной платформой:

  • Документация: Подробные руководства по всем аспектам конвейера.
  • Интеграции: Нативная поддержка MLFlow, TensorBoard и Weights & Biases для отслеживания экспериментов.
  • Сообщество: Огромное активное сообщество на GitHub и Discord, которое обеспечивает быстрое исправление ошибок и ответы на вопросы.
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
path = model.export(format="onnx")

Рекомендации по вариантам использования

Когда стоит выбирать Ultralytics YOLO11

  • Реальное развертывание: Если вам необходимо развертывание на различном оборудовании (iOS, Android, Edge TPU, Jetson), возможности экспорта YOLO11 не имеют себе равных.
  • Сложные конвейеры обработки изображений: Когда вашему проекту требуется нечто большее, чем просто ограничивающие рамки, например, отслеживание объектов или оценка позы тела, YOLO11 обрабатывает это изначально.
  • Быстрое прототипирование: Простота использования позволяет разработчикам перейти от данных к работающей демонстрации за считанные минуты.
  • Ограничения по ресурсам: Модели Nano и Small предлагают лучшее соотношение точности и размера для устройств с батарейным питанием.

Когда стоит рассмотреть DAMO-YOLO

  • Академические исследования: Исследователи, изучающие эффективность NAS в object detection или методы повторной параметризации, могут найти DAMO-YOLO ценным базовым уровнем.
  • Специфические конфигурации GPU: В сценариях, где конкретные архитектурные блоки DAMO-YOLO идеально соответствуют иерархии кэша целевого ускорителя, он может предложить конкурентоспособную пропускную способность.

Заключение

Несмотря на то, что DAMO-YOLO представляет впечатляющие академические концепции, такие как MAE-NAS и RepGFPN, Ultralytics YOLO11 остается превосходным выбором для подавляющего большинства разработчиков и предприятий. Его сочетание современной точности, легкой архитектуры и процветающей экосистемы гарантирует, что проекты будут не только производительными, но и поддерживаемыми и масштабируемыми.

Для разработчиков, ищущих надежное, универсальное и высокопроизводительное решение компьютерного зрения, YOLO11 предоставляет инструменты и метрики, необходимые для достижения успеха в 2025 году и в последующий период.

Изучите другие сравнения моделей

Чтобы лучше понимать ландшафт моделей обнаружения объектов, изучите эти связанные сравнения:


Комментарии