YOLO11 против DAMO-YOLO: техническое сравнение
В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. На этой странице представлено подробное техническое сравнение между Ultralytics YOLO11 и DAMO-YOLO — двумя высокопроизводительными архитектурами, разработанными для скорости и точности. В то время как DAMO-YOLO представляет инновационные методы из академических исследований, YOLO11 выделяется как универсальное, готовое к производству решение, поддерживаемое надежной экосистемой.
Краткое изложение
Ultralytics YOLO11 представляет собой последнюю эволюцию в серии YOLO, оптимизируя вывод в реальном времени на различном оборудовании, от периферийных устройств до облачных серверов. Он изначально поддерживает несколько задач, включая detect, segment и оценку позы, что делает его унифицированным решением для сложных конвейеров AI.
DAMO-YOLO, разработанный Alibaba Group, фокусируется на балансировке скорости и точности detect с использованием поиска нейронных архитектур (NAS) и новых методов слияния признаков. Это в первую очередь детектор, ориентированный на исследования и оптимизированный для пропускной способности GPU.
Ultralytics YOLO11
Авторы: Гленн Джокер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/
YOLO11 совершенствует современный уровень, внедряя архитектурные улучшения, которые повышают извлечение признаков, сохраняя при этом высокую эффективность. Он использует модифицированный backbone CSPNet и усовершенствованную голову без привязки к anchor для обеспечения превосходной точности с меньшим количеством параметров по сравнению с предыдущими поколениями.
Ключевые особенности и преимущества
- Универсальность: В отличие от многих специализированных моделей, YOLO11 — это многозадачная структура. Она поддерживает object detection, instance segmentation, image classification, pose estimation и oriented bounding boxes (OBB).
- Усовершенствованная архитектура: Включает блоки C3k2 и модули C2PSA (Cross-Stage Partial with Spatial Attention) для эффективного захвата сложных паттернов, повышения производительности на небольших объектах и сложных фонах.
- Broad Hardware Support: Оптимизировано для CPU и GPU inference, предлагая различные масштабы моделей (от Nano до X-Large) для соответствия ограничениям, начиная от Raspberry Pi и заканчивая NVIDIA A100 кластерами.
- Простота использования: Python API и CLI от Ultralytics позволяют разработчикам обучать, проверять и развертывать модели с минимальным количеством кода.
Экосистема, готовая к Production
YOLO11 легко интегрируется с экосистемой Ultralytics, включая инструменты для управления данными, обучения моделей через Ultralytics HUB и экспорт в один клик в такие форматы, как ONNX, TensorRT и CoreML.
DAMO-YOLO
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO разработан с акцентом на низкую задержку и высокую пропускную способность для промышленных применений. Он представляет несколько «новых технических» компонентов для семейства YOLO, чтобы расширить границы компромисса между скоростью и точностью.
Архитектурные инновации
- Бэкбон MAE-NAS: Использует поиск нейронной архитектуры (NAS), управляемый Mean Absolute Error (MAE), для автоматического обнаружения эффективной топологии сети.
- Эффективный RepGFPN: Обобщенная пирамида признаков (Generalized Feature Pyramid Network, GFPN), которая использует повторную параметризацию, позволяя выполнять сложное слияние признаков во время обучения, при этом сворачиваясь в более быструю и простую структуру во время inference.
- ZeroHead: облегченная головка обнаружения, которая разделяет задачи классификации и регрессии, значительно снижая вычислительные затраты на конечные выходные слои.
- AlignedOTA: Улучшенная стратегия назначения меток, которая решает проблему рассогласования между достоверностью классификации и точностью регрессии во время обучения.
Несмотря на то, что DAMO-YOLO превосходит в определенных метриках, это в первую очередь исследовательский репозиторий. Ему не хватает обширной документации, постоянных обновлений и широкой поддержки сообщества, которые есть в экосистеме Ultralytics.
Метрики производительности: Прямое сравнение
В следующей таблице сравнивается производительность YOLO11 и DAMO-YOLO на COCO val2017 dataset. Ключевые метрики включают Mean Average Precision (mAP) и скорость inference на CPU и GPU.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Анализ результатов
- Превосходство в эффективности: YOLO11 демонстрирует превосходную эффективность параметров. Например, модель YOLO11m достигает 51.5 mAP всего с 20.1 миллионами параметров, в то время как сопоставимая DAMO-YOLOm отстает с 49.2 mAP и большим объемом в 28.2 миллиона параметров.
- Максимальная точность: Самый большой вариант, YOLO11x, достигает замечательного значения 54.7 mAP, превосходя самую большую модель DAMO-YOLO из списка. Это делает YOLO11 предпочтительным выбором для задач, требующих высокой точности, таких как медицинская визуализация или выявление дефектов.
- Развертывание на периферии: Модель YOLO11n (Nano) исключительно легкая (2,6 млн параметров) и быстрая (1,5 мс на T4), что делает ее идеальной для встроенных систем, где память ограничена. В отличие от этого, самая маленькая модель DAMO-YOLO значительно тяжелее (8,5 млн параметров).
- Производительность CPU: Ultralytics предоставляет прозрачные тесты производительности CPU, подчеркивая пригодность YOLO11 для развертываний без выделенных ускорителей. DAMO-YOLO официально не сообщает данные о скорости CPU, что ограничивает ее оценку для IoT-приложений с низким энергопотреблением.
Глубокий технический анализ
Обучение и архитектура
DAMO-YOLO в значительной степени полагается на поиск нейронной архитектуры (NAS) для определения своей базовой сети. Хотя это может привести к теоретически оптимальным структурам, это часто приводит к нерегулярным блокам, которые могут быть недружелюбны к оборудованию на всех устройствах. В отличие от этого, YOLO11 использует созданные вручную, усовершенствованные блоки (C3k2, C2PSA), которые интуитивно разработаны для стандартных библиотек ускорения GPU и CPU.
YOLO11 также подчеркивает эффективность обучения. Она быстро сходится благодаря оптимизированным гиперпараметрам и стратегиям увеличения данных. Ее требования к памяти во время обучения обычно ниже, чем у сложных архитектур на основе трансформеров или NAS, что позволяет исследователям обучать эффективные модели на оборудовании потребительского класса.
Экосистема и удобство использования
Одним из наиболее значительных отличий является экосистема. DAMO-YOLO — это, прежде всего, репозиторий кода для воспроизведения результатов научных работ.
Ultralytics YOLO11, однако, является полнофункциональной платформой:
- Документация: Подробные руководства по всем аспектам конвейера.
- Интеграции: Нативная поддержка MLFlow, TensorBoard и Weights & Biases для отслеживания экспериментов.
- Сообщество: Огромное активное сообщество на GitHub и Discord, которое обеспечивает быстрое исправление ошибок и ответы на вопросы.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for deployment
path = model.export(format="onnx")
Рекомендации по вариантам использования
Когда стоит выбирать Ultralytics YOLO11
- Реальное развертывание: Если вам необходимо развертывание на различном оборудовании (iOS, Android, Edge TPU, Jetson), возможности экспорта YOLO11 не имеют себе равных.
- Сложные конвейеры обработки изображений: Когда вашему проекту требуется нечто большее, чем просто ограничивающие рамки, например, отслеживание объектов или оценка позы тела, YOLO11 обрабатывает это изначально.
- Быстрое прототипирование: Простота использования позволяет разработчикам перейти от данных к работающей демонстрации за считанные минуты.
- Ограничения по ресурсам: Модели Nano и Small предлагают лучшее соотношение точности и размера для устройств с батарейным питанием.
Когда стоит рассмотреть DAMO-YOLO
- Академические исследования: Исследователи, изучающие эффективность NAS в object detection или методы повторной параметризации, могут найти DAMO-YOLO ценным базовым уровнем.
- Специфические конфигурации GPU: В сценариях, где конкретные архитектурные блоки DAMO-YOLO идеально соответствуют иерархии кэша целевого ускорителя, он может предложить конкурентоспособную пропускную способность.
Заключение
Несмотря на то, что DAMO-YOLO представляет впечатляющие академические концепции, такие как MAE-NAS и RepGFPN, Ultralytics YOLO11 остается превосходным выбором для подавляющего большинства разработчиков и предприятий. Его сочетание современной точности, легкой архитектуры и процветающей экосистемы гарантирует, что проекты будут не только производительными, но и поддерживаемыми и масштабируемыми.
Для разработчиков, ищущих надежное, универсальное и высокопроизводительное решение компьютерного зрения, YOLO11 предоставляет инструменты и метрики, необходимые для достижения успеха в 2025 году и в последующий период.
Изучите другие сравнения моделей
Чтобы лучше понимать ландшафт моделей обнаружения объектов, изучите эти связанные сравнения:
- YOLO11 vs. YOLOv10
- YOLO11 vs. YOLOv8
- DAMO-YOLO vs. RT-DETR
- DAMO-YOLO против YOLOX
- YOLO11 vs. EfficientDet