YOLO11 против DAMO-YOLO: техническое сравнение
На этой странице представлено подробное техническое сравнение двух современных моделей обнаружения объектов: Ultralytics YOLO11 и DAMO-YOLO. Мы проанализируем их архитектурные различия, показатели производительности и идеальные приложения, чтобы помочь вам принять обоснованное решение для ваших проектов в области компьютерного зрения. Хотя обе модели разработаны для высокопроизводительного обнаружения объектов, они используют различные подходы и демонстрируют разные сильные стороны, при этом YOLO11 предлагает превосходную универсальность и более надежную экосистему для реального развертывания.
Ultralytics YOLO11
Авторы: Гленн Джокер, Цзин Цю
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 – это новейшая разработка в известной серии YOLO (You Only Look Once), получившей признание за свои быстрые и эффективные возможности обнаружения объектов. YOLO11 улучшает предыдущие итерации YOLO за счет архитектурных усовершенствований, направленных на повышение точности и скорости. Она сохраняет одноэтапный метод обнаружения, обрабатывая изображения за один проход для производительности в реальном времени.
Ключевым преимуществом YOLO11 является ее универсальность. В отличие от DAMO-YOLO, которая в основном ориентирована на обнаружение, YOLO11 представляет собой многозадачную структуру, поддерживающую обнаружение объектов, сегментацию экземпляров, классификацию изображений и оценку позы. Это делает ее комплексным решением для сложных конвейеров компьютерного зрения.
Архитектура и ключевые особенности
YOLO11 фокусируется на балансировке размера модели и точности за счет архитектурных улучшений. К ним относятся усовершенствованные слои извлечения признаков для более богатого захвата признаков и оптимизированная сеть для сокращения вычислительных затрат, что приводит к созданию более быстрых и эффективных по параметрам моделей. Его адаптируемая конструкция позволяет развертывать его на широком спектре оборудования, от периферийных устройств, таких как NVIDIA Jetson, до мощных облачных серверов.
Ключевым моментом является то, что YOLO11 в значительной степени выигрывает от хорошо поддерживаемой экосистемы Ultralytics. Это дает значительное преимущество разработчикам и исследователям:
- Простота использования: Простой Python API, понятный CLI и обширная документация делают начало работы простым.
- Интегрированный рабочий процесс: Бесшовная интеграция с Ultralytics HUB упрощает управление наборами данных, обучение и развертывание, оптимизируя весь жизненный цикл MLOps.
- Эффективность обучения: Эффективные процессы обучения, готовые предварительно обученные веса на наборах данных, таких как COCO, и, как правило, более низкие требования к памяти по сравнению с другими сложными архитектурами.
- Активная разработка: Частые обновления, сильная поддержка сообщества через GitHub и Discord, а также многочисленные интеграции с такими инструментами, как TensorRT и OpenVINO.
DAMO-YOLO
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba Group, которая представляет несколько новых методов для достижения сильного баланса между скоростью и точностью. Она является частью семейства YOLO, но включает в себя уникальные архитектурные компоненты, полученные из передовых исследовательских концепций.
Архитектура и ключевые особенности
Архитектура DAMO-YOLO основана на нескольких ключевых инновациях:
- MAE-NAS Backbone: Он использует подход Neural Architecture Search (NAS) для поиска оптимальной структуры backbone, что приводит к эффективному извлечению признаков.
- Эффективный RepGFPN Neck: Он использует обобщенную сеть feature pyramid с повторной параметризацией для эффективного улучшения слияния признаков в разных масштабах.
- ZeroHead: Модель использует облегченную, отвязанную структуру, которая разделяет задачи классификации и регрессии с минимальными накладными расходами.
- Назначение меток AlignedOTA: Представлена улучшенная стратегия назначения меток для лучшего согласования целей классификации и регрессии во время обучения, что помогает повысить точность.
Хотя эти функции делают DAMO-YOLO мощным детектором, основное внимание в нем по-прежнему уделяется обнаружению объектов. Ему не хватает встроенной поддержки других задач компьютерного зрения, таких как сегментация или оценка позы, которые предоставляет YOLO11. Кроме того, его экосистема менее всеобъемлюща, с меньшим количеством официальных руководств, интеграций и меньшим сообществом по сравнению с Ultralytics YOLO.
Производительность и сравнительное тестирование: детальное сравнение
Производительность обеих моделей на наборе данных COCO val2017 выявляет ключевые различия. YOLO11 стабильно демонстрирует превосходную точность для сопоставимых размеров моделей.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
На основании таблицы можно сделать несколько выводов:
- Точность: Модели YOLO11 стабильно достигают более высоких показателей mAP, чем их аналоги DAMO-YOLO. Например, YOLO11m достигает 51,5 mAP, превосходя 49,2 mAP у DAMO-YOLOm. Самая большая модель, YOLO11x, достигает современного уровня в 54,7 mAP.
- Эффективность: Модели YOLO11 более эффективны по параметрам. YOLO11m достигает превосходной точности, используя всего 20.1M параметров, по сравнению с 28.2M для DAMO-YOLOm.
- Скорость инференса: YOLO11n — самая быстрая модель как на CPU, так и на GPU, что делает ее идеальной для сценариев периферийных вычислений с высокими ограничениями. Примечательно, что Ultralytics предоставляет прозрачные тесты CPU, что является критически важным показателем для многих реальных приложений, который официальные результаты DAMO-YOLO опускают.
Ключевые отличия и варианты использования
Когда стоит выбирать Ultralytics YOLO11
YOLO11 — идеальный выбор для проектов, которые требуют:
- Многозадачные возможности: Если вашему приложению требуется не только обнаружение объектов, но и, например, сегментация экземпляров или оценка позы, YOLO11 предоставляет унифицированный и эффективный фреймворк.
- Простота использования и быстрая разработка: Обширная документация, простой API и интегрированная платформа Ultralytics HUB значительно ускоряют разработку и развертывание.
- Гибкость развертывания: Благодаря высокой производительности на CPU и GPU и широкому диапазону размеров моделей, YOLO11 можно развернуть где угодно, от Raspberry Pi до облачного сервера.
- Надёжная поддержка и обслуживание: Активная разработка и большое сообщество гарантируют, что фреймворк остается актуальным, надежным и хорошо поддерживаемым.
Когда стоит рассмотреть DAMO-YOLO
DAMO-YOLO можно рассматривать для:
- Академические исследования: Его новые архитектурные компоненты, такие как RepGFPN и AlignedOTA, делают его интересной моделью для исследователей, изучающих новые методы обнаружения объектов.
- Развертывания, ориентированные на GPU: Для приложений, которые гарантированно работают на GPU и требуют только обнаружения объектов, DAMO-YOLO предлагает конкурентоспособную скорость инференса.
Заключение
Несмотря на то, что DAMO-YOLO представляет интересные академические инновации для обнаружения объектов, Ultralytics YOLO11 выделяется как превосходный выбор для подавляющего большинства реальных приложений. Ее более высокая точность, лучший баланс производительности и непревзойденная универсальность делают ее более мощным и практичным инструментом.
Ключевое преимущество YOLO11 заключается не только в его современной производительности, но и в надежной, удобной и хорошо поддерживаемой экосистеме, которая его окружает. Это сочетание позволяет разработчикам и исследователям быстрее и эффективнее создавать и развертывать передовые решения в области компьютерного зрения. Для проектов, требующих надежности, масштабируемости и всестороннего набора функций, YOLO11 является явным лидером.
Изучите другие сравнения моделей
Если вам интересно, как эти модели соотносятся с другими, ознакомьтесь с другими страницами сравнения:
- YOLO11 vs. YOLOv8
- DAMO-YOLO vs. RT-DETR
- YOLO11 vs. YOLOv10
- DAMO-YOLO против YOLOv9
- Изучите другие модели, такие как EfficientDet и YOLOX.