Перейти к содержанию

DAMO-YOLO против YOLO11: техническое сравнение

На этой странице представлено подробное техническое сравнение двух современных моделей обнаружения объектов: DAMO-YOLO, разработанной Alibaba Group, и Ultralytics YOLO11. Хотя обе модели разработаны для высокопроизводительного обнаружения объектов в реальном времени, они используют различные архитектурные принципы и превосходны в разных областях. Мы проанализируем их архитектурные различия, показатели производительности и идеальные приложения, чтобы помочь вам принять обоснованное решение для ваших проектов в области компьютерного зрения.

DAMO-YOLO

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO — это быстрый и точный метод обнаружения объектов, разработанный Alibaba Group. Он представляет несколько новых методов для расширения границ производительности детекторов в стиле YOLO. Модель направлена на достижение превосходного баланса между точностью и задержкой, особенно на оборудовании GPU.

Узнайте больше о DAMO-YOLO

Архитектура и ключевые особенности

Архитектура DAMO-YOLO представляет собой комбинацию передовых компонентов, разработанных для синергетической работы:

  • Бэкбоны на основе NAS: Он использует Neural Architecture Search (NAS) для создания эффективных бэкбонов (таких как GiraffeNet), оптимизированных для конкретного оборудования, что снижает вычислительные затраты при сохранении высоких возможностей извлечения признаков.
  • Эффективный RepGFPN Neck: Модель включает в себя эффективную структуру neck, основанную на Generalized Feature Pyramid Networks (GFPN) с методами повторной параметризации для улучшения многомасштабного слияния признаков.
  • ZeroHead: DAMO-YOLO представляет легкую голову обнаружения без привязки к anchor под названием ZeroHead, которая разделяет задачи классификации и регрессии и снижает вычислительные издержки.
  • Назначение меток AlignedOTA: Используется улучшенная стратегия назначения меток под названием AlignedOTA, которая динамически сопоставляет фактические объекты с наиболее подходящими прогнозами на основе оценок классификации и локализации, что приводит к улучшению сходимости обучения.
  • Дистилляция знаний: Процесс обучения улучшен с помощью дистилляции знаний, где большая, более мощная учительская модель направляет обучение меньшей ученической модели, чтобы повысить ее конечную точность.

Сильные стороны

  • Высокая точность на GPU: DAMO-YOLO достигает впечатляющих показателей mAP, особенно в своих более крупных вариантах, демонстрируя высокую производительность на наборе данных COCO.
  • Быстрый вывод на GPU: Модель высоко оптимизирована для вывода на GPU, обеспечивая низкую задержку, что критически важно для приложений реального времени, работающих на специализированном графическом оборудовании.
  • Инновационные техники: Это демонстрирует эффективность современных методов, таких как NAS, расширенное назначение меток и дистилляция, в обнаружении объектов.

Слабые стороны

  • Ограниченная универсальность: DAMO-YOLO в основном разработан для обнаружения объектов. Ему не хватает встроенной поддержки других задач компьютерного зрения, таких как сегментация экземпляров, оценка позы или классификация, которые являются стандартными во фреймворках, таких как Ultralytics.
  • Сложная экосистема: Репозиторий и документация, хотя и функциональны, менее оптимизированы по сравнению с экосистемой Ultralytics. Это может представлять собой более крутую кривую обучения для новых пользователей.
  • Ориентация на оборудование: Производительность в основном оценивается на GPU, с ограниченной информацией о производительности CPU, что делает его менее гибким выбором для развертывания только на CPU или на различных периферийных устройствах.

Ultralytics YOLO11

Авторы: Гленн Джокер, Цзин Цю
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 — это последняя эволюция в известной серии YOLO (You Only Look Once), представляющая собой современный уровень обнаружения объектов в реальном времени и не только. Он опирается на успехи своих предшественников, таких как YOLOv8, обеспечивая повышенную точность, скорость и универсальность в рамках зрелой и удобной экосистемы.

Узнайте больше о YOLO11

Архитектура и ключевые особенности

YOLO11 имеет усовершенствованную одноэтапную anchor-free архитектуру, которая высоко оптимизирована для исключительного баланса производительности и эффективности. Его конструкция фокусируется на оптимизированном извлечении признаков и легкой структуре сети, что уменьшает количество параметров и вычислительную нагрузку. Это делает YOLO11 хорошо адаптируемым для развертывания на широком спектре оборудования, от мощных облачных серверов до периферийных устройств с ограниченными ресурсами, таких как NVIDIA Jetson.

Однако, истинная сила YOLO11 заключается в его интеграции с хорошо поддерживаемой экосистемой Ultralytics, которая предоставляет значительные преимущества:

  • Простота использования: Простой Python API и мощный CLI делают обучение, проверку и вывод невероятно простыми. Обширная документация предоставляет четкие инструкции для пользователей с любым уровнем подготовки.
  • Универсальность: В отличие от DAMO-YOLO, YOLO11 — это многозадачная модель, которая изначально поддерживает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB) в рамках единой унифицированной структуры.
  • Баланс производительности: Модели YOLO11 предлагают отличный компромисс между скоростью и точностью как на CPU, так и на GPU, обеспечивая гибкое и эффективное развертывание в различных реальных сценариях.
  • Эффективность обучения: Фреймворк оптимизирован для быстрого времени обучения и имеет более низкие требования к памяти по сравнению с более сложными архитектурами. Легкодоступные предварительно обученные веса ускоряют пользовательские процессы обучения.
  • Надежная экосистема: Пользователи получают выгоду от активной разработки, сильной поддержки сообщества через GitHub и Discord, частых обновлений и полной интеграции с такими инструментами, как Ultralytics HUB, для сквозных MLOps.

Сильные стороны

  • Передовая производительность: Достигает первоклассных показателей mAP с архитектурой, оптимизированной как для скорости, так и для точности.
  • Беспрецедентная универсальность: Единый модельный фреймворк может обрабатывать пять различных задач компьютерного зрения, предоставляя комплексное решение для сложных проектов.
  • Превосходное удобство использования: Оптимизированный API, понятная документация и интегрированная экосистема делают его исключительно простым для начала работы и развертывания.
  • Гибкость оборудования: Высокая эффективность как на CPU, так и на GPU, что делает его подходящим для более широкого спектра целей развертывания.
  • Активная поддержка: Поддерживается специализированной командой Ultralytics и большим активным сообществом с открытым исходным кодом.

Слабые стороны

  • Более крупные модели, такие как YOLO11x, требуют значительных вычислительных ресурсов, хотя и остаются весьма эффективными для своего класса производительности.

Сравнение производительности

В таблице ниже представлено прямое сравнение метрик производительности DAMO-YOLO и YOLO11 на наборе данных COCO val.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

На основании данных можно сделать несколько выводов:

  • Точность: Несмотря на конкурентоспособность DAMO-YOLO, модели YOLO11, особенно средние и крупные варианты (YOLO11m, l, x), достигают более высоких показателей mAP, при этом YOLO11x достигает впечатляющего значения 54,7 mAP.
  • Скорость GPU: DAMO-YOLO демонстрирует очень конкурентную задержку на GPU. Однако модели YOLO11 также хорошо оптимизированы, при этом YOLO11n достигает самой высокой скорости на GPU — 1,5 мс.
  • Скорость CPU: Критическим преимуществом YOLO11 является его отличная и хорошо документированная производительность CPU. Доступность бенчмарков CPU делает его надежным выбором для приложений, где GPU недоступны. DAMO-YOLO не хватает официальных метрик скорости CPU, что ограничивает его применимость.
  • Эффективность: Модели YOLO11 исключительно эффективны. Например, YOLO11l достигает 53.4 mAP всего с 25.3M параметрами, превосходя DAMO-YOLOl как по точности, так и по эффективности параметров. YOLO11n устанавливает стандарт для легких моделей, имея всего 2.6M параметров.

Заключение и рекомендации

DAMO-YOLO — это мощный детектор объектов, демонстрирующий впечатляющие академические инновации и обеспечивающий высокую производительность на GPU-оборудовании. Это отличный выбор для исследователей, изучающих передовые архитектурные концепции, или для приложений, развернутых в средах с большим количеством GPU, где требуется только обнаружение объектов.

Однако, для подавляющего большинства разработчиков, исследователей и предприятий Ultralytics YOLO11 является очевидным и превосходным выбором. Он не только обеспечивает современную точность и скорость, но и делает это в рамках зрелой, простой в использовании и невероятно универсальной структуры. Встроенная поддержка нескольких задач, отличная производительность как на CPU, так и на GPU, а также надежная экосистема документации, поддержки сообщества и инструментов MLOps, таких как Ultralytics HUB, делают YOLO11 более практичным, масштабируемым и мощным решением для создания реальных приложений компьютерного зрения.

Изучите другие модели

Если вам интересно, как DAMO-YOLO и YOLO11 соотносятся с другими ведущими моделями, ознакомьтесь с этими другими сравнениями:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии