DAMO-YOLO против YOLO11: техническое сравнение
На этой странице представлено подробное техническое сравнение двух современных моделей обнаружения объектов: DAMO-YOLO, разработанной Alibaba Group, и Ultralytics YOLO11. Хотя обе модели разработаны для высокопроизводительного обнаружения объектов в реальном времени, они используют различные архитектурные принципы и превосходны в разных областях. Мы проанализируем их архитектурные различия, показатели производительности и идеальные приложения, чтобы помочь вам принять обоснованное решение для ваших проектов в области компьютерного зрения.
DAMO-YOLO
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO — это быстрый и точный метод обнаружения объектов, разработанный Alibaba Group. Он представляет несколько новых методов для расширения границ производительности детекторов в стиле YOLO. Модель направлена на достижение превосходного баланса между точностью и задержкой, особенно на оборудовании GPU.
Архитектура и ключевые особенности
Архитектура DAMO-YOLO представляет собой комбинацию передовых компонентов, разработанных для синергетической работы:
- Бэкбоны на основе NAS: Он использует Neural Architecture Search (NAS) для создания эффективных бэкбонов (таких как GiraffeNet), оптимизированных для конкретного оборудования, что снижает вычислительные затраты при сохранении высоких возможностей извлечения признаков.
- Эффективный RepGFPN Neck: Модель включает в себя эффективную структуру neck, основанную на Generalized Feature Pyramid Networks (GFPN) с методами повторной параметризации для улучшения многомасштабного слияния признаков.
- ZeroHead: DAMO-YOLO представляет легкую голову обнаружения без привязки к anchor под названием ZeroHead, которая разделяет задачи классификации и регрессии и снижает вычислительные издержки.
- Назначение меток AlignedOTA: Используется улучшенная стратегия назначения меток под названием AlignedOTA, которая динамически сопоставляет фактические объекты с наиболее подходящими прогнозами на основе оценок классификации и локализации, что приводит к улучшению сходимости обучения.
- Дистилляция знаний: Процесс обучения улучшен с помощью дистилляции знаний, где большая, более мощная учительская модель направляет обучение меньшей ученической модели, чтобы повысить ее конечную точность.
Сильные стороны
- Высокая точность на GPU: DAMO-YOLO достигает впечатляющих показателей mAP, особенно в своих более крупных вариантах, демонстрируя высокую производительность на наборе данных COCO.
- Быстрый вывод на GPU: Модель высоко оптимизирована для вывода на GPU, обеспечивая низкую задержку, что критически важно для приложений реального времени, работающих на специализированном графическом оборудовании.
- Инновационные техники: Это демонстрирует эффективность современных методов, таких как NAS, расширенное назначение меток и дистилляция, в обнаружении объектов.
Слабые стороны
- Ограниченная универсальность: DAMO-YOLO в основном разработан для обнаружения объектов. Ему не хватает встроенной поддержки других задач компьютерного зрения, таких как сегментация экземпляров, оценка позы или классификация, которые являются стандартными во фреймворках, таких как Ultralytics.
- Сложная экосистема: Репозиторий и документация, хотя и функциональны, менее оптимизированы по сравнению с экосистемой Ultralytics. Это может представлять собой более крутую кривую обучения для новых пользователей.
- Ориентация на оборудование: Производительность в основном оценивается на GPU, с ограниченной информацией о производительности CPU, что делает его менее гибким выбором для развертывания только на CPU или на различных периферийных устройствах.
Ultralytics YOLO11
Авторы: Гленн Джокер, Цзин Цю
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 — это последняя эволюция в известной серии YOLO (You Only Look Once), представляющая собой современный уровень обнаружения объектов в реальном времени и не только. Он опирается на успехи своих предшественников, таких как YOLOv8, обеспечивая повышенную точность, скорость и универсальность в рамках зрелой и удобной экосистемы.
Архитектура и ключевые особенности
YOLO11 имеет усовершенствованную одноэтапную anchor-free архитектуру, которая высоко оптимизирована для исключительного баланса производительности и эффективности. Его конструкция фокусируется на оптимизированном извлечении признаков и легкой структуре сети, что уменьшает количество параметров и вычислительную нагрузку. Это делает YOLO11 хорошо адаптируемым для развертывания на широком спектре оборудования, от мощных облачных серверов до периферийных устройств с ограниченными ресурсами, таких как NVIDIA Jetson.
Однако, истинная сила YOLO11 заключается в его интеграции с хорошо поддерживаемой экосистемой Ultralytics, которая предоставляет значительные преимущества:
- Простота использования: Простой Python API и мощный CLI делают обучение, проверку и вывод невероятно простыми. Обширная документация предоставляет четкие инструкции для пользователей с любым уровнем подготовки.
- Универсальность: В отличие от DAMO-YOLO, YOLO11 — это многозадачная модель, которая изначально поддерживает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB) в рамках единой унифицированной структуры.
- Баланс производительности: Модели YOLO11 предлагают отличный компромисс между скоростью и точностью как на CPU, так и на GPU, обеспечивая гибкое и эффективное развертывание в различных реальных сценариях.
- Эффективность обучения: Фреймворк оптимизирован для быстрого времени обучения и имеет более низкие требования к памяти по сравнению с более сложными архитектурами. Легкодоступные предварительно обученные веса ускоряют пользовательские процессы обучения.
- Надежная экосистема: Пользователи получают выгоду от активной разработки, сильной поддержки сообщества через GitHub и Discord, частых обновлений и полной интеграции с такими инструментами, как Ultralytics HUB, для сквозных MLOps.
Сильные стороны
- Передовая производительность: Достигает первоклассных показателей mAP с архитектурой, оптимизированной как для скорости, так и для точности.
- Беспрецедентная универсальность: Единый модельный фреймворк может обрабатывать пять различных задач компьютерного зрения, предоставляя комплексное решение для сложных проектов.
- Превосходное удобство использования: Оптимизированный API, понятная документация и интегрированная экосистема делают его исключительно простым для начала работы и развертывания.
- Гибкость оборудования: Высокая эффективность как на CPU, так и на GPU, что делает его подходящим для более широкого спектра целей развертывания.
- Активная поддержка: Поддерживается специализированной командой Ultralytics и большим активным сообществом с открытым исходным кодом.
Слабые стороны
- Более крупные модели, такие как YOLO11x, требуют значительных вычислительных ресурсов, хотя и остаются весьма эффективными для своего класса производительности.
Сравнение производительности
В таблице ниже представлено прямое сравнение метрик производительности DAMO-YOLO и YOLO11 на наборе данных COCO val.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
На основании данных можно сделать несколько выводов:
- Точность: Несмотря на конкурентоспособность DAMO-YOLO, модели YOLO11, особенно средние и крупные варианты (YOLO11m, l, x), достигают более высоких показателей mAP, при этом YOLO11x достигает впечатляющего значения 54,7 mAP.
- Скорость GPU: DAMO-YOLO демонстрирует очень конкурентную задержку на GPU. Однако модели YOLO11 также хорошо оптимизированы, при этом YOLO11n достигает самой высокой скорости на GPU — 1,5 мс.
- Скорость CPU: Критическим преимуществом YOLO11 является его отличная и хорошо документированная производительность CPU. Доступность бенчмарков CPU делает его надежным выбором для приложений, где GPU недоступны. DAMO-YOLO не хватает официальных метрик скорости CPU, что ограничивает его применимость.
- Эффективность: Модели YOLO11 исключительно эффективны. Например, YOLO11l достигает 53.4 mAP всего с 25.3M параметрами, превосходя DAMO-YOLOl как по точности, так и по эффективности параметров. YOLO11n устанавливает стандарт для легких моделей, имея всего 2.6M параметров.
Заключение и рекомендации
DAMO-YOLO — это мощный детектор объектов, демонстрирующий впечатляющие академические инновации и обеспечивающий высокую производительность на GPU-оборудовании. Это отличный выбор для исследователей, изучающих передовые архитектурные концепции, или для приложений, развернутых в средах с большим количеством GPU, где требуется только обнаружение объектов.
Однако, для подавляющего большинства разработчиков, исследователей и предприятий Ultralytics YOLO11 является очевидным и превосходным выбором. Он не только обеспечивает современную точность и скорость, но и делает это в рамках зрелой, простой в использовании и невероятно универсальной структуры. Встроенная поддержка нескольких задач, отличная производительность как на CPU, так и на GPU, а также надежная экосистема документации, поддержки сообщества и инструментов MLOps, таких как Ultralytics HUB, делают YOLO11 более практичным, масштабируемым и мощным решением для создания реальных приложений компьютерного зрения.
Изучите другие модели
Если вам интересно, как DAMO-YOLO и YOLO11 соотносятся с другими ведущими моделями, ознакомьтесь с этими другими сравнениями:
- RT-DETR против DAMO-YOLO
- YOLOv9 vs. DAMO-YOLO
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. RT-DETR
- YOLO11 против YOLOv9