DAMO-YOLO против YOLOv10: техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и сложность развертывания. Это сравнение предоставляет подробный технический анализ DAMO-YOLO, инновационной модели от Alibaba Group, и YOLOv10, последней эволюции в серии YOLO, которая полностью интегрирована в экосистему Ultralytics. Мы рассмотрим их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для вашего проекта.
DAMO-YOLO
DAMO-YOLO — это высокопроизводительная модель обнаружения объектов, разработанная Alibaba Group. Она представляет несколько новых методов для достижения хорошего баланса между скоростью и точностью. Модель использует поиск нейронной архитектуры (NAS) для оптимизации своих компонентов, что приводит к созданию эффективной и мощной архитектуры.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Архитектура и ключевые особенности
Архитектура DAMO-YOLO отличается несколькими ключевыми инновациями, разработанными для расширения границ обнаружения объектов:
- Neural Architecture Search (NAS) Backbone: DAMO-YOLO использует backbone, сгенерированный с помощью NAS, специально разработанный для задач обнаружения объектов. Этот автоматизированный процесс поиска помогает обнаружить более эффективные и мощные сети извлечения признаков, чем разработанные вручную.
- Эффективный RepGFPN Neck: Он включает в себя эффективную структуру neck под названием RepGFPN (Reparameterized Generalized Feature Pyramid Network). Этот компонент эффективно объединяет признаки из разных масштабов backbone, улучшая способность модели обнаруживать объекты разных размеров.
- ZeroHead: Модель представляет дизайн "ZeroHead", который упрощает структуру детектора, разделяя задачи классификации и регрессии, сохраняя при этом высокую производительность. Этот подход снижает вычислительные затраты на заключительном этапе обнаружения.
- Назначение меток AlignedOTA: DAMO-YOLO использует AlignedOTA (Aligned Optimal Transport Assignment) — усовершенствованную стратегию назначения меток, которая улучшает согласование между прогнозируемыми ограничивающими рамками и фактическими объектами во время обучения, что приводит к повышению точности локализации.
Сильные и слабые стороны
Сильные стороны
- Высокая точность: Сочетание NAS-ускоренной базовой сети и продвинутых компонентов, таких как RepGFPN и AlignedOTA, позволяет DAMO-YOLO достигать высоких показателей mAP.
- Инновационная архитектура: Модель представляет несколько новых концепций, которые вносят вклад в более широкую область исследований в области обнаружения объектов.
- Хороший компромисс между скоростью и точностью: Модели DAMO-YOLO обеспечивают конкурентный баланс между скоростью инференса и точностью обнаружения, что делает их подходящими для различных приложений.
Слабые стороны
- Сложность и экосистема: Архитектура, хотя и мощная, может быть более сложной для понимания и модификации. Она в основном поддерживается в своем собственном репозитории GitHub, и ей не хватает обширной экосистемы, документации и поддержки сообщества, которые есть у таких моделей, как YOLOv10.
- Затраты на обучение: Продвинутые компоненты и стратегии обучения могут потребовать более специализированных знаний и потенциально более длительных циклов обучения по сравнению с более простыми моделями.
Идеальные варианты использования
DAMO-YOLO хорошо подходит для сценариев, где достижение максимальной точности с новой архитектурой является приоритетом, и команда разработчиков обладает опытом для управления ее сложностью.
- Исследования и разработки: Ее инновационные компоненты делают ее отличной моделью для академических исследований и для команд, изучающих передовые методы обнаружения.
- Промышленная автоматизация: В контролируемых средах, таких как производство, где решающее значение имеет высокоточное обнаружение дефектов, точность DAMO-YOLO может быть значительным преимуществом.
- Изображения высокого разрешения: Приложения, включающие детальный анализ изображений высокого разрешения, такие как анализ спутниковых снимков, могут извлечь выгоду из его надежных возможностей слияния признаков.
YOLOv10
Ultralytics YOLOv10 — это последнее поколение известного семейства YOLO, разработанное исследователями из Университета Цинхуа. Это знаменует собой значительный скачок вперед благодаря обеспечению сквозного обнаружения объектов в реальном времени. Ключевой инновацией является конструкция без NMS, которая устраняет узкое место постобработки и снижает задержку при выводе. YOLOv10 легко интегрируется в экосистему Ultralytics, предлагая беспрецедентную простоту использования и эффективность.
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация: Tsinghua University
- Дата: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Документация: https://docs.ultralytics.com/models/yolov10/
Архитектура и Производительность
YOLOv10 представляет целостный подход к проектированию, ориентированный на эффективность и точность. Его архитектура оптимизирована от начала до конца, чтобы уменьшить вычислительную избыточность и повысить возможности обнаружения.
- Обучение без NMS: Благодаря использованию согласованных двойных назначений, YOLOv10 устраняет необходимость в Non-Maximum Suppression (NMS) во время вывода. Это не только снижает задержку при выводе, но и упрощает конвейер развертывания, делая его действительно сквозным.
- Облегченная классификационная головка: Модель включает в себя облегченную классификационную головку, снижающую вычислительные издержки без ущерба для точности.
- Пространственно-канальное разделенное понижение дискретизации: Этот метод сохраняет более богатую семантическую информацию во время понижения дискретизации, улучшая производительность модели, особенно для небольших объектов.
Приведенные ниже метрики производительности демонстрируют превосходство YOLOv10. Например, YOLOv10s достигает более высокого mAP, чем DAMO-YOLOs (46.7 против 46.0), будучи при этом значительно быстрее и эффективнее, с менее чем половиной параметров и FLOPs. Во всех масштабах модели YOLOv10 стабильно предлагают лучшую параметрическую и вычислительную эффективность, что приводит к более высокой скорости инференса для заданного уровня точности.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Сильные и слабые стороны
Сильные стороны
- Передовая эффективность: YOLOv10 устанавливает новый стандарт компромисса между скоростью и точностью. Его конструкция без NMS обеспечивает значительное преимущество в сценариях вывода в реальном времени.
- Простота использования: Являясь частью экосистемы Ultralytics, YOLOv10 выигрывает от простого Python API, подробной документации и оптимизированного пользовательского опыта.
- Хорошо поддерживаемая экосистема: Пользователи получают доступ к Ultralytics HUB для обучения без кода, активной разработке, мощной поддержке сообщества и большому количеству ресурсов.
- Эффективность обучения: Модель предлагает эффективные процессы обучения с легкодоступными предварительно обученными весами, значительно сокращая время разработки.
- Меньшие требования к памяти: YOLOv10 разработан для вычислительной эффективности, требуя меньше памяти CUDA во время обучения и инференса по сравнению с более сложными архитектурами.
Слабые стороны
- Более новая модель: Будучи совсем новой моделью, количество учебных пособий от сторонних разработчиков и проектов, управляемых сообществом, все еще растет, хотя она быстро внедряется благодаря интеграции в популярный фреймворк Ultralytics.
Идеальные варианты использования
Исключительная скорость, эффективность и простота использования YOLOv10 делают ее идеальным выбором для широкого спектра реальных приложений, особенно тех, которые требуют производительности в реальном времени.
- Edge AI: Малые и быстрые варианты (YOLOv10n, YOLOv10s) идеально подходят для развертывания на периферийных устройствах с ограниченными ресурсами, таких как мобильные телефоны, дроны и NVIDIA Jetson.
- Автономные системы: Низкая задержка имеет решающее значение для приложений в робототехнике и автомобилях с автоматическим управлением, где быстрое принятие решений необходимо для безопасности и навигации.
- Наблюдение в реальном времени: Идеально подходит для систем безопасности, которым необходимо мгновенно обнаруживать угрозы, например, в предотвращении краж или мониторинге толпы.
- Розничная аналитика: Может использоваться для управления запасами в реальном времени и анализа поведения клиентов для оптимизации работы магазина.
Заключение
И DAMO-YOLO, и YOLOv10 - мощные модели обнаружения объектов, представляющие собой значительные достижения в этой области. DAMO-YOLO выделяется своими инновационными архитектурными компонентами и высокой точностью, что делает его сильным кандидатом для исследовательских проектов и специализированных промышленных приложений.
Однако, для подавляющего большинства разработчиков и исследователей YOLOv10 является превосходным выбором. Он не только обеспечивает современную производительность с исключительной эффективностью, но и поставляется с огромными преимуществами экосистемы Ultralytics. Сочетание его сквозной конструкции без NMS, простоты использования, всеобъемлющей документации, эффективного обучения и надежной поддержки делает YOLOv10 более практичным, мощным и доступным решением для создания и развертывания высокопроизводительных приложений компьютерного зрения.
Для тех, кто ищет другие высокопроизводительные модели, рекомендуем изучить Ultralytics YOLOv8 за ее проверенную универсальность и широкое распространение или новейшую YOLO11 для еще более продвинутых функций.