YOLOv5 vs. DAMO-YOLO: Подробное техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает потребность в точности, скорости и простоте развертывания. На этой странице представлено подробное техническое сравнение двух мощных моделей: Ultralytics YOLOv5, отраслевого стандарта, известного своей эффективностью и удобством для пользователя, и DAMO-YOLO, модели от Alibaba Group, которая расширяет границы точности обнаружения.
Несмотря на то, что обе модели внесли значительный вклад, YOLOv5 выделяется своей зрелой, хорошо поддерживаемой экосистемой и исключительным балансом производительности, что делает ее весьма практичным выбором для широкого спектра реальных приложений. Мы углубимся в их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение для вашего следующего проекта в области компьютерного зрения.
Ultralytics YOLOv5: Устоявшийся отраслевой стандарт
Автор: Гленн Джокер
Организация: Ultralytics
Дата: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Документация: https://docs.ultralytics.com/models/yolov5/
Выпущенная в 2020 году, Ultralytics YOLOv5 быстро стала одной из самых популярных моделей обнаружения объектов в мире. Ее успех основан на исключительно высокой скорости, надежной точности и беспрецедентной простоте использования. Разработанная на PyTorch, YOLOv5 предназначена для быстрого обучения, надежного инференса и простой развертки, что делает ее оптимальным решением для разработчиков и исследователей.
Архитектура и ключевые особенности
Архитектура YOLOv5 состоит из магистральной сети CSPDarknet53, объединяющего уровня PANet и основанной на anchor boxes детекционной головы. Эта конструкция отличается высокой эффективностью и масштабируемостью, предлагается в различных размерах (n, s, m, l, x) для соответствия различным вычислительным бюджетам и потребностям в производительности. Ключевая сила модели заключается не только в ее архитектуре, но и в окружающей экосистеме, созданной Ultralytics.
Сильные стороны
- Исключительная скорость и эффективность: YOLOv5 высоко оптимизирована для быстрого вывода, что делает ее идеальной для приложений реального времени на широком спектре оборудования, от мощных GPU до периферийных устройств с ограниченными ресурсами.
- Простота использования: YOLOv5, известный своим оптимизированным пользовательским интерфейсом, предлагает простые интерфейсы Python и CLI, обширную документацию и процесс быстрой настройки.
- Хорошо поддерживаемая экосистема: YOLOv5 поддерживается комплексной экосистемой Ultralytics, которая включает активную разработку, большое и полезное сообщество, частые обновления и мощные инструменты, такие как Ultralytics HUB, для обучения и развертывания без кода.
- Баланс производительности: Обеспечивает превосходный компромисс между скоростью инференса и точностью обнаружения, что делает его практичным и надежным выбором для различных реальных сценариев развертывания.
- Универсальность: Помимо обнаружения объектов, YOLOv5 поддерживает сегментацию экземпляров и классификацию изображений, предоставляя гибкое решение для множества задач компьютерного зрения.
- Эффективность обучения: YOLOv5 отличается эффективным процессом обучения, готовыми предварительно обученными весами и, как правило, требует меньше памяти, чем многие конкурирующие архитектуры, что обеспечивает более быстрые циклы разработки.
Слабые стороны
- Точность: Несмотря на высокую точность для своего времени, новые модели, такие как DAMO-YOLO, могут достигать более высоких показателей mAP в бенчмарках, таких как COCO, особенно с более крупными вариантами моделей.
- На основе Anchor: Использование предопределенных anchor boxes иногда может потребовать большей настройки для наборов данных с нестандартными формами объектов по сравнению с подходами без anchor.
Случаи использования
YOLOv5 отлично подходит для сценариев обнаружения объектов в реальном времени, включая:
- Системы безопасности: Мониторинг в реальном времени для таких приложений, как предотвращение краж и обнаружение аномалий.
- Робототехника: Обеспечение восприятия и взаимодействия роботов с окружающей средой в реальном времени, что крайне важно для автономной навигации и манипулирования.
- Промышленная автоматизация: Контроль качества и обнаружение дефектов в производственных процессах, повышение эффективности переработки и мониторинг производственной линии.
- Развертывание Edge AI: Эффективный запуск обнаружения объектов на устройствах с ограниченными ресурсами, таких как Raspberry Pi и NVIDIA Jetson, для обработки на устройстве.
DAMO-YOLO: Детекция с акцентом на точность
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba Group. Представленная в конце 2022 года, она фокусируется на достижении баланса между высокой точностью и эффективным выводом за счет включения нескольких новых методов в свою архитектуру.
Архитектура и ключевые особенности
DAMO-YOLO представляет несколько инновационных компонентов:
- NAS Backbones: Использует поиск нейронной архитектуры (NAS) для оптимизации backbone-сети.
- Эффективный RepGFPN: Использует репараметризованную градиентную пирамидальную сеть признаков для улучшенного слияния признаков.
- ZeroHead: Разделенная головка обнаружения, предназначенная для минимизации вычислительных затрат.
- AlignedOTA: Включает стратегию Aligned Optimal Transport Assignment для лучшего назначения меток во время обучения.
- Улучшение дистилляции: Включает методы дистилляции знаний для повышения производительности.
Сильные стороны
- Высокая точность: Достигает высоких показателей mAP, что указывает на превосходную точность обнаружения, особенно с более крупными вариантами моделей.
- Инновационные техники: Включает новые методы, такие как AlignedOTA и RepGFPN, направленные на повышение производительности по сравнению со стандартными архитектурами.
Слабые стороны
- Сложность интеграции: Может потребоваться больше усилий для интеграции в существующие рабочие процессы, особенно по сравнению с упрощенным опытом в экосистеме Ultralytics.
- Поддержка экосистемы: Документация и поддержка сообщества могут быть менее обширными по сравнению с хорошо зарекомендовавшей себя и активно поддерживаемой YOLOv5.
- Универсальность задач: В основном ориентирован на обнаружение объектов, и ему может не хватать встроенной поддержки для других задач, таких как сегментация или классификация, которые есть в более поздних моделях Ultralytics.
Случаи использования
DAMO-YOLO хорошо подходит для приложений, где высокая точность обнаружения имеет первостепенное значение:
- Высокоточные приложения: Детальный анализ изображений, медицинская визуализация и научные исследования.
- Сложные сценарии: Среды с перекрывающимися объектами или требующие детального понимания сцены.
- Исследования и разработки: Изучение передовых архитектур обнаружения объектов.
Анализ производительности: скорость в сравнении с точностью
В следующей таблице сравнивается производительность моделей YOLOv5 и DAMO-YOLO на наборе данных COCO val2017. YOLOv5 демонстрирует исключительный баланс, при этом YOLOv5n предлагает беспрецедентную скорость как на CPU, так и на GPU, а более крупные модели остаются весьма конкурентоспособными.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Несмотря на то, что модели DAMO-YOLO достигают высоких показателей mAP, YOLOv5 обеспечивает более практичный компромисс между скоростью и точностью, особенно для приложений реального времени. Доступность тестов CPU для YOLOv5 дополнительно подчеркивает ее пригодность для развертывания на более широком спектре аппаратных платформ, где GPU может быть недоступен.
Заключение: какую модель вам следует выбрать?
И YOLOv5, и DAMO-YOLO — это впечатляющие модели обнаружения объектов, но они служат разным приоритетам.
-
DAMO-YOLO — отличный выбор для исследователей и разработчиков, стремящихся к достижению современной точности, особенно в сложных сценах. Его инновационная архитектура обеспечивает прочную основу для академических исследований и приложений, где точность является главным приоритетом.
-
Ultralytics YOLOv5, тем не менее, остается лучшим выбором для подавляющего большинства практических, реальных приложений. Ее невероятный баланс скорости и точности в сочетании с простотой использования, эффективностью обучения и универсальностью делает ее очень эффективной. Ключевым отличием является хорошо поддерживаемая экосистема Ultralytics, которая обеспечивает надежную поддержку, обширную документацию и удобство работы пользователя от обучения до развертывания. Это значительно сокращает время разработки и сложность.
Для разработчиков, ищущих надежную, высокопроизводительную и простую в интеграции модель, YOLOv5 является явным победителем. Для тех, кто хочет развить эту основу с еще более продвинутыми функциями, новые модели Ultralytics, такие как YOLOv8 и YOLO11, предлагают дальнейшие улучшения в точности и универсальности, сохраняя при этом те же удобные принципы.
Изучите другие сравнения, чтобы увидеть, как эти модели соотносятся с другими в этой области: