DAMO-YOLO vs YOLOv5: подробное техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и простоту реализации. На этой странице представлено подробное техническое сравнение DAMO-YOLO, модели, ориентированной на точность, от Alibaba Group, и Ultralytics YOLOv5, отраслевого стандарта, известного своим исключительным сочетанием производительности и удобства использования. Мы углубимся в их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для вашего проекта в области компьютерного зрения.
DAMO-YOLO: Детекция с акцентом на точность
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba Group. Представленная в конце 2022 года, она фокусируется на достижении превосходного баланса между высокой точностью и эффективным выводом, путем включения нескольких новых методов в свою архитектуру.
Архитектура и ключевые особенности
DAMO-YOLO представляет несколько инновационных компонентов, разработанных для расширения границ точности обнаружения:
- NAS Backbones: Использует Neural Architecture Search (NAS) для обнаружения и внедрения высокоэффективных backbone сетей, разработанных специально для обнаружения объектов.
- Эффективный RepGFPN: Модель использует репараметризованную градиентную пирамидальную сеть признаков, продвинутый neck-модуль для улучшенного слияния признаков в разных масштабах.
- ZeroHead: Он имеет отвязанную структуру детектора, разработанную для минимизации вычислительных затрат при сохранении высокой производительности.
- AlignedOTA: Эта новая стратегия назначения меток, Aligned Optimal Transport Assignment, обеспечивает лучшее согласование между прогнозами и фактическими метками во время обучения, что приводит к повышению точности.
- Улучшение дистилляции: Модель использует дистилляцию знаний для передачи знаний от большей, более мощной обучающей модели к меньшей обучаемой модели, повышая ее производительность.
Сильные стороны
- Высокая точность: DAMO-YOLO достигает высоких показателей mAP, что указывает на превосходную точность обнаружения, особенно с более крупными вариантами моделей.
- Инновационные техники: Интеграция новых методов, таких как AlignedOTA и RepGFPN, позволяет повысить производительность по сравнению со стандартными архитектурами.
Слабые стороны
- Сложность интеграции: Интеграция DAMO-YOLO в существующие рабочие процессы может быть более сложной, особенно по сравнению с упрощенным опытом, предлагаемым в экосистеме Ultralytics.
- Поддержка экосистемы: Ее документация и поддержка сообщества, хотя и доступны, могут быть менее обширными, чем у хорошо зарекомендовавшей себя и активно поддерживаемой YOLOv5.
- Универсальность задач: DAMO-YOLO в основном ориентирован на обнаружение объектов, и ему может не хватать встроенной поддержки других задач, таких как сегментация или классификация, которые есть в моделях Ultralytics.
Случаи использования
DAMO-YOLO хорошо подходит для приложений, где высокая точность обнаружения является основным требованием:
- Высокоточные приложения: Детальный анализ изображений, например, в медицинской визуализации и научных исследованиях.
- Сложные сценарии: Среды с сильно перекрывающимися объектами или требующие глубокого понимания сцены.
- Исследования и разработки: Ценный инструмент для исследователей, изучающих передовые архитектуры и методы обнаружения объектов.
Ultralytics YOLOv5: Устоявшийся отраслевой стандарт
Автор: Гленн Джокер
Организация: Ultralytics
Дата: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Документация: https://docs.ultralytics.com/models/yolov5/
Ultralytics YOLOv5 быстро стал отраслевым эталоном после своего выпуска, получив признание за исключительный баланс скорости, точности и простоту использования. Разработанный полностью на PyTorch, YOLOv5 имеет надежную архитектуру, которая сочетает в себе бэкбон CSPDarknet53 с neck PANet для эффективной агрегации признаков. Его масштабируемость, предлагаемая через различные размеры моделей (n, s, m, l, x), позволяет разработчикам выбрать идеальный компромисс для своих конкретных вычислительных потребностей и требований к производительности.
Сильные стороны
- Исключительная скорость и эффективность: YOLOv5 высоко оптимизирована для быстрого вывода, что делает ее лучшим выбором для приложений реального времени на широком спектре оборудования, от мощных облачных GPU до периферийных устройств с ограниченными ресурсами.
- Простота использования: Ключевым преимуществом YOLOv5 является удобство работы. Он предлагает простые интерфейсы Python и CLI, исчерпывающую документацию и простой процесс настройки.
- Хорошо поддерживаемая экосистема: YOLOv5 поддерживается надежной экосистемой Ultralytics, которая включает активную разработку, большое и полезное сообщество, частые обновления и бесшовную интеграцию с такими инструментами, как Ultralytics HUB, для обучения и MLOps без кода.
- Баланс производительности: Обеспечивает превосходный компромисс между скоростью инференса и точностью обнаружения, что делает ее очень практичной для различных реальных сценариев развертывания.
- Универсальность: Помимо обнаружения объектов, YOLOv5 поддерживает сегментацию экземпляров и классификацию изображений, предлагая многоцелевое решение.
- Эффективность обучения: YOLOv5 обеспечивает эффективные процессы обучения, легкодоступные предварительно обученные веса и, как правило, требует меньше памяти, чем многие конкурирующие архитектуры.
Слабые стороны
- Точность: Несмотря на высокую точность, новые модели с тех пор превзошли показатели mAP YOLOv5 в стандартных бенчмарках, таких как COCO.
- На основе Anchor: Использование предопределенных anchor boxes может потребовать дополнительной настройки для наборов данных с нестандартными пропорциями объектов по сравнению с подходами без anchor.
Случаи использования
YOLOv5 превосходен в сценариях, где скорость, эффективность и простота развертывания имеют решающее значение:
- Системы безопасности: Мониторинг в реальном времени для таких приложений, как предотвращение краж и обнаружение аномалий.
- Робототехника: Обеспечение восприятия и взаимодействия роботов с окружающей средой в реальном времени, что крайне важно для автономной навигации и манипулирования.
- Промышленная автоматизация: Контроль качества и обнаружение дефектов в производственных процессах, повышение эффективности переработки и мониторинг производственной линии.
- Развертывание Edge AI: Эффективный запуск обнаружения объектов на устройствах с ограниченными ресурсами, таких как Raspberry Pi и NVIDIA Jetson, для обработки на устройстве.
Сравнение производительности
При сравнении DAMO-YOLO и YOLOv5 становится очевидным компромисс между точностью и скоростью. Модели DAMO-YOLO обычно достигают более высоких показателей mAP, демонстрируя свою силу в чистой точности обнаружения. Однако модели YOLOv5, особенно меньшие варианты, предлагают значительно более высокую скорость инференса, особенно на CPU. Это делает YOLOv5 более практичным выбором для приложений реального времени, где важна низкая задержка.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Заключение
И DAMO-YOLO, и Ultralytics YOLOv5 - мощные модели обнаружения объектов, но они отвечают разным приоритетам. DAMO-YOLO - отличный выбор для приложений, где достижение максимально возможной точности является главной целью, и где разработчики готовы справиться с более сложной интеграцией.
Однако, для подавляющего большинства разработчиков и реальных приложений Ultralytics YOLOv5 представляет собой более убедительное и практичное решение. Его исключительный баланс скорости и точности в сочетании с беспрецедентной простотой использования делает его невероятно доступным. Хорошо поддерживаемая экосистема предоставляет значительное преимущество, предлагая надежную документацию, активную поддержку сообщества и мощные инструменты, такие как Ultralytics HUB. Эффективность обучения и универсальность YOLOv5 в различных задачах компьютерного зрения делают его очень эффективным и удобным для разработчиков выбором для проектов, начиная от быстрого прототипирования и заканчивая развертыванием в производство.
Для тех, кто интересуется последними достижениями, новые модели Ultralytics, такие как YOLOv8 и YOLO11, развивают сильные стороны YOLOv5, предлагая еще лучшую производительность и больше возможностей.
Сравнения с другими моделями
Для дальнейшего изучения рассмотрите эти сравнения с участием DAMO-YOLO, YOLOv5 и других соответствующих моделей:
- DAMO-YOLO против YOLOv8
- YOLOv5 против YOLOv7
- YOLOv5 против YOLOv8
- YOLOv5 против YOLOv9
- RT-DETR против YOLOv5
- EfficientDet в сравнении с YOLOv5
- Ознакомьтесь с последними моделями, такими как YOLOv10 и YOLO11.