DAMO-YOLO против YOLOv7: подробное техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важный шаг в любом проекте компьютерного зрения, который напрямую влияет на производительность, скорость и возможность развертывания. На этой странице представлено подробное техническое сравнение DAMO-YOLO и YOLOv7, двух мощных моделей, которые внесли значительный вклад в эту область в 2022 году. Мы рассмотрим их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение для ваших конкретных потребностей.
DAMO-YOLO: Быстрое и точное обнаружение с использованием передовых технологий
DAMO-YOLO — это модель обнаружения объектов, разработанная Alibaba Group, ориентированная на достижение высокой производительности за счет сочетания передовых технологий. Она направлена на обеспечение превосходного баланса скорости и точности, особенно для реальных сценариев развертывания.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Архитектура и ключевые особенности
Архитектура DAMO-YOLO основана на нескольких ключевых инновациях, разработанных для оптимизации производительности и эффективности:
- Бэкбоны на основе NAS: Он использует Neural Architecture Search (NAS) для создания оптимальных backbone сетей. Этот автоматизированный подход помогает обнаруживать архитектуры, которые обеспечивают лучшее соотношение скорости и точности, чем разработанные вручную.
- Эффективный RepGFPN Neck: Модель представляет новую структуру neck под названием Generalized Feature Pyramid Network (GFPN), которая улучшена с помощью методов повторной параметризации. Эта конструкция обеспечивает эффективное многомасштабное слияние признаков, что имеет решающее значение для обнаружения объектов разных размеров.
- ZeroHead: DAMO-YOLO включает в себя упрощенную голову с нулевым количеством параметров, которая разделяет задачи классификации и регрессии. Это снижает вычислительную сложность и размер модели без ущерба для производительности.
- Назначение меток AlignedOTA: Используется усовершенствованная стратегия назначения меток под названием AlignedOTA, которая решает проблемы рассогласования между оценками классификации и точностью локализации, что приводит к более точным обнаружениям.
Сильные и слабые стороны
Преимущества:
- Высокая скорость инференса: Меньшие варианты (DAMO-YOLO-t/s) исключительно быстры, что делает их идеальными для приложений, требующих низкой задержки, таких как приложения на периферийных AI устройствах.
- Инновационная технология: Интегрирует современные методы, такие как NAS и эффективный дизайн neck, для расширения границ производительности.
Слабые стороны:
- Интеграция с экосистемой: Может отсутствовать комплексная экосистема, обширная документация и упрощенный пользовательский опыт, которые есть в таких фреймворках, как Ultralytics.
- Поддержка сообщества: Будучи исследовательской моделью от одной корпорации, она может иметь меньшее сообщество открытого исходного кода по сравнению с более широко используемыми моделями.
YOLOv7: Расширение границ точности в реальном времени
YOLOv7, представленный Чен-Яо Вангом и др., установил новый стандарт для детекторов объектов в реальном времени после его выпуска. Он был нацелен на оптимизацию процесса обучения для повышения точности без увеличения стоимости вывода.
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 06.07.2022
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Документация: https://docs.ultralytics.com/models/yolov7/
Архитектура и ключевые особенности
YOLOv7 представил несколько архитектурных улучшений и улучшений обучения, которые значительно повысили его производительность:
- E-ELAN (Extended Efficient Layer Aggregation Network): Эта усовершенствованная структура сети повышает способность модели к обучению, позволяя ей изучать более разнообразные признаки, не нарушая исходный путь градиента.
- Составное масштабирование модели: YOLOv7 использует стратегию масштабирования модели, которая правильно регулирует глубину и ширину модели для архитектур на основе конкатенации, обеспечивая оптимальную производительность для разных размеров модели.
- Обучаемый набор бесплатных улучшений: Ключевым вкладом YOLOv7 является использование оптимизаций во время обучения, таких как вспомогательные заголовки и поэтапная управляемая потеря, которые улучшают окончательную точность модели, не добавляя никаких вычислительных затрат во время вывода.
Сильные и слабые стороны
Преимущества:
- Превосходный баланс точности и скорости: YOLOv7 предлагает замечательное сочетание высокого mAP и быстрой скорости инференса, что делает его очень подходящим для инференса в реальном времени.
- Эффективное обучение: Подход "bag-of-freebies" позволяет достичь более высокой точности в процессе обучения без замедления работы финальной модели.
- Подтвержденная производительность: Она была тщательно протестирована на стандартных наборах данных, таких как MS COCO, с проверенными результатами.
Слабые стороны:
- Сложность: Архитектура и стратегии обучения могут быть сложными для понимания и реализации с нуля.
- Ограниченная универсальность: YOLOv7 - это в первую очередь модель обнаружения объектов. Хотя существуют версии от сообщества для других задач, ей не хватает встроенной многозадачной универсальности таких фреймворков, как Ultralytics YOLOv8.
- Требовательность к ресурсам: Обучение более крупных моделей YOLOv7 может потребовать значительных GPU-ресурсов.
Анализ производительности: скорость в сравнении с точностью
При сравнении DAMO-YOLO и YOLOv7 становится очевидным компромисс между скоростью и точностью. Меньшие модели DAMO-YOLO, такие как DAMO-YOLO-t, предлагают самое быстрое время инференса, что делает их лучшим выбором для критически важных к задержке приложений на оборудовании с ограниченными ресурсами. С другой стороны, YOLOv7, особенно вариант YOLOv7x, достигает более высокого mAP, что делает его подходящим для сценариев, где максимальная точность является приоритетом. Модели среднего размера из обоих семейств, DAMO-YOLO-l и YOLOv7-l, предлагают конкурентоспособную производительность, при этом YOLOv7-l достигает немного более высокого mAP ценой небольшого увеличения задержки.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Почему стоит выбрать модели Ultralytics YOLO?
Несмотря на то, что DAMO-YOLO и YOLOv7 являются мощными моделями, разработчики и исследователи часто находят большую ценность в экосистеме Ultralytics с такими моделями, как YOLOv8 и новейшая Ultralytics YOLO11. Модели Ultralytics предоставляют значительные преимущества, которые выходят за рамки простых метрик:
- Простота использования: Модели Ultralytics отличаются оптимизированным Python API и простыми командами CLI, подкрепленными обширной документацией, что упрощает обучение, проверку и развертывание моделей.
- Хорошо поддерживаемая экосистема: Пользователи получают выгоду от активной разработки, сильного open-source сообщества, частых обновлений и бесшовной интеграции с такими инструментами, как Ultralytics HUB, для комплексного MLOps.
- Баланс производительности: Модели Ultralytics разработаны для обеспечения превосходного компромисса между скоростью и точностью, что делает их подходящими для широкого спектра приложений, от периферийных устройств до облачных серверов.
- Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти как во время обучения, так и во время инференса, часто требуя меньше памяти CUDA, чем другие архитектуры.
- Универсальность: Такие модели, как YOLOv8 и YOLO11, не ограничиваются только обнаружением. Они «из коробки» поддерживают несколько задач, включая сегментацию экземпляров, классификацию изображений, оценку позы и ориентированное обнаружение объектов (OBB), предлагая унифицированное решение для различных задач компьютерного зрения.
- Эффективность обучения: Воспользуйтесь преимуществами эффективных процессов обучения, готовых предварительно обученных весов на наборах данных, таких как COCO, и более быстрого времени сходимости.
Заключение
И DAMO-YOLO, и YOLOv7 представляют собой значительные достижения в области обнаружения объектов. DAMO-YOLO превосходит по скорости инференса, особенно с его меньшими вариантами, что делает его сильным претендентом для периферийных устройств или приложений, в которых приоритет отдается низкой задержке. YOLOv7 расширяет границы точности, сохраняя при этом хорошую производительность в реальном времени, особенно подходит для сценариев, где критически важно достижение максимально возможного mAP.
Однако разработчики могут также рассмотреть модели в рамках экосистемы Ultralytics, такие как YOLOv8 или последняя версия YOLO11. Эти модели часто обеспечивают превосходный баланс производительности, простоты использования, обширной документации, эффективного обучения, более низких требований к памяти и универсальности в различных задачах компьютерного зрения, поддерживаемых хорошо поддерживаемой экосистемой и активной поддержкой сообщества через Ultralytics HUB.
Другие модели
Пользователям, интересующимся DAMO-YOLO и YOLOv7, эти модели также могут показаться полезными:
- Ultralytics YOLOv5: Очень популярная и эффективная модель, известная своей скоростью и простотой развертывания. Изучите документацию YOLOv5.
- Ultralytics YOLOv8: Универсальная современная модель, обеспечивающая отличную производительность в задачах обнаружения, сегментации, определения позы и классификации. Изучите документацию YOLOv8.
- YOLOv9: Представляет такие инновации, как PGI и GELAN, для повышения точности и эффективности. См. документацию YOLOv9.
- YOLOv10: Ориентирована на сквозное обнаружение без NMS для снижения задержки. Сравните YOLOv10 и DAMO-YOLO.
- Ultralytics YOLO11: новейшая передовая модель от Ultralytics, подчеркивающая скорость, эффективность и простоту использования с конструкцией без привязки к якорю. Узнайте больше о YOLO11.
- RT-DETR: Модель обнаружения в реальном времени на основе трансформера. Сравните RT-DETR и DAMO-YOLO.