YOLOv7 против DAMO-YOLO: Детальное техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важный шаг в любом проекте компьютерного зрения. Решение часто включает в себя компромисс между точностью, скоростью и вычислительными затратами. На этой странице представлено подробное техническое сравнение YOLOv7 и DAMO-YOLO, двух мощных моделей, которые внесли значительный вклад в обнаружение объектов в реальном времени. Мы рассмотрим их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам сделать осознанный выбор для ваших конкретных потребностей.
YOLOv7: Высокая точность и скорость
YOLOv7 был представлен как важный шаг вперед в семействе YOLO, установив новые стандарты для детекторов объектов в реальном времени за счет оптимизации эффективности обучения и скорости вывода без увеличения вычислительных затрат.
Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Документация: https://docs.ultralytics.com/models/yolov7/
Архитектура и ключевые особенности
YOLOv7 представил несколько архитектурных инноваций для достижения своей современной производительности. Ключевым компонентом является Extended Efficient Layer Aggregation Network (E-ELAN) в основе модели, которая расширяет возможности сети по изучению разнообразных признаков, не нарушая градиентный путь. Модель также использует передовые методы масштабирования моделей, разработанные для архитектур на основе конкатенации.
Одним из наиболее значительных его вкладов является концепция «обучаемых бесплатных улучшений», которая относится к стратегиям обучения, повышающим точность без увеличения стоимости инференса. К ним относится использование вспомогательных голов для более глубокого контроля и поэтапное обучение под руководством. Эти методы, подробно описанные в статье YOLOv7, позволяют модели достигать впечатляющих результатов на стандартных бенчмарках.
Производительность и варианты использования
После выпуска YOLOv7 продемонстрировала исключительный баланс между скоростью и точностью. Она превосходна в сценариях, требующих как быстрого обнаружения, так и высокой точности, таких как видеоаналитика в реальном времени, системы автономного вождения и промышленный контроль высокого разрешения. Например, в приложениях "умного" города YOLOv7 можно использовать для расширенного управления дорожным движением или для обеспечения немедленного обнаружения угроз в системах безопасности.
Сильные стороны
- Превосходный компромисс между точностью и скоростью: Обеспечивает отличное сочетание mAP и скорости инференса, что делает его весьма эффективным для задач, выполняемых в реальном времени.
- Эффективное обучение: Использует передовые стратегии обучения для повышения производительности без увеличения вычислительных требований во время инференса.
- Проверенная производительность: Установлены и хорошо задокументированы результаты на стандартных наборах данных, таких как MS COCO.
Слабые стороны
- Архитектурная сложность (Architectural Complexity): Сочетание E-ELAN и различных методов обучения может быть сложным для понимания и изменения.
- Интенсивное обучение с использованием ресурсов: Хотя вывод выполняется быстро, обучение больших моделей YOLOv7 требует значительных ресурсов GPU.
- Ограниченная универсальность: В первую очередь предназначен для обнаружения объектов, с расширениями, управляемыми сообществом, для других задач, в отличие от новых моделей со встроенными многозадачными возможностями.
DAMO-YOLO: Скорость и эффективность для периферийных вычислений
DAMO-YOLO, разработанная Alibaba Group, — это модель обнаружения объектов, разработанная для оптимальной производительности на широком спектре оборудования, с особым упором на скорость и эффективность для периферийных устройств.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
Архитектура и ключевые особенности
DAMO-YOLO представляет несколько новых методов для достижения впечатляющей скорости. Он использует backbone, сгенерированный с помощью поиска нейронной архитектуры (NAS), что приводит к созданию высокоэффективного экстрактора признаков под названием GiraffeNet. Neck сети — это эффективный RepGFPN, который обеспечивает баланс между возможностями слияния признаков и низкими вычислительными затратами.
Отличительной особенностью является ZeroHead, упрощенная детектирующая голова, которая имеет нулевые параметры для классификации и регрессии, что значительно снижает вычислительные затраты. Кроме того, DAMO-YOLO использует AlignedOTA для динамического назначения меток и использует дистилляцию знаний для повышения производительности своих небольших моделей, делая их быстрыми и точными.
Производительность и варианты использования
Основным преимуществом DAMO-YOLO является исключительная скорость инференса, особенно у ее небольших вариантов (DAMO-YOLO-T/S). Это делает ее главным кандидатом для приложений, где низкая задержка является критическим требованием, таких как обработка на устройстве для мобильных приложений, мониторинг в реальном времени в промышленной автоматизации и робототехника. Ее масштабируемость позволяет разработчикам выбирать модель, которая соответствует их конкретным аппаратным ограничениям, от мощных облачных серверов до платформ edge с ограниченными ресурсами.
Сильные стороны
- Исключительная скорость инференса: Небольшие модели являются одними из самых быстрых детекторов объектов, идеально подходящими для требований с низкой задержкой.
- Масштабируемая архитектура: Предлагает ряд моделей (Tiny, Small, Medium, Large) для соответствия различным вычислительным возможностям.
- Инновационный дизайн: Включает передовые идеи, такие как backbones на базе NAS, эффективные necks и head без параметров.
Слабые стороны
- Точность более крупных моделей: Несмотря на конкурентоспособность, самые большие модели DAMO-YOLO могут не достигать пиковой точности высокопроизводительных вариантов YOLOv7.
- Экосистема и поддержка: Будучи проектом, ориентированным на исследования, он может не иметь такого же уровня всесторонней документации, поддержки сообщества или интегрированных инструментов, как коммерческие платформы.
Прямое сравнение: YOLOv7 против DAMO-YOLO
При непосредственном сравнении этих двух моделей основное различие заключается в их философии проектирования. YOLOv7 расширяет границы возможного для детектора реального времени с точки зрения точности, используя сложные стратегии обучения для максимизации mAP. В отличие от этого, DAMO-YOLO отдает приоритет архитектурной эффективности и скорости инференса, что делает его небольшие модели невероятно быстрыми, часто за счет нескольких пунктов в точности по сравнению с более крупными и сложными моделями.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Почему модели Ultralytics YOLO — лучший выбор
Несмотря на то, что YOLOv7 и DAMO-YOLO являются мощными моделями, разработчикам и исследователям, ищущим более современный, интегрированный и удобный интерфейс, следует рассмотреть экосистему Ultralytics YOLO, включая популярные модели, такие как Ultralytics YOLOv8 и новейшая Ultralytics YOLO11. Эти модели предлагают несколько ключевых преимуществ:
- Простота использования: Модели Ultralytics разработаны с учетом оптимизации работы пользователей и отличаются простым Python API и CLI. Это подкрепляется обширной документацией и многочисленными руководствами, что облегчает начало работы.
- Развитая экосистема: Воспользуйтесь преимуществами активной разработки, сильного сообщества открытого исходного кода и бесшовной интеграции с такими инструментами, как Ultralytics HUB для сквозного MLOps, от обучения до развертывания.
- Баланс производительности: Модели Ultralytics обеспечивают превосходный компромисс между скоростью и точностью, что делает их подходящими для широкого спектра реальных сценариев.
- Эффективность использования памяти: Модели Ultralytics YOLO оптимизированы для эффективного использования памяти, часто требуя меньше памяти CUDA для обучения и инференса по сравнению с другими архитектурами.
- Универсальность: Такие модели, как YOLOv8 и YOLO11, являются настоящими многозадачными решениями, поддерживающими обнаружение, сегментацию, классификацию, оценку позы и ориентированное обнаружение объектов (OBB) в рамках единой унифицированной структуры.
- Эффективность обучения: Воспользуйтесь преимуществами эффективных процессов обучения, готовых предварительно обученных весов и более быстрого времени сходимости.
Заключение
И DAMO-YOLO, и YOLOv7 представляют собой значительные достижения в области обнаружения объектов. DAMO-YOLO превосходит по скорости инференса, особенно с его меньшими вариантами, что делает его сильным претендентом для периферийных устройств или приложений, в которых приоритет отдается низкой задержке. YOLOv7 расширяет границы точности, сохраняя при этом хорошую производительность в реальном времени, особенно подходит для сценариев, где критически важно достижение максимально возможного mAP.
Однако разработчики могут также рассмотреть модели в рамках экосистемы Ultralytics, такие как YOLOv8 или последняя версия YOLO11. Эти модели часто обеспечивают превосходный баланс производительности, простоты использования, обширной документации, эффективного обучения, более низких требований к памяти и универсальности в различных задачах компьютерного зрения, поддерживаемых хорошо поддерживаемой экосистемой и активной поддержкой сообщества.
Изучите другие модели
Пользователям, интересующимся DAMO-YOLO и YOLOv7, эти модели также могут показаться полезными:
- Ultralytics YOLOv5: Очень популярная и эффективная модель, известная своей скоростью и простотой развертывания. Изучите документацию YOLOv5.
- Ultralytics YOLOv8: Универсальная современная модель, обеспечивающая отличную производительность в задачах обнаружения, сегментации, определения позы и классификации. Изучите документацию YOLOv8.
- YOLOv9: Представляет такие инновации, как PGI и GELAN, для повышения точности и эффективности. См. документацию YOLOv9.
- YOLOv10: Ориентирована на сквозное обнаружение без NMS для снижения задержки. Сравните YOLOv10 и DAMO-YOLO.
- RT-DETR: Модель обнаружения в реальном времени на основе трансформера. Сравните RT-DETR и DAMO-YOLO.