YOLOv7 против DAMO-YOLO: подробное техническое сравнение
Выбор оптимальной архитектуры для detectирования объектов является ключевым решением в разработке компьютерного зрения, балансирующим конкурирующие требования задержки inference, точности и распределения вычислительных ресурсов. Этот технический анализ противопоставляет YOLOv7 и DAMO-YOLO, две влиятельные модели, выпущенные в конце 2022 года, которые расширили границы detectирования в реальном времени. Мы рассматриваем их уникальные архитектурные инновации, эталонную производительность и пригодность для различных сценариев развертывания, чтобы помочь вам сориентироваться в процессе выбора.
YOLOv7: Оптимизация обучения для точности в реальном времени
YOLOv7 ознаменовала собой значительную эволюцию в семействе YOLO, уделяя приоритетное внимание архитектурной эффективности и передовым стратегиям обучения для повышения производительности без увеличения затрат на inference. Разработанная авторами Scaled-YOLOv4, она представила методы, позволяющие сети более эффективно обучаться во время фазы обучения.
Авторы: Чен-Яо Ван, Алексей Бочковский и Хун-Юань Марк Ляо
Организация:Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Документация:https://docs.ultralytics.com/models/yolov7/
Архитектурные инновации
Основой YOLOv7 является Extended Efficient Layer Aggregation Network (E-ELAN). Эта архитектура позволяет модели изучать разнообразные признаки, контролируя кратчайшие и длиннейшие градиентные пути, улучшая сходимость, не нарушая существующий градиентный поток. Кроме того, YOLOv7 использует «trainable bag-of-freebies» — набор методов оптимизации, применяемых во время обработки данных обучения, которые не влияют на структуру модели во время развертывания. К ним относятся репараметризация модели и вспомогательные головы для глубокого контроля, обеспечивающие захват надежных признаков backbone.
Bag-of-Freebies
Термин «bag-of-freebies» относится к методам, которые увеличивают сложность обучения для повышения точности, но не несут никаких затрат во время инференса в реальном времени. Эта философия гарантирует, что окончательная экспортированная модель останется легкой.
Сильные и слабые стороны
YOLOv7 ценится за отличный баланс на бенчмарке MS COCO, предлагая высокую среднюю точность (mAP) для своего размера. Его основная сила заключается в задачах с высоким разрешением, где точность имеет первостепенное значение. Однако сложность архитектуры может затруднить ее модификацию для пользовательских исследований. Кроме того, хотя inference эффективен, процесс обучения требует больших ресурсов, требуя значительного объема памяти GPU по сравнению с новыми архитектурами.
DAMO-YOLO: поиск нейронной архитектуры для периферии
DAMO-YOLO, разработанный исследовательской группой Alibaba, использует другой подход, используя поиск нейронной архитектуры (NAS) для автоматического обнаружения эффективных сетевых структур, адаптированных для сред с низкой задержкой.
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:https://github.com/tinyvision/DAMO-YOLO
Архитектурные инновации
DAMO-YOLO представляет MAE-NAS, метод для создания магистральной сети под названием GiraffeNet, которая максимизирует пропускную способность при определенных ограничениях задержки. Дополняет это ZeroHead, легкая головка обнаружения, которая разделяет задачи классификации и регрессии, удаляя при этом тяжелые параметры, что значительно уменьшает размер модели. Архитектура также использует эффективную шею, известную как RepGFPN (Generalized Feature Pyramid Network), для многомасштабного слияния признаков и выравнивает оценки классификации с точностью локализации, используя AlignedOTA для назначения меток.
Сильные и слабые стороны
DAMO-YOLO превосходен в сценариях edge AI. Его уменьшенные варианты (Tiny/Small) предлагают впечатляющие скорости, что делает их подходящими для мобильных устройств и IoT-приложений. Использование NAS гарантирует, что архитектура математически оптимизирована для эффективности. И наоборот, самые большие модели DAMO-YOLO иногда отстают от моделей YOLOv7 высшего уровня по чистой точности. Кроме того, как проект, ориентированный на исследования, ему не хватает обширной экосистемы и поддержки инструментов, которые есть в более широких фреймворках.
Сравнение метрик производительности
В следующей таблице показаны компромиссы в производительности. YOLOv7 обычно достигает более высокой точности (mAP) за счет более высокой вычислительной сложности (FLOPs), в то время как DAMO-YOLO отдает приоритет скорости и эффективности параметров, особенно в своих меньших конфигурациях.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Приложения в реальном мире
Выбор между этими моделями часто зависит от оборудования для развертывания и конкретных задач компьютерного зрения.
- Безопасность и аналитика высокого уровня (YOLOv7): Для приложений, работающих на мощных серверах, где важен каждый процент точности, таких как системы охранной сигнализации или подробное управление трафиком, YOLOv7 является сильным кандидатом. Его способность различать мелкие детали делает его подходящим для object detection небольших объектов в видеопотоках высокого разрешения.
- Периферийные устройства и робототехника (DAMO-YOLO): В сценариях со строгими ограничениями по задержке, таких как автономная робототехника или мобильные приложения, легкая архитектура DAMO-YOLO проявляет себя во всей красе. Низкое количество параметров снижает нагрузку на пропускную способность памяти, что критически важно для устройств с батарейным питанием, выполняющих обнаружение объектов.
Преимущество Ultralytics: Зачем модернизировать?
В то время как YOLOv7 и DAMO-YOLO являются способными моделями, ландшафт ИИ быстро развивается. Разработчикам и исследователям, ищущим перспективное, эффективное и удобное решение, следует обратить внимание на экосистему Ultralytics, в частности на YOLO11. Переход на современные модели Ultralytics предлагает несколько явных преимуществ:
1. Оптимизированная простота использования
Модели Ultralytics уделяют приоритетное внимание опыту разработчиков. В отличие от исследовательских репозиториев, которые часто требуют сложной настройки среды и ручного выполнения сценариев, Ultralytics предоставляет унифицированный Python API и CLI. Вы можете обучать, проверять и развертывать модели всего в несколько строк кода.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. Комплексная универсальность
YOLOv7 и DAMO-YOLO в первую очередь предназначены для обнаружения ограничивающих рамок. В отличие от них, YOLO11 изначально поддерживает широкий спектр задач в рамках одной и той же структуры, включая сегментацию экземпляров, оценку позы, обнаружение ориентированных объектов (OBB) и классификацию изображений. Это позволяет решать сложные задачи, такие как анализ осанки человека в спорте, без переключения библиотек.
3. Превосходная производительность и эффективность
YOLO11 опирается на многолетние исследования и разработки, чтобы обеспечить современную точность со значительно сниженными вычислительными затратами. В ней используется detect head без привязки к якорям и оптимизированные внутренние операции, что приводит к меньшему использованию памяти во время обучения и выводов по сравнению со старыми версиями YOLO или моделями на основе трансформеров, такими как RT-DETR. Эта эффективность приводит к снижению затрат на облачные вычисления и более быстрой обработке на периферийном оборудовании.
4. Надежная экосистема и поддержка
Принятие модели Ultralytics подключает вас к процветающей, хорошо поддерживаемой экосистеме. Благодаря частым обновлениям, обширной документации и активным каналам сообщества, вы никогда не останетесь отлаживать неподдерживаемый код. Кроме того, бесшовная интеграция с такими инструментами, как Ultralytics HUB, облегчает развертывание моделей и управление наборами данных.
Заключение
И YOLOv7, и DAMO-YOLO внесли значительный вклад в область detect объектов в 2022 году. YOLOv7 продемонстрировал, как методы оптимизации с возможностью обучения могут повысить точность, в то время как DAMO-YOLO продемонстрировал возможности поиска нейронной архитектуры для создания эффективных моделей, готовых к использованию на периферийных устройствах.
Однако, для современных производственных сред, YOLO11 представляет собой вершину технологии AI в области зрения. Сочетая скорость DAMO-YOLO, точность YOLOv7 и непревзойденную удобство использования фреймворка Ultralytics, YOLO11 предлагает универсальное решение, которое ускоряет циклы разработки и повышает производительность приложений. Независимо от того, создаете ли вы инфраструктуру умного города или оптимизируете контроль качества производства, модели Ultralytics обеспечивают надежность и эффективность, необходимые для успеха.
Изучите другие модели
Если вам интересно изучить другие варианты в области компьютерного зрения, рассмотрите следующие модели:
- Ultralytics YOLOv8: Предшественник YOLO11, известный своей надежностью и широким распространением в отрасли.
- YOLOv10: Детектор реального времени, ориентированный на обучение без NMS для снижения задержки.
- YOLOv9: Внедряет программируемую градиентную информацию (PGI) для уменьшения потерь информации в глубоких сетях.
- RT-DETR: Детектор на основе трансформера, который обеспечивает высокую точность, но обычно требует больше памяти GPU.
- YOLOv6: Еще одна модель, ориентированная на эффективность и оптимизированная для промышленных приложений.