Перейти к содержанию

YOLOv7 против YOLO: подробное техническое сравнение

Выбор оптимальной архитектуры обнаружения объектов является ключевым решением при разработке компьютерного зрения, балансирующим между конкурирующими требованиями к задержке вывода, точности и распределению вычислительных ресурсов. В данном техническом анализе сравниваются YOLOv7 и YOLO, две влиятельные модели, выпущенные в конце 2022 года, которые раздвинули границы обнаружения в реальном времени. Мы рассмотрим их уникальные архитектурные инновации, эталонную производительность и пригодность для различных сценариев развертывания, чтобы помочь вам сориентироваться в процессе выбора.

YOLOv7: оптимизация обучения для точности в реальном времени

YOLOv7 - это значительная эволюция в семействе YOLO , в которой приоритет отдается архитектурной эффективности и передовым стратегиям обучения, позволяющим повысить производительность без увеличения стоимости вывода. Разработанная авторами Scaled-YOLOv4, она представила методы, позволяющие сети более эффективно обучаться на этапе обучения.

Авторы: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Архитектурные инновации

В основе YOLOv7 лежит расширенная эффективная сеть агрегирования слоев (E-ELAN). Эта архитектура позволяет модели изучать различные характеристики, контролируя кратчайшие и длинные пути градиента, улучшая сходимость без нарушения существующего потока градиента. Кроме того, в YOLOv7 используется "обучаемый мешок бесплатных решений" - набор методов оптимизации, применяемых при обработке обучающих данных, которые не влияют на структуру модели при развертывании. Они включают в себя повторную параметризацию модели и вспомогательные головки для глубокого надзора, обеспечивая надежный сбор характеристик.

Сумка с бесплатными подарками

Термин "bag-of-freebies" относится к методам, которые увеличивают сложность обучения для повышения точности, но не несут никаких затрат при выводе в реальном времени. Такая философия позволяет сохранить легкость конечной экспортируемой модели.

Сильные и слабые стороны

YOLOv7 славится своим превосходным балансом в бенчмарке MS COCO, предлагая высокую среднюю точность (mAP) для своего размера. Его основная сила заключается в задачах с высоким разрешением, где точность имеет первостепенное значение. Однако сложность архитектуры может затруднить ее модификацию для пользовательских исследований. Кроме того, несмотря на эффективность вычислений, процесс обучения является ресурсоемким и требует значительного объема памяти GPU по сравнению с более новыми архитектурами.

Узнайте больше о YOLOv7

YOLO: нейронная архитектура в поисках края

YOLO, созданная исследовательской группой Alibaba, использует другой подход, применяя нейронный поиск архитектуры (NAS) для автоматического обнаружения эффективных сетевых структур, адаптированных к средам с низкой задержкой.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO

Архитектурные инновации

YOLO представляет MAE-NAS, метод создания магистрали GiraffeNet, которая максимизирует пропускную способность при определенных ограничениях на задержку. Дополнением к ней является ZeroHead, легкая головка обнаружения, которая разделяет задачи классификации и регрессии, удаляя тяжелые параметры, что значительно уменьшает размер модели. В архитектуре также используется эффективная сеть, известная как RepGFPN (Generalized Feature Pyramid Network), для многомасштабного объединения признаков и выравнивания оценок классификации с точностью локализации с помощью AlignedOTA для присвоения меток.

Сильные и слабые стороны

YOLO превосходно работает в сценариях пограничного ИИ. Его более компактные варианты (Tiny/Small) обладают впечатляющей скоростью, что делает их подходящими для мобильных устройств и IoT-приложений. Использование NAS обеспечивает математическую оптимизацию архитектуры для повышения эффективности. И наоборот, самые большие модели YOLO иногда отстают по точности от самых высокоуровневых моделей YOLOv7 . Кроме того, как проект, ориентированный на исследования, он не имеет обширной экосистемы и инструментальной поддержки, которые есть в более широких фреймворках.

Узнайте больше о DAMO-YOLO

Сравнение показателей производительности

В следующей таблице показаны компромиссы в производительности. YOLOv7 , как правило, достигает более высокой точностиmAP) ценой более высокой вычислительной сложности (FLOPs), в то время как YOLO отдает приоритет скорости и эффективности параметров, особенно в своих небольших конфигурациях.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Приложения в реальном мире

Выбор между этими моделями часто зависит от используемого оборудования и конкретных задач компьютерного зрения.

  • Безопасность и аналитика высокого класса (YOLOv7): Для приложений, работающих на мощных серверах, где важен каждый процент точности, таких как системы охранной сигнализации или детальное управление дорожным движением, YOLOv7 является сильным кандидатом. Способность разрешать мелкие детали делает его подходящим для обнаружения небольших объектов в видеопотоках высокого разрешения.
  • Граничные устройства и робототехника (YOLO): В сценариях с жесткими ограничениями на задержку, таких как автономная робототехника или мобильные приложения, легкая архитектура YOLO является идеальным решением. Малое количество параметров снижает нагрузку на пропускную способность памяти, что очень важно для устройств с батарейным питанием, выполняющих обнаружение объектов.

Преимущество Ultralytics : Зачем модернизировать?

Хотя YOLOv7 и YOLO являются эффективными моделями, ландшафт искусственного интеллекта быстро развивается. Разработчикам и исследователям, ищущим перспективные, эффективные и удобные решения, следует обратить внимание на экосистемуUltralytics , а именно YOLO11. Переход на современные модели Ultralytics дает несколько неоспоримых преимуществ:

1. Простота использования

В моделях Ultralytics приоритет отдается удобству разработчиков. В отличие от исследовательских репозиториев, которые часто требуют сложной настройки среды и ручного выполнения скриптов, Ultralytics предоставляет унифицированный Python API и CLI. Вы можете обучать, проверять и развертывать модели всего за несколько строк кода.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

2. Всеобъемлющая универсальность

YOLOv7 и YOLO предназначены в основном для определения ограничивающих рамок. В отличие от них, YOLO11 поддерживает широкий спектр задач в рамках одного фреймворка, включая сегментацию объектов, оценку позы, обнаружение ориентированных объектов (OBB) и классификацию изображений. Это позволяет решать сложные задачи, такие как анализ позы человека в спорте, безсмены библиотек.

3. Превосходная производительность и эффективность

YOLO11 - это результат многолетних исследований и разработок, обеспечивающий современную точность при значительном снижении вычислительных затрат. В ней используется головка обнаружения без якорей и оптимизированные операции бэкэнда, что приводит к снижению использования памяти при обучении и выводе по сравнению со старыми версиями YOLO или моделями на основе трансформаторов, такими как RT-DETR. Такая эффективность позволяет снизить затраты на облачные вычисления и ускорить обработку данных на граничном оборудовании.

4. Надежная экосистема и поддержка

Приняв модель Ultralytics , вы подключаетесь к процветающей, хорошо поддерживаемой экосистеме. Благодаря частым обновлениям, обширной документации и активным каналам сообщества вы никогда не останетесь без отладки неподдерживаемого кода. Кроме того, бесшовная интеграция с такими инструментами, как Ultralytics HUB, упрощает развертывание модели и управление набором данных.

Узнайте больше о YOLO11

Заключение

И YOLOv7 , и YOLO внесли значительный вклад в область обнаружения объектов в 2022 году. YOLOv7 продемонстрировал, как обучаемые методы оптимизации могут повысить точность, а YOLO - возможности нейроархитектурного поиска для создания эффективных, готовых к работе моделей.

Однако для современных производственных сред, YOLO11 представляет собой вершину технологии искусственного интеллекта зрения. Сочетая скорость YOLO, точность YOLOv7 и непревзойденное удобство фреймворка Ultralytics , YOLO11 предлагает универсальное решение, которое ускоряет циклы разработки и повышает производительность приложений. Создаете ли вы инфраструктуру "умного города" или оптимизируете контроль качества производства, модели Ultralytics обеспечат надежность и эффективность, необходимые для успеха.

Изучите другие модели

Если вам интересно изучить другие варианты компьютерного зрения, рассмотрите эти модели:

  • Ultralytics YOLOv8: Предшественник YOLO11, известный своей надежностью и широким распространением в промышленности.
  • YOLOv10: Детектор реального времени, ориентированный на обучение NMS для снижения задержки.
  • YOLOv9: Представляет программируемую градиентную информацию (PGI) для уменьшения потери информации в глубоких сетях.
  • RT-DETR: Детектор на основе трансформатора, который обеспечивает высокую точность, но обычно требует больше памяти GPU .
  • YOLOv6: Еще одна модель, ориентированная на эффективность и оптимизированная для промышленного применения.

Комментарии