Перейти к содержанию

YOLOv7 vs YOLOv6-3.0: Подробное сравнение моделей для обнаружения объектов

Выбор оптимальной модели обнаружения объектов — критически важное решение в проектах компьютерного зрения, требующее баланса между точностью, скоростью и использованием ресурсов. На этой странице представлено подробное техническое сравнение между YOLOv7 и YOLOv6-3.0, двумя известными моделями, известными своими возможностями обнаружения объектов. Мы углубимся в их архитектуры, эталонные показатели производительности и подходящие приложения, чтобы помочь вам в процессе выбора модели.

YOLOv7: Точность и передовые методы

YOLOv7, разработанная исследователями из Института информатики Academia Sinica, Тайвань, представляет собой значительный шаг в обнаружении объектов в реальном времени, уделяя особое внимание достижению высокой точности при сохранении эффективности.

Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Документация: https://docs.ultralytics.com/models/yolov7/

Архитектура и ключевые особенности

YOLOv7 представляет несколько архитектурных инноваций и стратегий обучения, направленных на повышение производительности без значительного увеличения затрат на inference. Ключевые особенности включают в себя:

  • E-ELAN (Extended-Efficient Layer Aggregation Networks): Этот основной компонент в backbone модели повышает способность сети эффективно изучать признаки, улучшая параметры и вычислительную эффективность. Более подробную информацию можно найти в оригинальной статье.
  • Масштабирование модели: Реализует методы составного масштабирования глубины и ширины модели, оптимизируя производительность для различных размеров модели на основе принципов модели на основе конкатенации.
  • Обучение с использованием вспомогательной головы: Использует вспомогательные головы на этапе обучения для усиления изучения признаков, которые затем удаляются во время инференса для поддержания скорости. Эта концепция связана с методами глубокого контроля, используемыми в других нейронных сетях.
  • Улучшения "Bag-of-Freebies": Включает передовые методы обучения, такие как расширение данных и уточнение назначения меток, которые повышают точность без дополнительных затрат на вывод.

Сильные стороны

  • Высокая точность: Достигает самой современной точности на эталонных наборах данных, таких как набор данных COCO.
  • Эффективность: Обеспечивает баланс между высокой точностью и конкурентоспособной скоростью инференса, что подходит для инференса в реальном времени.
  • Универсальность: Официальный репозиторий демонстрирует поддержку задач, помимо обнаружения, включая оценку позы и сегментацию экземпляров.

Слабые стороны

  • Сложность: Продвинутые архитектурные особенности и методы обучения могут сделать модель более сложной для понимания и тонкой настройки по сравнению с более простыми архитектурами, такими как YOLOv5.
  • Ресурсоемкое обучение: Более крупные варианты YOLOv7 (например, YOLOv7-E6E) требуют значительных вычислительных ресурсов для обучения.

Узнайте больше о YOLOv7

YOLOv6-3.0: Промышленная эффективность и скорость

YOLOv6-3.0, разработанная компанией Meituan, спроектирована для промышленных применений, требующих высокопроизводительного обнаружения объектов с акцентом на скорость и эффективность. Версия 3.0 значительно улучшает своих предшественников, предлагая повышенную точность и более быстрое время инференса.

Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Документация: https://docs.ultralytics.com/models/yolov6/

Архитектура и ключевые особенности

YOLOv6-3.0 разработана с учетом развертывания и имеет несколько ключевых архитектурных решений, которые отдают приоритет скорости инференса.

  • Адаптация к оборудованию: Архитектура разработана для эффективной работы на различных аппаратных платформах, особенно на GPU, за счет использования блоков RepVGG-стиля с возможностью повторной параметризации.
  • EfficientRep Backbone и Rep-PAN Neck: Эти структуры разработаны для уменьшения вычислительных узких мест и затрат на доступ к памяти, что напрямую приводит к более быстрому выводу.
  • Decoupled Head (Разделенная голова): Разделяет головы классификации и локализации, что, как было показано, улучшает сходимость и итоговую точность модели. Этот метод также используется в таких моделях, как YOLOX.

Сильные стороны

  • Высокая скорость инференса: Оптимизирована для быстрого инференса, что делает ее очень подходящей для приложений реального времени, где задержка является критическим фактором.
  • Промышленная направленность: Разработана с учетом сценариев промышленного развертывания, обеспечивая надежность и эффективность в практических условиях, таких как производство.
  • Эффективный дизайн: Меньшие варианты YOLOv6-3.0 имеют очень низкое количество параметров и FLOP, что делает их идеальными для сред с ограниченными ресурсами.

Слабые стороны

  • Компромисс в точности: Несмотря на высокую эффективность, она может демонстрировать немного более низкую точность на сложных наборах данных по сравнению с моделями, такими как YOLOv7, которые приоритезируют максимальную точность над скоростью.
  • Экосистема и универсальность: Экосистема вокруг YOLOv6 менее всеобъемлюща, чем у моделей Ultralytics, и в основном ориентирована на обнаружение объектов.

Случаи использования

YOLOv6-3.0 превосходен в приложениях, где скорость и эффективность имеют первостепенное значение:

  • Промышленная автоматизация: Контроль качества и мониторинг процессов в производстве.
  • Системы реального времени: Приложения со строгими требованиями к задержке, такие как робототехника и видеонаблюдение.
  • Edge Computing: Развертывание на устройствах с ограниченными ресурсами благодаря своей эффективной конструкции. Ознакомьтесь с руководствами по развертыванию на таких устройствах, как NVIDIA Jetson.

Узнайте больше о YOLOv6-3.0

Сравнение производительности: YOLOv7 против YOLOv6-3.0

В таблице ниже приведены сводные метрики производительности для сопоставимых вариантов YOLOv7 и YOLOv6-3.0 на наборе данных COCO.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Примечание: Показатели скорости могут варьироваться в зависимости от оборудования, программного обеспечения (TensorRT, ONNX, OpenVINO), размера пакета и конкретных конфигураций. Значения mAP обычно сообщаются для набора данных COCO val.

Судя по таблице, YOLOv7x достигает наивысшего значения mAP, что свидетельствует о превосходной точности. Однако модели YOLOv6-3.0, особенно небольшие варианты, такие как YOLOv6-3.0n, предлагают значительно более высокую скорость инференса, особенно на GPU с оптимизацией TensorRT, и имеют меньше параметров и FLOPs, что делает их очень эффективными. Выбор зависит от того, что является приоритетом: максимальная точность (YOLOv7) или оптимальная скорость/эффективность (YOLOv6-3.0).

Почему стоит выбрать модели Ultralytics YOLO?

Для пользователей, которым нужны современные модели в рамках всеобъемлющей и простой в использовании экосистемы, Ultralytics предлагает YOLOv8 и новейшую Ultralytics YOLO11. Эти модели обеспечивают значительные преимущества как перед YOLOv7, так и перед YOLOv6.

  • Простота использования: Модели Ultralytics поставляются с оптимизированным Python API, обширной документацией и понятными командами CLI, что упрощает обучение, проверку и развертывание.
  • Развитая экосистема: Воспользуйтесь преимуществами активной разработки, сильного сообщества открытого исходного кода, частых обновлений и интеграции с такими инструментами, как Ultralytics HUB для бесшовного MLOps.
  • Баланс производительности: Модели Ultralytics обеспечивают превосходный компромисс между скоростью и точностью, что делает их подходящими для различных реальных сценариев, от периферийных устройств до облачных серверов.
  • Универсальность: Такие модели, как YOLOv8 и YOLO11, поддерживают несколько задач, помимо обнаружения объектов, включая сегментацию, классификацию, оценку позы и ориентированное обнаружение объектов (OBB), предлагая унифицированное решение.
  • Эффективность обучения: Воспользуйтесь преимуществами эффективных процессов обучения, готовых предварительно обученных весов на наборах данных, таких как COCO, и более быстрого времени сходимости.

Для дальнейшего изучения вам также могут быть интересны сравнения с другими моделями, такими как RT-DETR.



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии