YOLOv7 vs YOLOv6-3.0: Подробное сравнение моделей для обнаружения объектов
Выбор оптимальной модели обнаружения объектов — критически важное решение в проектах компьютерного зрения, требующее баланса между точностью, скоростью и использованием ресурсов. На этой странице представлено подробное техническое сравнение между YOLOv7 и YOLOv6-3.0, двумя известными моделями, известными своими возможностями обнаружения объектов. Мы углубимся в их архитектуры, эталонные показатели производительности и подходящие приложения, чтобы помочь вам в процессе выбора модели.
YOLOv7: Точность и передовые методы
YOLOv7, разработанная исследователями из Института информатики Academia Sinica, Тайвань, представляет собой значительный шаг в обнаружении объектов в реальном времени, уделяя особое внимание достижению высокой точности при сохранении эффективности.
Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Документация: https://docs.ultralytics.com/models/yolov7/
Архитектура и ключевые особенности
YOLOv7 представляет несколько архитектурных инноваций и стратегий обучения, направленных на повышение производительности без значительного увеличения затрат на inference. Ключевые особенности включают в себя:
- E-ELAN (Extended-Efficient Layer Aggregation Networks): Этот основной компонент в backbone модели повышает способность сети эффективно изучать признаки, улучшая параметры и вычислительную эффективность. Более подробную информацию можно найти в оригинальной статье.
- Масштабирование модели: Реализует методы составного масштабирования глубины и ширины модели, оптимизируя производительность для различных размеров модели на основе принципов модели на основе конкатенации.
- Обучение с использованием вспомогательной головы: Использует вспомогательные головы на этапе обучения для усиления изучения признаков, которые затем удаляются во время инференса для поддержания скорости. Эта концепция связана с методами глубокого контроля, используемыми в других нейронных сетях.
- Улучшения "Bag-of-Freebies": Включает передовые методы обучения, такие как расширение данных и уточнение назначения меток, которые повышают точность без дополнительных затрат на вывод.
Сильные стороны
- Высокая точность: Достигает самой современной точности на эталонных наборах данных, таких как набор данных COCO.
- Эффективность: Обеспечивает баланс между высокой точностью и конкурентоспособной скоростью инференса, что подходит для инференса в реальном времени.
- Универсальность: Официальный репозиторий демонстрирует поддержку задач, помимо обнаружения, включая оценку позы и сегментацию экземпляров.
Слабые стороны
- Сложность: Продвинутые архитектурные особенности и методы обучения могут сделать модель более сложной для понимания и тонкой настройки по сравнению с более простыми архитектурами, такими как YOLOv5.
- Ресурсоемкое обучение: Более крупные варианты YOLOv7 (например, YOLOv7-E6E) требуют значительных вычислительных ресурсов для обучения.
YOLOv6-3.0: Промышленная эффективность и скорость
YOLOv6-3.0, разработанная компанией Meituan, спроектирована для промышленных применений, требующих высокопроизводительного обнаружения объектов с акцентом на скорость и эффективность. Версия 3.0 значительно улучшает своих предшественников, предлагая повышенную точность и более быстрое время инференса.
Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация: Meituan
Дата: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Документация: https://docs.ultralytics.com/models/yolov6/
Архитектура и ключевые особенности
YOLOv6-3.0 разработана с учетом развертывания и имеет несколько ключевых архитектурных решений, которые отдают приоритет скорости инференса.
- Адаптация к оборудованию: Архитектура разработана для эффективной работы на различных аппаратных платформах, особенно на GPU, за счет использования блоков RepVGG-стиля с возможностью повторной параметризации.
- EfficientRep Backbone и Rep-PAN Neck: Эти структуры разработаны для уменьшения вычислительных узких мест и затрат на доступ к памяти, что напрямую приводит к более быстрому выводу.
- Decoupled Head (Разделенная голова): Разделяет головы классификации и локализации, что, как было показано, улучшает сходимость и итоговую точность модели. Этот метод также используется в таких моделях, как YOLOX.
Сильные стороны
- Высокая скорость инференса: Оптимизирована для быстрого инференса, что делает ее очень подходящей для приложений реального времени, где задержка является критическим фактором.
- Промышленная направленность: Разработана с учетом сценариев промышленного развертывания, обеспечивая надежность и эффективность в практических условиях, таких как производство.
- Эффективный дизайн: Меньшие варианты YOLOv6-3.0 имеют очень низкое количество параметров и FLOP, что делает их идеальными для сред с ограниченными ресурсами.
Слабые стороны
- Компромисс в точности: Несмотря на высокую эффективность, она может демонстрировать немного более низкую точность на сложных наборах данных по сравнению с моделями, такими как YOLOv7, которые приоритезируют максимальную точность над скоростью.
- Экосистема и универсальность: Экосистема вокруг YOLOv6 менее всеобъемлюща, чем у моделей Ultralytics, и в основном ориентирована на обнаружение объектов.
Случаи использования
YOLOv6-3.0 превосходен в приложениях, где скорость и эффективность имеют первостепенное значение:
- Промышленная автоматизация: Контроль качества и мониторинг процессов в производстве.
- Системы реального времени: Приложения со строгими требованиями к задержке, такие как робототехника и видеонаблюдение.
- Edge Computing: Развертывание на устройствах с ограниченными ресурсами благодаря своей эффективной конструкции. Ознакомьтесь с руководствами по развертыванию на таких устройствах, как NVIDIA Jetson.
Сравнение производительности: YOLOv7 против YOLOv6-3.0
В таблице ниже приведены сводные метрики производительности для сопоставимых вариантов YOLOv7 и YOLOv6-3.0 на наборе данных COCO.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Примечание: Показатели скорости могут варьироваться в зависимости от оборудования, программного обеспечения (TensorRT, ONNX, OpenVINO), размера пакета и конкретных конфигураций. Значения mAP обычно сообщаются для набора данных COCO val.
Судя по таблице, YOLOv7x достигает наивысшего значения mAP, что свидетельствует о превосходной точности. Однако модели YOLOv6-3.0, особенно небольшие варианты, такие как YOLOv6-3.0n, предлагают значительно более высокую скорость инференса, особенно на GPU с оптимизацией TensorRT, и имеют меньше параметров и FLOPs, что делает их очень эффективными. Выбор зависит от того, что является приоритетом: максимальная точность (YOLOv7) или оптимальная скорость/эффективность (YOLOv6-3.0).
Почему стоит выбрать модели Ultralytics YOLO?
Для пользователей, которым нужны современные модели в рамках всеобъемлющей и простой в использовании экосистемы, Ultralytics предлагает YOLOv8 и новейшую Ultralytics YOLO11. Эти модели обеспечивают значительные преимущества как перед YOLOv7, так и перед YOLOv6.
- Простота использования: Модели Ultralytics поставляются с оптимизированным Python API, обширной документацией и понятными командами CLI, что упрощает обучение, проверку и развертывание.
- Развитая экосистема: Воспользуйтесь преимуществами активной разработки, сильного сообщества открытого исходного кода, частых обновлений и интеграции с такими инструментами, как Ultralytics HUB для бесшовного MLOps.
- Баланс производительности: Модели Ultralytics обеспечивают превосходный компромисс между скоростью и точностью, что делает их подходящими для различных реальных сценариев, от периферийных устройств до облачных серверов.
- Универсальность: Такие модели, как YOLOv8 и YOLO11, поддерживают несколько задач, помимо обнаружения объектов, включая сегментацию, классификацию, оценку позы и ориентированное обнаружение объектов (OBB), предлагая унифицированное решение.
- Эффективность обучения: Воспользуйтесь преимуществами эффективных процессов обучения, готовых предварительно обученных весов на наборах данных, таких как COCO, и более быстрого времени сходимости.
Для дальнейшего изучения вам также могут быть интересны сравнения с другими моделями, такими как RT-DETR.