YOLOv6-3.0 vs. EfficientDet: подробное сравнение
Выбор оптимальной модели обнаружения объектов — критически важное решение для проектов компьютерного зрения. На этой странице представлено техническое сравнение между YOLOv6-3.0 от Meituan и EfficientDet от Google, двумя ведущими моделями в области обнаружения объектов. Мы углубимся в их архитектурные решения, эталонные показатели производительности и подходящие приложения, чтобы помочь вам сделать осознанный выбор для ваших конкретных потребностей.
Обзор YOLOv6-3.0
YOLOv6-3.0, разработанная компанией Meituan, представляет собой одноэтапную структуру обнаружения объектов, предназначенную для промышленных приложений, с акцентом на баланс между высокой производительностью и эффективностью. Она развивает наследие YOLO, представляя аппаратную конструкцию нейронной сети.
Подробности:
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация: Meituan
- Дата: 13.01.2023
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub: https://github.com/meituan/YOLOv6
- Документация: https://docs.ultralytics.com/models/yolov6/
Архитектура и ключевые особенности
Ключевые архитектурные особенности YOLOv6-3.0 включают Efficient Reparameterization Backbone, который оптимизирует структуру сети после обучения для ускорения скорости инференса, и Hybrid Blocks, которые балансируют точность и эффективность в слоях извлечения признаков. Эта конструкция делает его особенно эффективным для приложений реального времени.
Производительность и варианты использования
YOLOv6-3.0 особенно хорошо подходит для задач обнаружения объектов в реальном времени, где скорость и точность имеют решающее значение. Его эффективная конструкция обеспечивает быстрое время инференса, что делает его идеальным для таких приложений, как:
- Промышленная автоматизация: Контроль качества и мониторинг процессов в производстве.
- Наблюдение в реальном времени: Системы безопасности и управление дорожным движением.
- Edge AI приложения: Развертывание на устройствах с ограниченными вычислительными ресурсами, таких как NVIDIA Jetson.
Преимущества YOLOv6-3.0
- Высокая скорость инференса: Оптимизирована для высокой производительности, что делает ее подходящей для промышленных нужд.
- Хорошая точность: Обеспечивает конкурентоспособные показатели mAP, особенно в более крупных вариантах модели.
- Ориентация на промышленность: Специально разработан для практических сценариев промышленного развертывания.
Слабые стороны YOLOv6-3.0
- Ограниченная универсальность: В первую очередь ориентирован на обнаружение объектов, не имея встроенной поддержки других задач, таких как сегментация или оценка позы.
- Экосистема: Будучи открытым исходным кодом, его экосистема не так всеобъемлюща, как у Ultralytics, что может означать меньшую поддержку сообщества и более медленные обновления.
Обзор EfficientDet
EfficientDet, представленный Google, известен своей эффективностью и масштабируемостью в задачах обнаружения объектов, достигая высокой точности с меньшим количеством параметров, чем многие предыдущие модели.
Подробности:
- Авторы: Мингксинг Тан, Руоминг Панг и Куок В. Ле
- Организация: Google
- Дата: 20.11.2019
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- Документация: https://github.com/google/automl/tree/master/efficientdet#readme
Архитектура и ключевые особенности
Архитектура EfficientDet построена на двух ключевых нововведениях:
- BiFPN (Bidirectional Feature Pyramid Network): Взвешенная двунаправленная сеть пирамиды признаков, которая обеспечивает эффективное и результативное многомасштабное объединение признаков. В отличие от традиционных FPN, BiFPN использует двунаправленные перекрестные соединения и взвешенное объединение признаков для лучшего потока информации.
- EfficientNet Backbone: Он использует серию EfficientNet в качестве своей базовой сети. Модели EfficientNet были разработаны с помощью поиска нейронной архитектуры (NAS), что обеспечивает отличный баланс между производительностью и эффективностью.
EfficientDet использует метод сложного масштабирования для изменения ширины, глубины и разрешения сети, создавая семейство детекторов от D0 до D7 для различных вычислительных бюджетов.
Производительность и варианты использования
Модели EfficientDet известны своей высокой точностью, что делает их подходящими для приложений, где точность является главным приоритетом, но вычислительные ресурсы по-прежнему являются фактором. Примеры использования включают:
- Высокоточный анализ изображений: Анализ медицинских изображений и анализ спутниковых снимков.
- Детальное понимание сцены: Робототехника и автономное вождение, требующие точного распознавания объектов.
Сильные стороны EfficientDet
- Высокая точность: Достигает самой современной mAP с относительно эффективными архитектурами по сравнению со старыми двухэтапными детекторами.
- Масштабируемость: Предлагается широкий спектр моделей (D0-D7) для удовлетворения различных вычислительных потребностей.
- Эффективное объединение признаков: BiFPN очень эффективен при объединении многомасштабных признаков, что повышает точность обнаружения.
Слабые стороны EfficientDet
- Скорость инференса: Как правило, ниже, чем у одноэтапных детекторов, таких как YOLOv6-3.0, особенно у более крупных вариантов, что делает ее менее подходящей для приложений реального времени.
- Сложность: Архитектура, особенно BiFPN, сложнее, чем более простые одноэтапные детекторы.
Узнайте больше об EfficientDet
Сравнение производительности: YOLOv6-3.0 против EfficientDet
Эталонные тесты производительности на наборе данных COCO показывают явный компромисс между скоростью и точностью. Модели YOLOv6-3.0 демонстрируют значительное преимущество в задержке инференса, особенно при ускорении с помощью TensorRT на GPU. Например, YOLOv6-3.0l достигает 52,8 mAP со временем инференса всего 8,95 мс, в то время как сопоставимая EfficientDet-d6 достигает аналогичного 52,6 mAP, но почти в 10 раз медленнее - 89,29 мс. Хотя самая большая модель EfficientDet-d7 достигает наивысшей точности - 53,7 mAP, ее чрезвычайно низкая скорость инференса делает ее непрактичной для большинства реальных развертываний. В отличие от этого, YOLOv6-3.0 предлагает гораздо более практичный баланс, обеспечивая высокую точность с высокой скоростью, необходимой для промышленных систем и систем реального времени.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Заключение
И YOLOv6-3.0, и EfficientDet — это мощные детекторы объектов, но они отвечают разным приоритетам. EfficientDet превосходен в сценариях, где достижение максимально возможной точности имеет первостепенное значение, а задержка логического вывода является второстепенной задачей. Его сложная BiFPN и масштабируемая архитектура делают его сильным конкурентом для автономного анализа сложных сцен. Однако для подавляющего большинства промышленных и реальных приложений YOLOv6-3.0 обеспечивает гораздо более практичное и эффективное решение благодаря превосходному балансу скорости и точности.
Для разработчиков и исследователей, ищущих модель, которая расширяет границы производительности, универсальности и простоты использования, настоятельно рекомендуется обратить внимание на экосистему Ultralytics. Такие модели, как популярная Ultralytics YOLOv8 и новейшая современная YOLO11, предлагают значительные преимущества:
- Баланс производительности: Модели Ultralytics YOLO известны своим исключительным компромиссом между скоростью и точностью, часто превосходя конкурентов по обоим показателям для моделей сопоставимого размера.
- Универсальность: В отличие от YOLOv6 и EfficientDet, которые в первую очередь предназначены для обнаружения объектов, модели Ultralytics представляют собой многозадачные структуры, поддерживающие сегментацию экземпляров, оценку позы, классификацию изображений и многое другое, и все это в рамках единого унифицированного пакета.
- Простота использования: Фреймворк Ultralytics разработан для оптимизации работы пользователей благодаря простому Python API, обширной документации и многочисленным руководствам.
- Хорошо поддерживаемая экосистема: Пользователи получают выгоду от активной разработки, мощной поддержки сообщества, частых обновлений и бесшовной интеграции с такими инструментами, как Ultralytics HUB, для комплексного MLOps.
- Эффективность обучения: Модели Ultralytics эффективны для обучения, часто требуют меньше памяти и времени, и поставляются с готовыми предварительно обученными весами на наборе данных COCO для ускорения пользовательских проектов.
Изучите другие модели
Если вы рассматриваете варианты, выходящие за рамки YOLOv6-3.0 и EfficientDet, обратите внимание на другие современные модели, задокументированные Ultralytics. Подробные сравнения с такими моделями, как YOLOv8, YOLOv7, YOLOX и основанная на трансформерах RT-DETR, могут оказаться полезными для вашего проекта.