YOLOv7 против YOLOX: подробное техническое сравнение
Выбор оптимальной модели обнаружения объектов — критически важное решение для проектов компьютерного зрения. Понимание конкретных сильных и слабых сторон различных архитектур является ключом к достижению максимальной производительности. На этой странице представлено техническое сравнение двух влиятельных моделей, YOLOv7 и YOLOX, с подробным описанием их архитектурных нюансов, эталонных показателей производительности и идеальных сценариев развертывания.
YOLOv7: Высокоточное и эффективное обнаружение
YOLOv7, представленный в июле 2022 года, быстро установил новые стандарты для детекторов объектов в реальном времени, оптимизируя как эффективность обучения, так и скорость вывода. Он представляет собой значительный шаг вперед в балансировке скорости и точности для требовательных приложений.
Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Документация: https://docs.ultralytics.com/models/yolov7/
Архитектура и ключевые особенности
YOLOv7 представил несколько архитектурных инноваций, подробно описанных в его статье. Ключевым компонентом является Extended Efficient Layer Aggregation Network (E-ELAN), которая расширяет возможности сети по обучению, не нарушая градиентный путь, улучшая извлечение признаков. Модель также использует передовые методы масштабирования, подходящие для моделей на основе конкатенации, и использует "trainable bag-of-freebies". Это улучшения обучения, такие как запланированная свертка репараметризации и вспомогательная потеря от грубого к точному, которые повышают точность без увеличения стоимости вывода. Эти функции позволяют YOLOv7 достигать самых современных результатов в обнаружении объектов с конкурентоспособными размерами моделей.
Производительность и варианты использования
YOLOv7 превосходно подходит для сценариев, требующих как быстрого вывода, так и высокой точности. Его впечатляющие показатели mAP и скорости делают его отличным выбором для таких приложений, как анализ видео в реальном времени, системы автономного вождения и обработка изображений с высоким разрешением. В развертываниях умного города YOLOv7 можно использовать для управления дорожным движением или улучшения систем безопасности для немедленного обнаружения угроз.
Сильные и слабые стороны
- Преимущества: Обеспечивает хороший баланс между точностью обнаружения и скоростью инференса. В ней используются передовые методы обучения ("bag-of-freebies") для повышения производительности без значительного увеличения вычислительных затрат во время инференса. Архитектура включает в себя самые современные модули, такие как E-ELAN.
- Недостатки: Архитектура и процесс обучения могут быть более сложными по сравнению с более простыми моделями, такими как YOLOv5. Обучение более крупных моделей YOLOv7 также требует значительных вычислительных ресурсов, хотя вывод остается быстрым.
YOLOX: Превосходство без якорей
YOLOX, представленный компанией Megvii в 2021 году, отличается своим anchor-free дизайном, который упрощает процесс обучения и направлен на улучшение обобщения. Отходя от предопределенных anchor boxes, YOLOX напрямую предсказывает местоположения объектов, предлагая другой подход к обнаружению объектов.
Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Документация: https://yolox.readthedocs.io/en/latest/
Архитектура и ключевые особенности
YOLOX использует несколько ключевых архитектурных инноваций. Его anchor-free подход устраняет необходимость в anchor boxes, снижая сложность проектирования и вычислительные затраты. Это делает его более адаптируемым к различным размерам и соотношениям сторон объектов, что потенциально улучшает производительность на различных наборах данных, таких как COCO. Он также использует decoupled head для классификации и локализации, что способствует более быстрой сходимости и повышению точности. YOLOX использует сильные методы аугментации данных, такие как MixUp и Mosaic, и продвинутую стратегию назначения меток под названием SimOTA (Simplified Optimal Transport Assignment) для дальнейшего повышения эффективности обучения.
Производительность и варианты использования
YOLOX достигает хорошего баланса между скоростью и точностью. Его anchor-free природа делает его особенно подходящим для приложений, где масштабы объектов значительно различаются. Это сильный претендент для задач, требующих эффективного и точного обнаружения, таких как в робототехнике и edge AI развертываниях. Например, в производстве, YOLOX можно использовать для проверки качества, используя его устойчивость к различным формам объектов для обнаружения дефектов.
Сильные и слабые стороны
- Преимущества: Anchor-free дизайн упрощает реализацию и конвейеры обучения. Эффективная аугментация данных и anchor-free подход улучшают обобщение на новые наборы данных. Разделенная голова и anchor-free природа способствуют эффективному инференсу.
- Недостатки: Хотя она и эффективна, она может быть не самой быстрой среди всех моделей YOLO, особенно по сравнению с оптимизированными версиями YOLOv7 или новыми моделями Ultralytics, такими как YOLOv8. Кроме того, она не является частью интегрированной экосистемы Ultralytics, что потенциально означает отсутствие бесшовной интеграции с такими инструментами, как Ultralytics HUB.
Производительность и тесты: YOLOv7 против YOLOX
При сравнении этих двух моделей YOLOv7 обычно достигает более высокой точности (mAP) для своих более крупных моделей, продвигая современные детекторы реального времени на момент своего выпуска. YOLOX, с другой стороны, предоставляет более широкий спектр масштабируемых моделей, от очень маленькой YOLOX-Nano до большой YOLOX-X. Anchor-free дизайн YOLOX может предложить преимущества в простоте и обобщении, в то время как подход YOLOv7 "bag-of-freebies" максимизирует точность без добавления накладных расходов на инференс.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Заключение и рекомендации
YOLOv7 и YOLOX — это мощные модели обнаружения объектов, которые внесли значительный вклад в эту область. YOLOv7 — отличный выбор для приложений, где достижение максимально возможной точности на скорости реального времени является основной целью. YOLOX предлагает убедительную альтернативу без привязки к якорям, которая превосходно справляется с обобщением и предоставляет масштабируемое семейство моделей, подходящих для различных вычислительных бюджетов.
Однако для разработчиков и исследователей, ищущих самую современную, универсальную и удобную структуру, новые модели Ultralytics YOLO, такие как YOLOv8 и Ultralytics YOLO11, часто представляют собой более привлекательный выбор. Эти модели предлагают несколько ключевых преимуществ:
- Простота использования: Оптимизированный пользовательский опыт с простым Python API, подробной документацией и понятными командами CLI.
- Хорошо поддерживаемая экосистема: Активная разработка, сильное сообщество с открытым исходным кодом, частые обновления и бесшовная интеграция с такими инструментами, как Ultralytics HUB для сквозного MLOps.
- Универсальность: Поддержка нескольких задач компьютерного зрения, помимо обнаружения объектов, включая сегментацию, классификацию, оценку позы и обнаружение ориентированных объектов (OBB).
- Баланс производительности: Превосходный компромисс между скоростью и точностью, подходящий для различных реальных сценариев, от периферийных устройств до облачных серверов.
- Эффективность обучения: Эффективные процессы обучения, готовые предварительно обученные веса и более быстрое время сходимости.
Изучите другие модели
Для дальнейшего изучения рассмотрите эти сравнения с участием YOLOv7, YOLOX и других соответствующих моделей:
- YOLOv7 против YOLOv8
- YOLOv5 против YOLOX
- RT-DETR против YOLOv7
- Ознакомьтесь с последними моделями, такими как YOLOv10 и YOLO11.