Перейти к содержанию

Техническое сравнение: YOLOX против YOLOv9 для обнаружения объектов

Выбор подходящей модели обнаружения объектов имеет решающее значение для достижения оптимальных результатов в задачах компьютерного зрения. На этой странице представлено подробное техническое сравнение YOLOX и YOLOv9, двух передовых моделей, известных своей производительностью и эффективностью в обнаружении объектов. Мы рассмотрим их архитектурные различия, эталонные показатели производительности и пригодность для различных приложений, чтобы помочь вам принять обоснованное решение.

YOLOX: высокопроизводительный детектор без привязки к якорям

YOLOX — это модель детекции объектов без привязки к anchor box, разработанная компанией Megvii. Представленная в июле 2021 года, YOLOX стремится к простоте и высокой производительности за счет удаления концепции anchor box, что упрощает модель и потенциально улучшает обобщение.

Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Документация: https://yolox.readthedocs.io/en/latest/

Архитектура и ключевые особенности

YOLOX выделяется своим anchor-free механизмом, упрощающим архитектуру. Ключевые особенности включают:

  • Разделенная Head: Разделяет heads классификации и локализации для повышения производительности.
  • Назначение меток SimOTA: Продвинутая стратегия назначения меток для оптимизированного обучения.
  • Надежная аугментация данных: Использует такие методы, как MixUp и Mosaic, для повышения устойчивости и обобщения, более подробно описано в руководствах по аугментации данных.

Сильные и слабые стороны

Преимущества:

  • Anchor-Free Design: Упрощает архитектуру модели, уменьшая параметры проектирования и сложность.
  • Высокая точность и скорость: Обеспечивает отличный баланс между средней точностью (mAP) и скоростью инференса.
  • Масштабируемость: Предлагается ряд размеров моделей (от Nano до X), что позволяет развертывать их на различных вычислительных ресурсах.

Слабые стороны:

  • Экосистема: Будучи открытым исходным кодом, ему не хватает интегрированной экосистемы и инструментов, предоставляемых Ultralytics, таких как полная интеграция с Ultralytics HUB для сквозных рабочих процессов.
  • Скорость инференса: Более крупные модели YOLOX могут быть медленнее, чем сопоставимые оптимизированные модели, такие как YOLOv9, особенно на определенном оборудовании.

Идеальные варианты использования

YOLOX хорошо подходит для приложений, требующих баланса между высокой точностью и скоростью, таких как:

  • Детекция объектов в реальном времени в робототехнике и системах видеонаблюдения.
  • Исследования и разработки благодаря ее модульной конструкции и реализации на PyTorch.
  • Edge AI развертывания, особенно небольшие варианты Nano и Tiny на таких устройствах, как NVIDIA Jetson.

Узнайте больше о YOLOX

YOLOv9: Обучение тому, что вы хотите изучать, с использованием программируемой градиентной информации

Ultralytics YOLOv9 представляет собой значительный прогресс в обнаружении объектов, решая проблемы потери информации в глубоких нейронных сетях с помощью инновационных архитектурных решений.

Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Документация: https://docs.ultralytics.com/models/yolov9/

Архитектура и ключевые особенности

Архитектура YOLOv9 разработана для сохранения критически важного потока информации через глубокие слои с использованием Programmable Gradient Information (PGI). Это обеспечивает надежный градиентный поток для эффективного обновления модели. Он также представляет Generalized Efficient Layer Aggregation Network (GELAN), которая оптимизирует структуру сети для лучшего использования параметров и вычислительной эффективности. Интеграция YOLOv9 в экосистему Ultralytics обеспечивает удобство работы пользователя благодаря простому API и эффективным процессам обучения.

Сильные и слабые стороны

Преимущества:

  • Современная точность: Достигает лидирующих показателей mAP в бенчмарках, таких как COCO.
  • Высокая эффективность: Превосходит предыдущие модели, обеспечивая высокую точность с меньшим количеством параметров и FLOPs, что делает ее подходящей для развертывания на периферийных AI.
  • Сохранение информации: PGI эффективно смягчает потерю информации, улучшая обучение модели.
  • Экосистема Ultralytics: Преимущества: активная разработка, обширная документация, интеграция Ultralytics HUB для MLOps и более низкие требования к памяти во время обучения по сравнению со многими альтернативами.
  • Универсальность: Хотя оригинальная статья посвящена обнаружению, архитектура демонстрирует потенциал для таких задач, как сегментация экземпляров и, возможно, больше, что соответствует многозадачным возможностям, часто встречающимся в моделях Ultralytics, таких как YOLOv8.

Слабые стороны:

  • Новизна: Будучи более новой моделью, спектр примеров развертывания, разработанных сообществом, все еще может расширяться по сравнению с давно зарекомендовавшими себя моделями. Однако ее интеграция в фреймворк Ultralytics значительно ускоряет внедрение и обеспечивает надежную поддержку.

Идеальные варианты использования

YOLOv9 превосходно подходит для приложений, где высокая точность и эффективность имеют первостепенное значение. Это включает в себя сложные задачи, такие как автономное вождение, передовые системы безопасности и детальное распознавание объектов для контроля качества в производстве.

Узнайте больше о YOLOv9

Анализ производительности: YOLOX против YOLOv9

При сравнении YOLOX и YOLOv9 выявляется четкая тенденция: YOLOv9 последовательно обеспечивает более высокую точность при аналогичном или меньшем вычислительном бюджете. Архитектурные инновации в YOLOv9, такие как PGI и GELAN, позволяют ему достичь превосходного компромисса между точностью, количеством параметров и FLOPs. Например, YOLOv9-M достигает более высокого mAP, чем YOLOX-l, при этом имея менее половины параметров и FLOPs. Эта эффективность делает YOLOv9 более мощным выбором для современных приложений, требующих высокопроизводительного инференса в реальном времени. Хотя YOLOX остается компетентной и быстрой моделью, особенно ее меньшие варианты для edge computing, YOLOv9 устанавливает новый эталон производительности.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv9t 640 38.3 - 2.30 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Заключение и рекомендации

YOLOX и YOLOv9 — мощные модели обнаружения объектов, но они отвечают разным приоритетам. YOLOX — высокопроизводительная модель без привязки к якорям, которая предлагает отличный баланс скорости и точности, что делает ее надежным выбором для многих приложений реального времени. Однако YOLOv9 представляет собой следующее поколение детекторов объектов, обеспечивающих превосходную точность и эффективность благодаря своей инновационной архитектуре PGI и GELAN. Для проектов, требующих высочайшей производительности, YOLOv9 — явный победитель.

Для разработчиков и исследователей, ищущих комплексную и удобную платформу, модели Ultralytics YOLO, такие как YOLOv8 и новейшая YOLO11, предлагают значительные преимущества по сравнению с автономными реализациями:

  • Простота использования: Оптимизированный Python API, подробная документация и многочисленные руководства упрощают разработку и развертывание.
  • Развитая экосистема: Воспользуйтесь преимуществами активной разработки, сильной поддержки сообщества, частых обновлений, легкодоступных предварительно обученных весов и интеграции с Ultralytics HUB для бесшовного MLOps.
  • Баланс производительности: Модели Ultralytics обеспечивают превосходный компромисс между скоростью и точностью, что делает их подходящими для широкого спектра реальных сценариев.
  • Эффективность использования памяти: Обычно требуют меньше памяти во время обучения и инференса по сравнению с другими типами моделей, что имеет решающее значение для сред с ограниченными ресурсами.
  • Универсальность: Поддержка нескольких задач, помимо обнаружения объектов, включая сегментацию, оценку позы, классификацию и отслеживание.
  • Эффективность обучения: Более быстрое время обучения и эффективное использование ресурсов являются отличительными чертами фреймворка Ultralytics.

Пользователям, изучающим альтернативы, следует сравнить эти модели с другими, такими как YOLOv5, или ознакомиться со сравнениями, такими как YOLOv8 vs. YOLOX и RT-DETR vs. YOLOv9 для получения дополнительной информации.



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии