Перейти к содержанию

YOLOv9 против YOLOX: техническое сравнение

Выбор оптимальной модели обнаружения объектов имеет решающее значение для достижения желаемых результатов в проектах компьютерного зрения. Модели значительно различаются по архитектуре, производительности и требованиям к ресурсам. На этой странице представлено подробное техническое сравнение YOLOv9 и YOLOX, анализирующее их ключевые особенности, чтобы помочь вам выбрать наиболее подходящий вариант для ваших нужд.

YOLOv9: Улучшение обнаружения объектов в реальном времени

Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2024-02-21
Arxiv: arXiv:2402.13616
GitHub: github.com/WongKinYiu/yolov9
Документация: docs.ultralytics.com/models/yolov9/

Ultralytics YOLOv9 представляет собой значительный скачок в обнаружении объектов, представляя инновационные методы, такие как Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). Разработанная Чиен-Яо Вангом и Хонг-Юанем Марком Ляо, YOLOv9 решает проблему потери информации в глубоких нейронных сетях, повышая как точность, так и эффективность. Интегрированная в экосистему Ultralytics, YOLOv9 выигрывает от упрощенного пользовательского опыта, всесторонней документации и надежной поддержки сообщества.

Узнайте больше о YOLOv9

Архитектура и ключевые особенности

Архитектура YOLOv9 разработана для сохранения критически важного потока информации через глубокие слои с использованием PGI. Это помогает смягчить проблему информационного узкого места, распространенную в глубоких сетях. GELAN оптимизирует структуру сети для лучшего использования параметров и вычислительной эффективности, основываясь на концепциях CSPNet и ELAN. Это приводит к современной производительности с замечательной эффективностью. Реализация Ultralytics обеспечивает простоту использования с помощью простого API python и эффективных процессов обучения, используя легкодоступные предварительно обученные веса.

Сильные стороны

  • Современная точность: Достигает лидирующих показателей mAP на таких бенчмарках, как COCO, часто превосходя другие модели аналогичного размера.
  • Высокая эффективность: Обеспечивает высокую точность с меньшим количеством параметров и FLOPs по сравнению со многими альтернативами, что делает его подходящим для развертывания edge AI.
  • Сохранение информации: PGI эффективно смягчает потерю информации, улучшая обучаемость модели и итоговую производительность.
  • Экосистема Ultralytics: Преимущества: активная разработка, обширные ресурсы, интеграция с Ultralytics HUB для MLOps и более низкие требования к памяти во время обучения.
  • Универсальность: Хотя в оригинальной статье основное внимание уделяется обнаружению, архитектура демонстрирует потенциал для таких задач, как сегментация экземпляров и многое другое, что соответствует многозадачным возможностям таких моделей, как YOLOv8.

Слабые стороны

  • Как более новая модель, спектр примеров развертывания, управляемых сообществом, все еще может расширяться по сравнению с давно зарекомендовавшими себя моделями. Однако ее интеграция в рамках Ultralytics значительно ускоряет внедрение и обеспечивает надежную систему поддержки.

YOLOX: высокопроизводительный детектор без привязки к якорям

Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Документация: https://yolox.readthedocs.io/en/latest/

YOLOX, разработанный компанией Megvii, представляет собой модель обнаружения объектов anchor-free, которая стремится к простоте и высокой производительности. Устраняя механизм anchor box, YOLOX упрощает конвейер обучения и уменьшает количество параметров проектирования, что может улучшить обобщение.

Узнайте больше о YOLOX

Архитектура и ключевые особенности

YOLOX отличается несколькими ключевыми архитектурными решениями. Наиболее важным является его конструкция без anchor, которая рассматривает обнаружение объектов как задачу предсказания для каждого пикселя. Другие ключевые особенности включают decoupled head, который разделяет задачи классификации и локализации, продвинутую стратегию назначения меток под названием SimOTA и использование эффективных методов аугментации данных, таких как MixUp и Mosaic.

Сильные стороны

  • Anchor-Free Design: Упрощает архитектуру модели и процесс обучения, устраняя необходимость в настройке anchor box.
  • Высокая производительность: Достигает конкурентного баланса между средней точностью (mAP) и скоростью инференса для своего времени.
  • Масштабируемость: Предлагается ряд размеров моделей, от YOLOX-Nano до YOLOX-X, что позволяет развертывать их на различных вычислительных ресурсах.

Слабые стороны

  • Превосходство новых моделей: Несмотря на свою инновационность, YOLOX был превзойден по точности и эффективности более новыми моделями, такими как YOLOv9.
  • Фрагментированная экосистема: Несмотря на открытый исходный код, отсутствует интегрированная экосистема и оптимизированные инструменты, предоставляемые Ultralytics, такие как простая интеграция с Ultralytics HUB для MLOps.
  • Более высокие вычислительные затраты: Для заданного уровня точности более крупные модели YOLOX, как правило, имеют больше параметров и FLOPs, чем сопоставимые модели YOLOv9.

Сравнение производительности: YOLOv9 против YOLOX

При сравнении производительности на наборе данных COCO YOLOv9 демонстрирует явное преимущество как в точности, так и в эффективности. Таблица ниже показывает, что модели YOLOv9 стабильно достигают более высоких показателей mAP с меньшим количеством параметров и FLOP, чем их аналоги YOLOX. Например, YOLOv9-C достигает 53,0% mAP с 25,3 млн параметров, превосходя YOLOX-L (49,7% mAP с 54,2 млн параметров) и YOLOX-X (51,1% mAP с 99,1 млн параметров), будучи при этом значительно более эффективным. Самая большая модель, YOLOv9-E, повышает границу точности до 55,6% mAP, уровня, которого YOLOX не достигает. Эта превосходная производительность на единицу вычислений делает YOLOv9 более мощным и экономичным выбором для современных приложений.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Идеальные варианты использования

YOLOv9

Превосходная точность и эффективность YOLOv9 делают его идеальным выбором для требовательных приложений, где производительность имеет решающее значение. Он превосходен в таких сценариях, как:

  • Передовые системы помощи водителю (ADAS): Обнаружение транспортных средств, пешеходов и дорожных знаков с высокой точностью для автономного вождения.
  • Безопасность с высокой точностью: Мониторинг сложных сцен в системах безопасности с низким уровнем ложных срабатываний.
  • Промышленная автоматизация: Выполнение детального контроля качества в производстве путем выявления мелких дефектов.
  • Медицинская визуализация: Помощь в анализе медицинских сканов путем предоставления точного обнаружения объектов с аномалиями.

YOLOX

YOLOX хорошо подходит для приложений, требующих надежного баланса между точностью и скоростью, особенно там, где его конструкция без привязки к anchor boxes может предложить преимущества для конкретных наборов данных. Идеальные варианты использования включают:

  • Отслеживание в реальном времени: Приложения в робототехнике и системах видеонаблюдения, где необходимо отслеживание объектов в реальном времени.
  • Академические исследования: Его модульная конструкция без привязки к якорям делает его интересной моделью для исследований и экспериментов в архитектурах обнаружения объектов.
  • Развертывание на периферийных устройствах: Меньшие варианты YOLOX-Nano и YOLOX-Tiny можно развертывать на устройствах с ограниченными ресурсами, хотя новые модели, такие как YOLOv9, часто обеспечивают лучшую производительность при тех же затратах ресурсов.

Заключение и рекомендации

YOLOv9 и YOLOX внесли значительный вклад в область обнаружения объектов. YOLOX расширила границы благодаря своей конструкции без привязки к якорям и отделенной голове, предложив прочную основу для обнаружения в реальном времени. Однако YOLOv9 установила новый стандарт как по точности, так и по эффективности. Ее инновационные архитектуры PGI и GELAN позволяют ей достигать превосходной производительности с меньшими вычислительными ресурсами.

Для разработчиков и исследователей, ищущих лучшую производительность, эффективность и простоту использования, YOLOv9 — очевидный выбор. Ее интеграция в экосистему Ultralytics предоставляет беспрецедентные преимущества:

  • Простота использования: Оптимизированный Python API, подробная документация и понятное использование CLI упрощают разработку.
  • Хорошо поддерживаемая экосистема: Активная разработка, сильная поддержка сообщества, частые обновления и интеграция с Ultralytics HUB для бесшовного MLOps.
  • Баланс производительности: Превосходный компромисс между скоростью и точностью, что делает ее подходящей для различных реальных сценариев, от периферии до облака.
  • Эффективность обучения: Более быстрое время обучения, готовые предварительно обученные веса и эффективное использование ресурсов.

Изучите другие модели

Хотя эта страница посвящена YOLOv9 и YOLOX, область компьютерного зрения огромна. Мы рекомендуем вам изучить другие современные модели, доступные в экосистеме Ultralytics. Рассмотрите возможность ознакомления с нашими сравнениями YOLOv9 и YOLOv8, чтобы получить представление о новейших моделях Ultralytics, или YOLOv9 и YOLOv5, чтобы увидеть, насколько далеко продвинулась технология по сравнению с признанным отраслевым стандартом. Для тех, кто интересуется архитектурами на основе трансформеров, наше сравнение RT-DETR и YOLOv9 предлагает подробный анализ.



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии