Перейти к содержанию

YOLOv9 против YOLOX: Технический глубокий анализ современного обнаружения объектов

В области компьютерного зрения наблюдается быстрая эволюция архитектур обнаружения объектов в реальном времени. Это руководство предоставляет всеобъемлющее сравнение между YOLOv9 и YOLOX, анализируя их архитектурные инновации, метрики производительности и методологии обучения. Независимо от того, создаете ли вы интеллектуальные приложения для ИИ в производстве или исследуете предиктивное моделирование, понимание этих моделей поможет вам принять обоснованные решения для вашего следующего развертывания.

Архитектурные инновации

YOLOv9: Программируемая градиентная информация

YOLOv9 произвел сдвиг парадигмы, решив проблему информационного узкого места, присущую глубоким нейронным сетям. Его ключевые инновации включают Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).

  • Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
  • Организация: Institute of Information Science, Academia Sinica, Taiwan
  • Дата: 21 февраля 2024 г.
  • Arxiv:2402.13616
  • GitHub:WongKinYiu/yolov9

Сохраняя критически важные данные признаков во время прямого прохода, YOLOv9 гарантирует точность градиентов, используемых для обновления весов во время обратного распространения. Эта архитектура превосходно справляется с извлечением признаков, что делает ее высокоэффективной для обнаружения мелких объектов в сложных средах, таких как те, что встречаются на аэрофотоснимках и в детальных медицинских сканах.

Узнайте больше о YOLOv9

YOLOX: Наведение мостов между исследованиями и промышленностью

Выпущенный в середине 2021 года, YOLOX перевел серию YOLO на безанкерную архитектуру. Он представил разделенную голову (decoupled head), которая разделяет задачи классификации и локализации, и использовал стратегию присвоения меток SimOTA для улучшения сходимости обучения.

  • Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
  • Организация: Megvii
  • Дата: 18 июля 2021 г.
  • Arxiv:2107.08430
  • GitHub:Megvii-BaseDetection/YOLOX

Хотя YOLOX был новаторским для своего времени, достигая отличной средней точности (mAP) и устраняя настройку гиперпараметров якорных боксов, его базовая архитектура с тех пор была превзойдена современными сетями, которые лучше балансируют количество параметров и сохранение признаков.

Узнайте больше о YOLOX

Эволюция безанкерного подхода

И YOLOX, и новые модели Ultralytics используют безаякорные конструкции, снижая сложность настройки гиперпараметров и улучшая обобщение на различных наборах данных.

Анализ производительности

При сравнении этих моделей по бенчмарку MS COCO становятся очевидными достижения YOLOv9. YOLOv9 неизменно обеспечивает лучший компромисс между точностью и FLOPs.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Хотя YOLOX предлагает легковесные варианты, такие как YOLOX-Nano, для экстремальных граничных случаев, варианты YOLOv9 постоянно превосходят модели YOLOX аналогичного размера по чистой точности. Например, YOLOv9m достигает 51.4% mAP по сравнению с 49.7% у YOLOXl, несмотря на то, что имеет менее половины параметров (20.0M против 54.2M).

Преимущество Ultralytics

Выбор модели включает в себя не только архитектурную теорию; окружающая ее экосистема определяет скорость разработки и успех развертывания. Использование YOLOv9 в рамках экосистемы Ultralytics обеспечивает беспрецедентную простоту использования и надежную поддержку сообщества.

В отличие от старых оригинальных исследовательских репозиториев, фреймворк Ultralytics предоставляет унифицированный Python API, который упрощает сложные конвейеры. Обучение требует значительно меньше памяти GPU, чем многие альтернативы, предлагая невероятную эффективность обучения.

from ultralytics import YOLO

# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to TensorRT format
model.export(format="engine")

Благодаря встроенной поддержке нескольких задач, включая detect объектов, segment экземпляров и оценку позы, вы можете быстро переориентировать свои решения в области компьютерного зрения без изменения всей кодовой базы.

Бесшовный экспорт

Развертываете на периферии? Ultralytics упрощает экспорт обученных моделей в высокооптимизированные форматы, такие как ONNX, TensorRT и OpenVINO, всего одной командой.

Приложения в реальном мире

Специфические сильные стороны этих моделей адаптируют их к различным реальным приложениям:

Высокоскоростная розничная аналитика

Для современных розничных сред, требующих распознавания продуктов в реальном времени, YOLOv9 превосходен. Его способность сохранять сложные детали признаков делает его идеально подходящим для развертываний ИИ в розничной торговле, где необходимо различать визуально схожие продукты на переполненной полке.

Устаревшие периферийные развертывания

В сценариях, ограниченных строгими аппаратными лимитами или специализированными NPU, которые плохо справляются с новыми блоками агрегации, YOLOX-Nano иногда может найти свою нишу. Его чистые, упрощенные сверточные паттерны иногда предпочтительны для микроконтроллеров с крайне ограниченными ресурсами.

Автономная робототехника

Для робототехнической навигации пропуск мелких объектов может быть катастрофическим. Архитектура GELAN в YOLOv9 гарантирует, что признаки мелких, удаленных препятствий не теряются в глубоких слоях сети, превосходя старые модели в критически важных для безопасности средах, таких как ИИ в автомобильных приложениях.

Сценарии использования и рекомендации

Выбор между YOLOv9 и YOLOX зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLOv9

YOLOv9 — отличный выбор для:

  • Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.

Когда следует выбирать YOLOX

YOLOX рекомендуется для:

  • Исследования безъякорного detect: Академические исследования, использующие чистую, безъякорную архитектуру YOLOX в качестве основы для экспериментов с новыми головами detect или функциями потерь.
  • Сверхлегкие граничные устройства: Развертывание на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый объем (0,91 млн параметров) варианта YOLOX-Nano.
  • Исследования по назначению меток SimOTA: Исследовательские проекты, изучающие стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Будущее: Встречайте YOLO26

Хотя YOLOv9 представляет собой впечатляющую веху, требования производственных сред постоянно расширяют границы возможного. Недавно выпущенный YOLO26 представляет собой окончательный стандарт для современного ИИ в области компьютерного зрения.

YOLO26 полностью переосмысливает конвейер развертывания благодаря нативной сквозной архитектуре без NMS. Устраняя необходимость в сложной не-максимальной супрессии (NMS) на этапе постобработки, он обеспечивает значительно меньшую задержку инференса.

Кроме того, YOLO26 включает новаторский оптимизатор MuSGD — гибрид SGD и Muon, который заимствует инновации из обучения LLM для обеспечения невероятно стабильной и быстрой сходимости. Благодаря удалению Distribution Focal Loss (DFL) YOLO26 достигает до 43% более быстрого инференса на CPU по сравнению с предшественниками, что делает его абсолютно лучшим выбором для периферийных устройств и корпоративных развертываний. С заметными улучшениями в распознавании мелких объектов с помощью ProgLoss и STAL, YOLO26 эффективно превосходит как YOLOX, так и YOLOv9.

Инженерам, изучающим современные архитектуры, мы также рекомендуем рассмотреть YOLO11 и RT-DETR как мощные альтернативы в рамках пакета Ultralytics. Убедитесь, что ваш проект готов к будущему, используя беспрецедентную производительность новейших моделей на платформе Ultralytics.


Комментарии