Перейти к содержанию

YOLOX против YOLOv9: эволюция высокопроизводительного обнаружения объектов

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для обеспечения баланса между точностью, скоростью и сложностью развертывания. В этом сравнении рассматриваются два важных этапа в развитии YOLO : YOLOX, надежный детектор без анкоров, выпущенный в 2021 году, и YOLOv9, архитектура 2024 года, в которой используется программируемая градиентная информация (PGI) для превосходного сохранения характеристик.

YOLOX: пионер Anchor-Free

YOLOX стал значительным сдвигом в YOLO , отказавшись от механизмов на основе анкоров в пользу конструкции без анкоров. Это упрощение устранило необходимость в ручной настройке анкор-боксов, сделав модель более адаптируемой к разнообразным наборам данных и соотношениям сторон. Благодаря включению развязанной головы и передовой стратегии присвоения меток SimOTA, YOLOX достиг передовых результатов после своего выпуска, преодолев разрыв между академическими исследованиями и промышленным применением.

Узнайте больше о YOLOX

Ключевые архитектурные особенности

  • Механизм без анкеров: устраняет сложность кластеризации анкерных ячеек, сокращая количество параметров проектирования и улучшая обобщение.
  • Разделенная головка: разделяет задачи классификации и регрессии на разные ветви, устраняя конфликт между этими двумя целями и улучшая скорость сходимости.
  • SimOTA Label Assignment: динамическая стратегия присвоения меток, которая рассматривает процесс обучения как задачу оптимального транспорта, присваивая прогнозам более эффективные значения истинности, чем статические IoU .

YOLOv9: программируемые градиенты для глубокого обучения

YOLOv9 решает фундаментальную проблему потери информации в глубоких нейронных сетях. По мере углубления сетей важная информация о характеристиках может исчезать во время прямой передачи. YOLOv9 программируемую градиентную информацию (PGI) и обобщенную эффективную сеть агрегации слоев (GELAN) для сохранения критически важных данных на всех уровнях сети. Это приводит к значительному улучшению точности обнаружения, особенно для легких моделей, при сохранении высокой эффективности.

Узнайте больше о YOLOv9

Ключевые архитектурные особенности

  • Архитектура GELAN: объединяет принципы проектирования CSPNet и ELAN для максимальной эффективности параметров и скорости вычислений, что позволяет модели эффективно работать на различном оборудовании.
  • Программируемая информация о градиенте (PGI): вспомогательная система контроля, которая генерирует надежные градиенты для обновления весов сети, обеспечивая обучение основной ветви полным характеристикам даже в очень глубоких архитектурах.
  • Обратимые функции: смягчают проблему информационного «узкого места», обеспечивая эффективную реконструкцию данных и сохраняя семантическую информацию на всех уровнях.

Сравнение производительности

При оценке этих моделей YOLOv9 в целом превосходит YOLOX по соотношению точности и параметров. В то время как YOLOX-x достигает приличных 51,1% mAP, более новая YOLOv9c превосходит его с 53,0% mAP, используя при этом значительно меньше параметров (25,3 млн против 99,1 млн) и меньшую вычислительную мощность. Эта эффективность делает YOLOv9 более YOLOv9 для приложений реального времени, где аппаратные ресурсы ограничены, но требуется высокая точность.

Однако YOLOX по-прежнему остается весьма актуальным для устаревших периферийных устройств. Его более простая конструкция без анкеров иногда может быть проще оптимизировать для конкретных мобильных чипсетов или архитектур NPU, которые могут не полностью поддерживать сложные агрегации слоев, встречающиеся в более новых моделях, таких как GELAN.

Подробные показатели

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Эффективность в центре внимания

Обратите внимание, что YOLOv9c достигает более высокой точности (53,0% mAP), чем самый большой YOLOX-x (51,1% mAP), при этом используя примерно на 75% меньше параметров. Это демонстрирует быстрое продвижение в области архитектурной эффективности за три года между этими выпусками.

Обучение и простота использования с Ultralytics

Критическим фактором, отличающим разработчиков, является экосистема, окружающая модель. YOLOv9 полностью интегрирована в Ultralytics , что обеспечивает значительное преимущество в удобстве использования.

Преимущество Ultralytics

ИспользованиеPython Ultralytics позволяет вам получить доступ к современным моделям с унифицированным синтаксисом. Вам не нужно клонировать сложные репозитории или вручную компилировать операторы C++, что часто является препятствием при реализации оригинальных исследований, таких как YOLOX.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

Эта интеграция обеспечивает:

  1. Оптимизированный рабочий процесс: плавное переключение между задачами обнаружения, сегментации и оценки позы.
  2. Эффективность памяти: Ultralytics конвейеры Ultralytics оптимизированы для потребительского оборудования и часто требуют меньше GPU , чем альтернативные решения на основе трансформеров или неоптимизированные исследовательские кодовые базы.
  3. Готовность к развертыванию: встроенные функции экспорта позволяют конвертировать обученные модели в ONNX, TensorRT, CoreML и TFLite одной команды.

Приложения в реальном мире

Выбор между этими моделями зависит от конкретных ограничений развертывания.

Высокоскоростная аналитика розничной торговли

Для розничных сред, требующих распознавания продуктов в режиме реального времени на периферийных устройствах, YOLOv9 часто является лучшим выбором. Его архитектура GELAN обеспечивает высокую пропускную способность на таких устройствах, как NVIDIA Orin Nano, что позволяет реализовывать такие функции, как автоматическая оплата покупок или анализ запасов на полках, без значительной задержки.

Развертывание устаревшего мобильного оборудования

В сценариях, где используется старое мобильное оборудование или специфические архитектуры NPU, которые предпочитают простые шаблоны свертки, YOLOX-Nano или YOLOX-Tiny могут по-прежнему быть предпочтительными. Их чистый дизайн без анкеров и сложных блоков агрегации иногда может быть проще квантовать и развертывать на очень ограниченных микроконтроллерах или устаревших Android .

Автономная робототехника

Для робототехнических приложений, где максимальная точность имеет первостепенное значение для предотвращения столкновений, превосходная сохранность характеристик YOLOv9e обеспечивает запас прочности, недоступный для более старых моделей. Фреймворк PGI гарантирует, что мелкие препятствия не будут упущены в процессе извлечения характеристик, что имеет решающее значение для навигации в загроможденных средах.

Будущее: вступает YOLO26

Несмотря на то, что YOLOv9 исключительную производительность, область искусственного интеллекта никогда не стоит на месте. Недавно выпущенная версия YOLO26 основана на этих принципах и обеспечивает оптимальный баланс скорости и точности.

YOLO26 представляет собой нативную сквозную конструкцию NMS, полностью устраняющую необходимость в подавлении не максимальных значений во время вывода. Это приводит к значительному упрощению конвейеров развертывания и увеличению скорости выполнения. Кроме того, благодаря удалению Distribution Focal Loss (DFL) и использованию нового оптимизатора MuSGD (гибрида SGD Muon), YOLO26 достигает до 43% более быстрого CPU по сравнению с предыдущими поколениями, что делает его идеальным выбором для современных вычислений на периферии.

Разработчикам, которые ищут лучшее в своем классе, мы рекомендуем оценить YOLO26 для вашего следующего проекта, чтобы воспользоваться этими передовыми достижениями в области компьютерного зрения.

Похожие модели для изучения

  • YOLO11: Мощный предшественник YOLO26, предлагающий отличную универсальность для различных задач машинного зрения.
  • RT-DETR: детектор на основе трансформатора, который также устраняет NMS, идеально подходит для сценариев, в которых высокая точность имеет приоритет над чистой скоростью вывода.
  • YOLOv10: первая YOLO , в которой была внедрена парадигма обучения NMS, служащая мостом к современной архитектуре YOLO26.

Комментарии