YOLOX против YOLOv9: Сравнение дизайнов без анкоров и программируемых градиентов

Ландшафт компьютерного зрения формируется постоянными архитектурными прорывами, которые балансируют между вычислительной эффективностью и высокой точностью. При оценке моделей обнаружения объектов в реальном времени сравнение YOLOX от Megvii и YOLOv9 от Academia Sinica подчеркивает две различные философии в развитии глубокого обучения. В то время как одна модель положила начало упрощенной парадигме без анкоров, другая представила продвинутые методы маршрутизации градиентов для максимального сохранения информации.

В этом техническом руководстве исследуются их архитектурные нюансы, показатели производительности и идеальные сценарии использования, а также демонстрируется, как современные решения, такие как Ultralytics Platform и недавно выпущенная модель YOLO26, предоставляют превосходные альтернативы для развертывания в промышленной среде.

YOLOX: Пионер парадигмы без анкоров

Выпущенный в середине 2021 года, YOLOX стал важным шагом вперед в сокращении разрыва между академическими исследованиями и промышленным применением. Устранив необходимость в предопределенных анкорных боксах, он значительно упростил эвристическую настройку, требуемую для пользовательских наборов данных.

  • Авторы: Чжэн Гэ, Сун Тао Лю, Фэн Ван, Земин Ли и Цзянь Сунь
  • Организация: Megvii
  • Дата выпуска: 18 июля 2021 г.
  • Ссылка: Arxiv Paper
  • Исходный код: YOLOX GitHub Repository
  • Документация: YOLOX Official Docs

Архитектурные инновации

YOLOX внес несколько ключевых изменений в стандартный конвейер обнаружения. Он реализовал разделенную «голову» (decoupled head), разделив задачи классификации и регрессии, что значительно уменьшило конфликт между идентификацией объекта и определением его границ. Кроме того, YOLOX принял SimOTA, продвинутую стратегию назначения меток, которая динамически распределяла положительные образцы во время обучения, что привело к более быстрой сходимости и лучшей общей производительности на стандартных benchmark datasets.

Сильные и слабые стороны

Основная сила YOLOX заключается в его упрощенном дизайне. Механизм без анкоров означает, что разработчики тратят меньше времени на запуск алгоритмов кластеризации для поиска оптимальных размеров анкоров для своих конкретных данных. Однако, будучи старой архитектурой, изначально созданной без недавних достижений в области механизмов внимания (self-attention) или градиентной маршрутизации, она с трудом достигает эффективности параметров новых сетей. В ней также отсутствует встроенная поддержка продвинутых задач, таких как instance segmentation и pose estimation в рамках единого API.

Узнай больше о YOLOX

YOLOv9: Максимизация градиентной информации

Переходя к 2024 году, YOLOv9 представил высокотеоретический подход к решению проблемы информационного узкого места, присущей глубоким сверточным нейронным сетям.

Архитектурные инновации

Определяющей характеристикой YOLOv9 является Programmable Gradient Information (PGI), которая гарантирует, что важные семантические данные не теряются при прохождении через множество слоев сети. В сочетании с Generalized Efficient Layer Aggregation Network (GELAN), YOLOv9 достигает исключительного соотношения параметров к точности. Это позволяет модели сохранять точные градиенты для обновления весов, что делает ее высокоэффективной даже в легковесных вариантах.

Сильные и слабые стороны

YOLOv9 превосходно справляется с расширением теоретических пределов model accuracy. Она показывает фантастические результаты mAP на COCO, что делает ее фаворитом среди исследователей. Однако, несмотря на эффективность, YOLOv9 по-прежнему полагается на традиционный Non-Maximum Suppression (NMS) для постобработки, что вызывает скачки задержки во время инференса. Для инженеров, сосредоточенных на развертывании ИИ на edge devices, управление логикой NMS добавляет ненужную сложность в конвейер развертывания.

Узнай больше о YOLOv9

Узкие места постобработки

Традиционные модели, такие как YOLOX и YOLOv9, требуют Non-Maximum Suppression (NMS) для фильтрации дублирующихся ограничивающих рамок. Этот шаг является по своей сути последовательным и часто создает «узкое место» на CPU, что подчеркивает необходимость в нативных сквозных (end-to-end) архитектурах, представленных в новейших моделях Ultralytics.

Сравнение производительности

При сравнении необработанных вычислительных метрик этих архитектур становится ясно, что YOLOv9 предлагает более современную базовую линию, в то время как YOLOX остается легковесным вариантом для устаревших настроек. Ниже приведен подробный разбор их стандартных моделей.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

В то время как YOLOv9 демонстрирует превосходную точность при сопоставимых количествах параметров, разработчикам, ищущим идеальный баланс скорости, точности и простоты использования, стоит рассмотреть последние достижения от Ultralytics.

Преимущество Ultralytics: Встречайте YOLO26

Хотя оценка исторических моделей, таких как YOLOX и YOLOv9, дает ценный контекст, современный уровень развития определяется Ultralytics YOLO26. Выпущенная в начале 2026 года, YOLO26 фундаментально перестраивает конвейер обнаружения для современных корпоративных сред.

Непревзойденные архитектурные инновации

YOLO26 полностью решает проблему «узких мест» постобработки своих предшественников с помощью нативного сквозного дизайна без NMS, обеспечивая более простое развертывание на любом оборудовании. Кроме того, за счет удаления Distribution Focal Loss (DFL) и интеграции нового MuSGD Optimizer — гибрида Stochastic Gradient Descent и Muon — YOLO26 достигает беспрецедентной стабильности обучения.

Для разработчиков, осуществляющих развертывание в ограниченных средах, таких как Raspberry Pi, YOLO26 обеспечивает до 43% более быстрый инференс на CPU. Она также внедряет функции потерь ProgLoss + STAL, что приводит к значительным улучшениям в распознавании мелких объектов, что критически важно для aerial imagery и аналитики дронов.

Оптимизированная экосистема разработки

В отличие от автономных исследовательских репозиториев, экосистема Ultralytics обеспечивает непревзойденный опыт разработки. Используя Ultralytics Python API, инженеры могут радикально сократить шаблонный код. Более того, требования к памяти остаются максимально оптимизированными, что означает, что ты можешь обучать надежные модели, используя меньше видеопамяти GPU по сравнению с архитектурами, сильно зависящими от механизмов внимания.

from ultralytics import YOLO

# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to optimized deployment formats
model.export(format="engine", half=True)  # Exports to TensorRT

Помимо обнаружения, YOLO26 бесшовно поддерживает множество задач в рамках одного и того же фреймворка. Нужны ли тебе точные Oriented Bounding Boxes (OBB) для спутниковых снимков или детальные попиксельные маски для medical imaging applications, рабочий процесс остается идентичным. Для команд, вложившихся в рабочие процессы предыдущего поколения, также доступна и полностью поддерживается Ultralytics YOLO11.

Идеальные сценарии использования и стратегии развертывания

Выбор правильной архитектуры полностью зависит от твоей целевой среды развертывания и требований проекта.

Периферийные вычисления и робототехника

Для устройств с низким энергопотреблением опора на модели, требующие тяжелой постобработки, может подорвать производительность. Хотя YOLOX-Nano невероятно мал, его точность часто недостаточна для критически важных задач безопасности. YOLO26 здесь является окончательным выбором; отсутствие DFL и NMS позволяет ей плавно работать на «сырых» потоках CPU, что делает ее идеальной для автономной робототехники или smart parking management.

Академическое бенчмаркирование

Если единственной целью является анализ потока градиентов и изучение узких мест глубоких сетей, YOLOv9 остается отличным объектом для изучения. Ее фреймворк PGI предоставляет захватывающие идеи о том, как признаки сохраняются в слоях глубоких нейронных сетей, что делает ее ценным инструментом для университетских исследователей, изучающих сверточную теорию.

Корпоративная видеоаналитика

Для крупномасштабных задач обработки видео, таких как security alarm systems или мониторинг трафика, скорость и универсальные возможности экспорта имеют первостепенное значение. Нативные инструменты экспорта, предоставляемые фреймворком Ultralytics, позволяют командам компилировать YOLO26 напрямую в TensorRT или OpenVINO одной командой, что значительно сокращает время выхода на рынок.

Используя все возможности экосистемы Ultralytics, команды разработчиков машинного обучения могут обойти сложности «сырых» исследовательских кодовых баз и сосредоточиться непосредственно на создании масштабируемых ИИ-приложений для реального мира.

Комментарии