YOLOX против YOLOv9: Сравнение безанкерных конструкций с программируемыми градиентами
Ландшафт компьютерного зрения сформирован непрерывными архитектурными прорывами, которые балансируют вычислительную эффективность с высокой точностью. При оценке моделей обнаружения объектов в реальном времени сравнение YOLOX от Megvii и YOLOv9 от Academia Sinica подчеркивает две различные философии в разработке глубокого обучения. В то время как одна модель стала пионером упрощенной безанкорной парадигмы, другая представила передовые методы маршрутизации градиентов для максимизации сохранения информации.
Это техническое руководство исследует их архитектурные нюансы, эталонные показатели производительности и идеальные сценарии использования, а также демонстрирует, как современные решения, такие как платформа Ultralytics и недавно выпущенная модель YOLO26, предоставляют превосходные альтернативы для развертывания в производственной среде.
YOLOX: Пионер безаякорной парадигмы
Выпущенный в середине 2021 года, YOLOX стал значительным шагом вперед в преодолении разрыва между академическими исследованиями и промышленным применением. Устранив необходимость в предопределенных анкерных боксах, он значительно упростил эвристическую настройку, требуемую для пользовательских наборов данных.
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация:Megvii
- Дата выпуска: 18 июля 2021
- Ссылка:Статья на Arxiv
- Исходный код:Репозиторий YOLOX на GitHub
- Документация:Официальная документация YOLOX
Архитектурные инновации
YOLOX внес несколько ключевых изменений в стандартный конвейер обнаружения. Он реализовал разделенную головку, разделяющую задачи классификации и регрессии, что значительно уменьшило конфликт между идентификацией объекта и определением его границ. Кроме того, YOLOX принял SimOTA, передовую стратегию назначения меток, которая динамически распределяла положительные образцы во время обучения, что привело к более быстрой сходимости и лучшей общей производительности на стандартных бенчмарк-наборах данных.
Сильные стороны и ограничения
Основная сила YOLOX заключается в его упрощенном дизайне. Механизм без якорей означает, что разработчики тратят меньше времени на запуск алгоритмов кластеризации для поиска оптимальных размеров якорей для своих конкретных данных. Однако, будучи более старой архитектурой, изначально созданной без недавних достижений в области самовнимания или градиентной трассировки, она с трудом соответствует эффективности параметров более новых сетей. Ей также не хватает нативной поддержки для таких продвинутых задач, как сегментация экземпляров и оценка позы в рамках унифицированного API.
YOLOv9: Максимизация градиентной информации
Перенесемся в 2024 год: YOLOv9 представил высокотеоретический подход к решению проблемы информационного узкого места, присущей глубоким сверточным нейронным сетям.
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация:Институт информатики, Academia Sinica
- Дата выпуска: 21 февраля 2024 г.
- Ссылка:Статья на Arxiv
- Исходный код:Репозиторий YOLOv9 на GitHub
- Документация:Документация Ultralytics YOLOv9
Архитектурные инновации
Определяющей особенностью YOLOv9 является программируемая градиентная информация (PGI), которая гарантирует, что критически важные семантические данные не теряются при прохождении через многочисленные слои сети. В сочетании с обобщенной эффективной сетью агрегации слоев (GELAN) YOLOv9 достигает исключительного соотношения параметров к точности. Это позволяет модели сохранять точные градиенты для обновления весов, что делает ее высокоэффективной даже в ее легковесных вариантах.
Сильные стороны и ограничения
YOLOv9 превосходит ожидания, расширяя теоретические пределы точности модели. Он демонстрирует фантастические показатели mAP на COCO, что делает его фаворитом для исследователей. Однако, несмотря на свою эффективность, YOLOv9 по-прежнему использует традиционное подавление немаксимумов (NMS) для постобработки, что приводит к скачкам задержки во время инференса. Для инженеров, сосредоточенных на развертывании ИИ на периферийных устройствах, управление логикой NMS добавляет ненужную сложность в конвейер развертывания.
Узкие места постобработки
Традиционные модели, такие как YOLOX и YOLOv9, требуют Non-Maximum Suppression (NMS) для фильтрации дублирующихся ограничивающих рамок. Этот шаг по своей природе последователен и часто создает узкое место на CPU, что подчеркивает необходимость в нативных сквозных архитектурах, используемых в последних моделях Ultralytics.
Сравнение производительности
При сравнении необработанных вычислительных метрик этих архитектур очевидно, что YOLOv9 предлагает более современную базовую линию, в то время как YOLOX остается легковесным вариантом для устаревших конфигураций. Ниже представлен подробный анализ их стандартных моделей.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Хотя YOLOv9 демонстрирует превосходную точность при сопоставимом количестве параметров, разработчикам, ищущим оптимальный баланс скорости, точности и простоты использования, следует рассмотреть последние достижения Ultralytics.
Преимущества Ultralytics: Знакомство с YOLO26
Хотя оценка исторических моделей, таких как YOLOX и YOLOv9, предоставляет ценный контекст, текущее состояние дел определяется Ultralytics YOLO26. Выпущенный в начале 2026 года, YOLO26 фундаментально перестраивает конвейер обнаружения для современных корпоративных сред.
Беспрецедентные архитектурные инновации
YOLO26 полностью устраняет узкие места постобработки своих предшественников благодаря нативной сквозной архитектуре без NMS, обеспечивая более простое развертывание на любом оборудовании. Кроме того, за счет удаления Distribution Focal Loss (DFL) и интеграции нового оптимизатора MuSGD — гибрида стохастического градиентного спуска (SGD) и Muon — YOLO26 достигает беспрецедентной стабильности обучения.
Для разработчиков, развертывающих решения в ограниченных средах, таких как Raspberry Pi, YOLO26 обеспечивает до 43% более быструю инференцию на CPU. Он также представляет функции потерь ProgLoss + STAL, что приводит к значительному улучшению распознавания мелких объектов, что критически важно для аэрофотосъемки и аналитики с помощью дронов.
Оптимизированная экосистема разработки
В отличие от отдельных исследовательских репозиториев, экосистема Ultralytics обеспечивает беспрецедентный опыт для разработчиков. Используя Ultralytics Python API, инженеры могут значительно сократить объем шаблонного кода. Кроме того, требования к памяти остаются высокооптимизированными, что означает, что вы можете обучать надежные модели, используя меньше видеопамяти GPU по сравнению с архитектурами, сильно основанными на механизмах внимания.
from ultralytics import YOLO
# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Easily export to optimized deployment formats
model.export(format="engine", half=True) # Exports to TensorRT
Помимо детекции, YOLO26 бесшовно поддерживает множество задач в рамках одной и той же архитектуры. Будь то точные ориентированные ограничивающие рамки (OBB) для спутниковых снимков или детализированные пиксельные маски для приложений медицинской визуализации, рабочий процесс остается идентичным. Для команд, использующих рабочие процессы предыдущего поколения, Ultralytics YOLO11 также доступен и полностью поддерживается.
Идеальные варианты использования и стратегии развертывания
Выбор правильной архитектуры полностью зависит от вашей целевой среды развертывания и требований проекта.
Граничные вычисления и робототехника
Для маломощных устройств использование моделей, требующих интенсивной постобработки, может значительно снизить производительность. Хотя YOLOX-Nano невероятно мал, его точность часто недостаточна для критически важных задач безопасности. YOLO26 является здесь окончательным выбором; отсутствие DFL и NMS позволяет ему бесперебойно работать на чистых потоках CPU, что делает его идеальным для автономной робототехники или управления умными парковками.
Академическое бенчмаркинг
Если единственная цель — анализ потока градиентов и изучение узких мест глубоких сетей, YOLOv9 остаётся отличным объектом для изучения. Его фреймворк PGI предоставляет увлекательные сведения о том, как признаки сохраняются на разных слоях глубоких нейронных сетей, что делает его ценным инструментом для университетских исследователей, изучающих теорию свёрточных сетей.
Корпоративная видеоаналитика
Для крупномасштабных задач обработки видео, таких как системы охранной сигнализации или мониторинг трафика, скорость и универсальные возможности экспорта имеют первостепенное значение. Встроенные инструменты экспорта, предоставляемые фреймворком Ultralytics, позволяют командам компилировать YOLO26 непосредственно в TensorRT или OpenVINO одной командой, значительно сокращая время выхода на рынок.
Используя комплексные возможности экосистемы Ultralytics, команды машинного обучения могут обойти сложности необработанных исследовательских кодовых баз и сосредоточиться непосредственно на создании масштабируемых, реальных приложений ИИ.