Link to this sectionYOLOX против YOLOv9#
Ландшафт компьютерного зрения формируется постоянными архитектурными прорывами, которые балансируют между вычислительной эффективностью и высокой точностью. При оценке моделей обнаружения объектов в реальном времени сравнение YOLOX от Megvii и YOLOv9 от Academia Sinica подчеркивает две различные философии в разработке глубокого обучения. В то время как первая стала пионером упрощенной парадигмы без анкоров, вторая представила передовые методы маршрутизации градиентов для максимизации удержания информации.
В этом техническом руководстве рассматриваются их архитектурные нюансы, показатели производительности и идеальные варианты использования, а также демонстрируется, как современные решения, такие как Ultralytics Platform и недавно выпущенная модель YOLO26, обеспечивают превосходные альтернативы для развертывания в производственных средах.
Link to this sectionYOLOX: Пионер парадигмы без анкоров (anchor-free)#
Выпущенный в середине 2021 года, YOLOX стал важным шагом вперед в преодолении разрыва между академическими исследованиями и промышленным применением. Устранив необходимость в предопределенных анкорах (anchor boxes), он значительно упростил эвристическую настройку, требуемую для пользовательских наборов данных.
- Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
- Организация: Megvii
- Дата выпуска: 18 июля 2021 г.
- Ссылка: Статья на Arxiv
- Исходный код: Репозиторий YOLOX на GitHub
- Документация: Официальная документация YOLOX
Link to this sectionАрхитектурные инновации#
YOLOX внес несколько ключевых изменений в стандартный конвейер обнаружения. Он реализовал разделенную «голову» (decoupled head), разделяющую задачи классификации и регрессии, что значительно уменьшило конфликт между идентификацией объекта и определением его границ. Кроме того, YOLOX принял SimOTA, передовую стратегию назначения меток, которая динамически распределяет положительные образцы во время обучения, что привело к более быстрой сходимости и лучшей общей производительности на стандартных наборах данных для тестирования.
Link to this sectionПреимущества и ограничения#
Основная сила YOLOX заключается в его упрощенном дизайне. Механизм без анкоров означает, что ты тратишь меньше времени на запуск алгоритмов кластеризации для поиска оптимальных размеров анкоров для своих конкретных данных. Однако, будучи более старой архитектурой, изначально созданной без учета недавних достижений в области self-attention или маршрутизации градиентов, она с трудом достигает эффективности параметров более новых сетей. У нее также отсутствует нативная поддержка расширенных задач, таких как сегментация экземпляров и оценка позы в рамках единого API.
Link to this sectionYOLOv9: Максимизация градиентной информации#
Перенесемся в 2024 год: YOLOv9 представил глубоко теоретический подход к решению проблемы «информационного узкого места», присущей глубоким сверточным нейронным сетям.
- Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
- Организация: Institute of Information Science, Academia Sinica
- Дата выпуска: 21 февраля 2024 г.
- Ссылка: Статья на Arxiv
- Исходный код: Репозиторий YOLOv9 на GitHub
- Документация: Документация Ultralytics YOLOv9
Link to this sectionАрхитектурные инновации#
Определяющей особенностью YOLOv9 является программируемая градиентная информация (PGI), которая гарантирует, что важные семантические данные не теряются при прохождении через множество слоев сети. В сочетании с сетью GELAN (Generalized Efficient Layer Aggregation Network) YOLOv9 достигает исключительного соотношения параметров к точности. Это позволяет модели сохранять точные градиенты для обновления весов, что делает ее высокоэффективной даже в легковесных вариантах.
Link to this sectionПреимущества и ограничения#
YOLOv9 превосходно справляется с расширением теоретических пределов точности модели. Она выдает фантастические показатели mAP на COCO, что делает ее фаворитом для исследователей. Однако, несмотря на эффективность, YOLOv9 по-прежнему полагается на традиционное не-максимальное подавление (NMS) для пост-обработки, что вызывает скачки задержки во время инференса. Для инженеров, сосредоточенных на развертывании ИИ на периферийных устройствах, управление логикой NMS добавляет ненужную сложность в конвейер развертывания.
Традиционные модели, такие как YOLOX и YOLOv9, требуют не-максимального подавления (NMS) для фильтрации дублирующихся ограничивающих рамок (BBox). Этот шаг по своей сути является последовательным и часто создает узкое место на CPU, что подчеркивает необходимость в нативных сквозных (end-to-end) архитектурах, используемых в последних моделях Ultralytics.
Link to this sectionСравнение производительности#
При сравнении необработанных вычислительных метрик этих архитектур становится ясно, что YOLOv9 предлагает более современную базу, в то время как YOLOX остается легковесным вариантом для устаревших систем. Ниже представлен подробный разбор их стандартных моделей.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Хотя YOLOv9 демонстрирует превосходную точность при сопоставимых количествах параметров, разработчикам, ищущим идеальный баланс скорости, точности и простоты использования, стоит рассмотреть последние достижения от Ultralytics.
Link to this sectionПреимущество Ultralytics: Встречай YOLO26#
Хотя оценка исторических моделей, таких как YOLOX и YOLOv9, дает полезный контекст, текущее состояние технологий определяется Ultralytics YOLO26. Выпущенная в начале 2026 года, YOLO26 фундаментально перестраивает конвейер обнаружения для современных корпоративных сред.
Link to this sectionБеспрецедентные архитектурные инновации#
YOLO26 полностью решает проблему узких мест пост-обработки своих предшественников благодаря нативному сквозному (end-to-end) дизайну без NMS, обеспечивая более простое развертывание на любом оборудовании. Более того, удалив Distribution Focal Loss (DFL) и интегрировав новый оптимизатор MuSGD — гибрид стохастического градиентного спуска (SGD) и Muon — YOLO26 достигает беспрецедентной стабильности обучения.
Для разработчиков, развертывающих решения на ограниченных средах, таких как Raspberry Pi, YOLO26 обеспечивает до 43% более быстрый CPU инференс. Она также представляет функции потерь ProgLoss + STAL, что приводит к существенным улучшениям в распознавании мелких объектов, что критически важно для аэрофотосъемки и аналитики с дронов.
Link to this sectionОптимизированная экосистема разработки#
В отличие от отдельных исследовательских репозиториев, экосистема Ultralytics предоставляет непревзойденный опыт разработчика. Используя Python API от Ultralytics, инженеры могут значительно сократить количество шаблонного кода. Кроме того, требования к памяти остаются максимально оптимизированными, а значит, ты можешь обучать надежные модели, используя меньше видеопамяти GPU по сравнению с архитектурами, сильно опирающимися на механизмы внимания (attention).
from ultralytics import YOLO
# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Easily export to optimized deployment formats
model.export(format="engine", quantize=16) # Exports to TensorRTПомимо обнаружения, YOLO26 плавно поддерживает множество задач в рамках одного и того же фреймворка. Нужны ли тебе точные ориентированные ограничивающие рамки (OBB) для спутниковых снимков или тонкие попиксельные маски для приложений медицинской визуализации — рабочий процесс остается идентичным. Для команд, вложившихся в рабочие процессы предыдущего поколения, также доступна и полностью поддерживается Ultralytics YOLO11.
Link to this sectionИдеальные варианты использования и стратегии развертывания#
Выбор правильной архитектуры полностью зависит от твоей целевой среды развертывания и требований проекта.
Link to this sectionПериферийные вычисления и робототехника#
Для устройств с низким энергопотреблением опора на модели, требующие тяжелой пост-обработки, может снизить производительность. Хотя YOLOX-Nano невероятно компактна, ее точности часто недостаточно для критически важных задач безопасности. YOLO26 здесь — однозначный выбор; отсутствие DFL и NMS позволяет ей плавно работать на необработанных потоках CPU, что делает ее идеальной для автономной робототехники или умного управления парковками.
Link to this sectionАкадемическое тестирование#
Если единственная цель — анализ градиентного потока и изучение узких мест глубоких сетей, YOLOv9 остается отличным объектом для исследования. Ее фреймворк PGI дает захватывающее понимание того, как признаки сохраняются в слоях глубоких нейронных сетей, что делает ее ценным инструментом для университетских исследователей, изучающих теорию сверток.
Link to this sectionКорпоративная видеоаналитика#
Для крупномасштабных задач обработки видео, таких как системы охранной сигнализации или мониторинг дорожного движения, скорость и универсальные возможности экспорта имеют первостепенное значение. Нативные инструменты экспорта, предоставляемые фреймворком Ultralytics, позволяют командам компилировать YOLO26 напрямую в TensorRT или OpenVINO одной командой, что радикально сокращает время выхода на рынок.
Используя все возможности экосистемы Ultralytics, команды разработчиков ИИ могут обойти сложности исходных исследовательских кодовых баз и сосредоточиться непосредственно на создании масштабируемых ИИ-приложений для реальных задач.