YOLOv5 против YOLOX: подробное техническое сравнение

Эволюция компьютерного зрения в реальном времени прошла множество этапов, где различные архитектуры расширяли границы скорости и точности. Двумя наиболее влиятельными моделями в этой области являются YOLOv5 и YOLOX. Хотя обе славятся высокой производительностью в обнаружении объектов, они используют принципиально разные архитектурные подходы.

Это руководство содержит глубокий технический анализ этих двух моделей, сравнивая их архитектуры, показатели производительности, методологии обучения и идеальные сценарии развертывания, чтобы помочь разработчикам и исследователям выбрать правильный инструмент для своих проектов в области компьютерного зрения.

Обзор моделей и архитектурные различия

Ultralytics YOLOv5

Представленная Ultralytics, модель YOLOv5 быстро стала отраслевым стандартом благодаря исключительному балансу производительности, простоте использования и эффективности памяти. Построенная на базе фреймворка PyTorch, YOLOv5 использует архитектуру на основе анкоров (anchor-based). Она опирается на предопределенные формы ограничивающих рамок (bounding box) для прогнозирования местоположения объектов, что делает ее высокоэффективной для стандартных задач обнаружения объектов.

Одной из главных сильных сторон YOLOv5 является ее хорошо поддерживаемая экосистема. Она может похвастаться обширной документацией, невероятно простым API на Python и встроенной интеграцией с платформой Ultralytics. Это позволяет разработчикам плавно переходить от разметки набора данных к обучению и экспорту в такие форматы, как ONNX и TensorRT.

Узнай больше о YOLOv5

Преимущества экосистемы

Модели Ultralytics YOLO обычно требуют значительно меньше памяти GPU во время обучения по сравнению со сложными альтернативами на основе трансформеров. Этот низкий объем используемой памяти делает YOLOv5 очень доступной для исследователей, работающих на потребительском оборудовании.

Megvii YOLOX

Разработанная исследователями из Megvii, модель YOLOX пошла другим путем, внедрив в семейство YOLO дизайн без анкоров (anchor-free). Устранив анкорные рамки, YOLOX упрощает голову детектора и значительно сокращает количество эвристических параметров, требующих ручной настройки во время обучения.

YOLOX также включает в себя разделенную «голову» (decoupled head), отделяющую задачи классификации и регрессии в разные ветви сети, и использует стратегию назначения меток SimOTA. Эти инновации преодолевают разрыв между академическими исследованиями и промышленным применением, делая YOLOX особенно эффективной в средах с объектами сильно различающегося масштаба.

Узнай больше о YOLOX

Производительность и метрики

При оценке моделей компьютерного зрения критически важен баланс между средней точностью (mAP) и скоростью вывода. Обе модели предлагают ряд размеров (от Nano до Extra-Large), чтобы соответствовать различным аппаратным ограничениям.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Хотя YOLOXx достигает немного более высокой пиковой точности (51.1 mAP), YOLOv5 обеспечивает гораздо более надежный и тщательно протестированный конвейер развертывания на аппаратном обеспечении CPU и GPU. Скорость работы YOLOv5 с TensorRT подчеркивает ее глубокую оптимизацию для периферийных вычислительных устройств, что делает ее весьма надежным выбором для видеоаналитики в реальном времени.

Методологии обучения и удобство использования

Опыт разработчика существенно различается между этими двумя архитектурами.

Подход YOLOX

Обучение YOLOX обычно требует клонирования исходного репозитория, управления специфическими зависимостями и выполнения сложных скриптов командной строки. Хотя она поддерживает расширенные функции, такие как обучение со смешанной точностью и настройку на нескольких узлах через MegEngine, порог вхождения может быть высоким для разработчиков, которым необходимо быстрое прототипирование.

Преимущество Ultralytics

Напротив, Ultralytics отдает приоритет исключительно оптимизированному пользовательскому опыту. С помощью пакета ultralytics на Python разработчики могут загружать, обучать и проверять модель с минимумом шаблонного кода. Ultralytics автоматически обрабатывает сложную аугментацию данных, эволюцию гиперпараметров и планирование скорости обучения.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

Более того, универсальность YOLOv5 выходит за рамки стандартного обнаружения объектов, предлагая надежную поддержку классификации изображений и сегментации экземпляров в рамках того же единого API.

Оптимизированное развертывание

Когда обучение завершено, экспорт модели YOLOv5 в CoreML, TFLite или OpenVINO так же прост, как запуск model.export(format="onnx"). Это исключает необходимость в сторонних скриптах конвертации, которые обычно требуются для исследовательских репозиториев.

Применение в реальных условиях

Выбор между этими моделями зависит от твоей среды развертывания и технических требований:

  • Розничная торговля и управление запасами: Для приложений, требующих распознавания товаров в реальном времени на периферийных устройствах, таких как NVIDIA Jetson, YOLOv5 подходит исключительно хорошо. Ее минимальный объем занимаемой памяти и высокая скорость вывода через TensorRT позволяют осуществлять отслеживание с нескольких камер без потери кадров.
  • Академические исследования и пользовательские архитектуры: YOLOX высоко ценится в исследовательском сообществе. Ее разделенная голова и характер отсутствия анкоров делают ее отличной базовой моделью для инженеров, стремящихся экспериментировать с новыми стратегиями назначения меток или работающих с наборами данных, где традиционные анкорные рамки не дают должной обобщающей способности.
  • Агротехнический ИИ: Для задач точного земледелия, таких как обнаружение фруктов или идентификация сорняков с помощью дронов, простота обучения и развертывания моделей YOLOv5 с использованием платформы Ultralytics позволяет отраслевым экспертам внедрять ИИ-решения без необходимости в глубоких знаниях в области инженерии машинного обучения.

Варианты использования и рекомендации

Выбор между YOLOv5 и YOLOX зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOv5

YOLOv5 — отличный выбор для:

  • Проверенных производственных систем: Существующих развертываний, где ценятся долгая история стабильности YOLOv5, обширная документация и огромная поддержка сообщества.
  • Обучения в условиях ограниченных ресурсов: Сред с ограниченными GPU-ресурсами, где эффективный конвейер обучения YOLOv5 и меньшие требования к памяти являются преимуществом.
  • Широкой поддержки форматов экспорта: Проектов, требующих развертывания во множестве форматов, включая ONNX, TensorRT, CoreML и TFLite.

Когда выбирать YOLOX

YOLOX рекомендуется для:

  • Исследований обнаружения без анкоров: Академических исследований, использующих чистую архитектуру YOLOX без анкоров в качестве базы для экспериментов с новыми головами обнаружения или функциями потерь.
  • Сверхлегких граничных устройств: Развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый размер варианта YOLOX-Nano (0.91 млн параметров).
  • Исследований назначения меток SimOTA: Исследовательских проектов, изучающих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Будущее Vision AI: Представляем YOLO26

Хотя и YOLOv5, и YOLOX закрепили свои места в истории компьютерного зрения, эта область быстро развивается. Разработчикам, начинающим новые проекты сегодня, Ultralytics настоятельно рекомендует изучить свою новейшую флагманскую модель, YOLO26.

Выпущенная в январе 2026 года, YOLO26 представляет собой огромный скачок вперед как в производительности, так и в удобстве использования. Она представляет инновационный дизайн end-to-end NMS-free, полностью исключающий постобработку не-максимального подавления (NMS). Это значительно снижает вариативность задержек и упрощает логику развертывания на маломощных устройствах.

Более того, YOLO26 использует новый оптимизатор MuSGD — гибрид SGD и Muon, вдохновленный инновациями в обучении LLM — для невероятно стабильной и быстрой сходимости. Благодаря удалению DFL (Distribution Focal Loss удален для упрощения экспорта и улучшения совместимости с периферийными/маломощными устройствами), YOLO26 достигает до 43% более быстрого вывода на CPU, укрепляя свою позицию как совершенная модель для современных периферийных вычислений, робототехники и приложений IoT. Дополнительно, ProgLoss + STAL обеспечивает улучшенные функции потерь с заметными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки. Пользователи, интересующиеся предыдущими поколениями, могут также обратить внимание на YOLO11, хотя YOLO26 является бесспорным выбором современного уровня техники (state-of-the-art).

Заключение

YOLOv5 и YOLOX предлагают невероятные возможности обнаружения объектов. YOLOX расширила архитектурные рамки, доказав, что дизайн без анкоров может конкурировать с традиционными методами и превосходить их в 2021 году. Однако YOLOv5 остается доминирующей силой благодаря своей непревзойденной простоте использования, обширной экосистеме и меньшим требованиям к памяти во время обучения.

Для подавляющего большинства коммерческих приложений экосистема Ultralytics обеспечивает самый быстрый путь от сырого набора данных до развернутой производственной модели. Независимо от того, используешь ли ты проверенную YOLOv5 или переходишь на ультрасовременную YOLO26, ты выигрываешь от использования фреймворка, разработанного для того, чтобы сделать ИИ в области компьютерного зрения доступным, эффективным и высокопроизводительным.

Комментарии