PP-YOLOE+ против YOLOX: навигация по эволюции детекторов объектов в реальном времени

Ландшафт computer vision претерпел значительные изменения благодаря стремительному развитию моделей обнаружения объектов. Среди заметных вех на этом пути — PP-YOLOE+ и YOLOX, две архитектуры, расширившие границы производительности и точности в реальном времени. Понимание их архитектурных нюансов, компромиссов производительности и идеальных сценариев развертывания имеет решающее значение для исследователей и разработчиков, создающих системы визуального распознавания следующего поколения.

История создания и детали моделей

Прежде чем погружаться в технические архитектуры, полезно соотнести истоки обеих моделей. Каждая из них была разработана для решения конкретных узких мест в object detection, под значительным влиянием организаций, стоящих за ними.

Подробности PP-YOLOE+:

Узнай больше о PP-YOLOE+

Подробности YOLOX:

Узнай больше о YOLOX

Архитектурные инновации

Основные различия между этими двумя детекторами заключаются в их подходе к извлечению признаков и предсказанию ограничивающих рамок.

YOLOX произвел фурор в 2021 году, успешно адаптировав семейство YOLO к anchor-free дизайну. Отказавшись от anchor boxes, YOLOX значительно сократил количество параметров проектирования и эвристической настройки, необходимой для пользовательских наборов данных. Кроме того, он представил разделенную голову (decoupled head), которая отделяет задачи классификации и локализации в разные нейронные пути. Это разделение устранило внутренний конфликт между классификацией объекта и регрессией его пространственных координат, что привело к более быстрой сходимости во время обучения.

PP-YOLOE+, разработанный Baidu, сильно оптимизирован для экосистемы PaddlePaddle. Он основывается на своем предшественнике, PP-YOLOv2, внедряя стратегию динамического назначения меток (TAL) и новую магистраль (backbone) под названием CSPRepResNet. Эта магистраль использует структурную репараметризацию, позволяя модели выигрывать от сложных многоветвевых архитектур во время обучения, при этом легко переходя в быструю однопутевую сеть для инференса.

Структурная репараметризация

Структурная репараметризация позволяет модели обучаться с использованием нескольких параллельных ветвей (улучшая градиентный поток), а затем математически сворачивать эти ветви в один сверточный слой для развертывания, увеличивая скорость инференса без ущерба для точности.

Сравнение производительности и метрик

При прямом сравнении этих моделей становится очевидно, что они служат немного разным целям в спектре производительности. PP-YOLOE+ обычно достигает более высокой абсолютной точности, в то время как YOLOX превосходит всех в предоставлении чрезвычайно легких вариантов, подходящих для сильно ограниченного оборудования.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Примечание: Наилучшие значения в каждом соответствующем сегменте столбцов выделены жирным шрифтом.

В то время как YOLOX предлагает варианты nano и tiny, которые почти не потребляют место на диске или память CUDA, PP-YOLOE+ невероятно хорошо масштабируется до серверного оборудования, что делает его надежным выбором для тяжелых промышленных приложений в экосистеме Baidu.

Применение в реальных условиях

Выбор между этими фреймворками часто сводится к требованиям интеграции и целевому оборудованию.

В чем превосходство YOLOX

Благодаря своей anchor-free природе и наличию вариантов для экстремальных периферийных устройств (edge), YOLOX популярен в robotics и развертывании на микроконтроллерах. Его простой конвейер постобработки позволяет легче переносить модель на кастомные форматы оборудования NPU, такие как TensorRT и NCNN.

В чем превосходство PP-YOLOE+

Для организаций, глубоко интегрированных в азиатские производственные центры, использующие технологический стек Baidu, PP-YOLOE+ предоставляет предварительно оптимизированный путь к развертыванию. Он отлично подходит для сценариев quality inspection с высокой точностью, выполняемых на мощных серверных стойках, где строгие ограничения реального времени допускают использование немного более тяжелых весов моделей.

Варианты использования и рекомендации

Выбор между PP-YOLOE+ и YOLOX зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать PP-YOLOE+

PP-YOLOE+ — отличный выбор для:

  • Интеграция с экосистемой PaddlePaddle: организации с существующей инфраструктурой, построенной на фреймворке и инструментах Baidu PaddlePaddle.
  • Развертывание на Paddle Lite Edge: развертывание на оборудовании с высокооптимизированными ядрами вывода специально для двигателя Paddle Lite или вывода Paddle.
  • Высокоточное обнаружение на стороне сервера: сценарии, отдающие приоритет максимальной точности обнаружения на мощных серверных GPU, где зависимость от фреймворка не является проблемой.

Когда выбирать YOLOX

YOLOX рекомендуется для:

  • Исследований обнаружения без анкоров: Академических исследований, использующих чистую архитектуру YOLOX без анкоров в качестве базы для экспериментов с новыми головами обнаружения или функциями потерь.
  • Сверхлегких граничных устройств: Развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый размер варианта YOLOX-Nano (0.91 млн параметров).
  • Исследований назначения меток SimOTA: Исследовательских проектов, изучающих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: знакомство с YOLO26

Хотя PP-YOLOE+ и YOLOX представляют собой отличные исследовательские вехи, современный ландшафт развертывания требует более целостного, дружелюбного к разработчикам опыта с превосходной эффективностью. Именно здесь Ultralytics YOLO26 полностью переопределяет стандарт современного визуального ИИ.

Для команд, стремящихся перейти от изолированных исследовательских репозиториев к готовым к эксплуатации системам, Ultralytics предлагает надежную и хорошо поддерживаемую экосистему. Обучение модели больше не требует настройки сложных сред; оно так же просто, как доступ к унифицированному Python API.

Ключевые преимущества Ultralytics YOLO26 включают:

  • End-to-End дизайн без NMS: В отличие от PP-YOLOE+ и YOLOX, которые требуют подавления немаксимумов (NMS) для фильтрации избыточных ограничивающих рамок, YOLO26 является нативно end-to-end решением. Это устраняет узкие места задержки и значительно упрощает логику развертывания.
  • До 43% быстрее инференс на CPU: Стратегически удалив Distribution Focal Loss (DFL), YOLO26 достигает непревзойденной скорости инференса на оборудовании CPU, что делает его значительно более совершенным для edge computing и устройств с низким энергопотреблением.
  • Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибридный оптимизатор привносит стабильность обучения LLM в компьютерное зрение, обеспечивая гораздо более быструю сходимость и минимизируя требования к памяти на этапах обучения.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критической функцией для drone operations и детальных аэрофотоснимков.
  • Универсальность: В то время как PP-YOLOE+ и YOLOX ориентированы исключительно на детектирование, YOLO26 плавно обрабатывает instance segmentation, pose estimation и Oriented Bounding Boxes (OBB) с использованием одного и того же интуитивно понятного синтаксиса.

Узнай больше о YOLO26

Упрощенное обучение с Ultralytics

Эффективность памяти и скорость обучения моделей Ultralytics не имеют аналогов, полностью превосходя альтернативы на основе Transformer, требующие огромных накладных расходов памяти CUDA. Ты можешь использовать мощь YOLO26 всего в нескольких строках кода:

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
Исследуй платформу Ultralytics

Для команд, ищущих решение no-code, Ultralytics Platform предоставляет обучение в облаке, интегрированную разметку наборов данных и развертывание в один клик для всех твоих моделей YOLO.

Заключение

И PP-YOLOE+, и YOLOX заняли свое место в истории компьютерного зрения, предлагая высокую точность и легкие anchor-free дизайны соответственно. Однако для организаций, создающих будущее AI in agriculture, умных городов и ритейла, непрерывная поддержка, простота использования и нативная архитектура без NMS делают Ultralytics YOLO26 бесспорным выбором.

Если ты изучаешь альтернативные архитектуры для конкретных бенчмарков, тебе также может быть полезно сравнить более старую YOLO11 или варианты на основе Transformer, такие как RT-DETR, через исчерпывающую документацию Ultralytics. Переходя на унифицированную экосистему Ultralytics, разработчики экономят бесценное время и ресурсы, достигая при этом результатов мирового уровня при любом развертывании — на периферии или в облаке.

Комментарии