Перейти к содержанию

PP-YOLOE+ против YOLOX: Обзор эволюции детекторов объектов реального времени

Ландшафт компьютерного зрения был значительно сформирован быстрой эволюцией моделей обнаружения объектов. Среди заметных вех на этом пути — PP-YOLOE+ и YOLOX, две архитектуры, которые расширили границы производительности и точности в реальном времени. Понимание их архитектурных нюансов, компромиссов в производительности и идеальных сценариев развертывания имеет решающее значение для исследователей и разработчиков, создающих следующее поколение систем визуального распознавания.

Происхождение модели и подробности

Прежде чем углубляться в технические архитектуры, полезно рассмотреть истоки обеих моделей в контексте. Каждая из них была разработана для устранения конкретных узких мест в обнаружении объектов, находясь под сильным влиянием поддерживающих их организаций.

Детали PP-YOLOE+:

Узнайте больше о PP-YOLOE+

YOLOX Детали:

Узнайте больше о YOLOX

Архитектурные инновации

Ключевые различия между этими двумя детекторами заключаются в их подходе к извлечению признаков и предсказанию ограничивающих рамок.

YOLOX произвел фурор в 2021 году, успешно адаптировав семейство YOLO к безъякорной архитектуре. Удалив якорные боксы, YOLOX значительно сократил количество проектных параметров и эвристической настройки, необходимых для пользовательских наборов данных. Кроме того, он представил разделенную голову, которая разделяет задачи classify и локализации на отдельные нейронные пути. Это разделение разрешило внутренний конфликт между classify объекта и регрессией его пространственных координат, что привело к более быстрой сходимости во время обучения.

PP-YOLOE+, разработанный Baidu, сильно оптимизирован для экосистемы PaddlePaddle. Он основан на своем предшественнике, PP-YOLOv2, путем введения динамической стратегии присвоения меток (TAL) и нового backbone под названием CSPRepResNet. Этот backbone использует структурную репараметризацию, позволяя модели извлекать выгоду из сложных многоветвевых архитектур во время обучения, бесшовно сворачиваясь в быструю однопутную сеть для инференса.

Структурная репараметризация

Структурная репараметризация позволяет модели обучаться с несколькими параллельными ветвями (улучшая поток градиента), а затем математически сворачивать эти ветви в единый сверточный слой для развертывания, повышая скорость инференса без ущерба для точности.

Сравнение производительности и метрик

При прямом сравнении этих моделей становится очевидным, что они обслуживают несколько разные концы спектра производительности. PP-YOLOE+ обычно достигает более высокой абсолютной точности, в то время как YOLOX превосходит в предоставлении чрезвычайно легковесных вариантов, подходящих для аппаратного обеспечения с жесткими ограничениями.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Примечание: Наилучшие значения производительности в каждом соответствующем сегменте столбца выделены жирным шрифтом.

Хотя YOLOX предлагает нано- и мини-варианты, которые практически не потребляют дискового пространства или памяти CUDA, PP-YOLOE+ невероятно хорошо масштабируется на серверном оборудовании, что делает его надежным выбором для тяжелых промышленных приложений в экосистеме Baidu.

Приложения в реальном мире

Выбор между этими фреймворками часто сводится к требованиям к интеграции и целевому оборудованию.

В чем YOLOX превосходит

Благодаря своей безаякорной природе и наличию вариантов для экстремальных периферийных устройств, YOLOX популярен в робототехнике и при развертывании на микроконтроллерах. Его простой конвейер постобработки позволяет легко портировать его на специализированные аппаратные форматы NPU, такие как TensorRT и NCNN.

В чем превосходит PP-YOLOE+

Для организаций, глубоко интегрированных в азиатские производственные центры, использующие технологический стек Baidu, PP-YOLOE+ предоставляет предварительно оптимизированный путь к развертыванию. Он превосходно проявляет себя в сценариях контроля качества с высокой точностью, работающих на мощных серверных стойках, где строгие ограничения реального времени допускают использование немного более тяжелых весов модели.

Сценарии использования и рекомендации

Выбор между PP-YOLOE+ и YOLOX зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда следует выбирать PP-YOLOE+

PP-YOLOE+ является отличным выбором для:

  • Интеграция с экосистемой PaddlePaddle: Для организаций с существующей инфраструктурой, построенной на фреймворке и инструментарии Baidu PaddlePaddle.
  • Развертывание Paddle Lite на периферийных устройствах: Развертывание на аппаратном обеспечении с высокооптимизированными ядрами вывода специально для механизма вывода Paddle Lite или Paddle.
  • Высокоточное серверное обнаружение: Сценарии, где приоритетом является максимальная точность обнаружения на мощных GPU-серверах, и зависимость от фреймворка не является проблемой.

Когда следует выбирать YOLOX

YOLOX рекомендуется для:

  • Исследования безъякорного detect: Академические исследования, использующие чистую, безъякорную архитектуру YOLOX в качестве основы для экспериментов с новыми головами detect или функциями потерь.
  • Сверхлегкие граничные устройства: Развертывание на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый объем (0,91 млн параметров) варианта YOLOX-Nano.
  • Исследования по назначению меток SimOTA: Исследовательские проекты, изучающие стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Преимущество Ultralytics: Представляем YOLO26

Хотя PP-YOLOE+ и YOLOX представляют собой отличные исследовательские вехи, современный ландшафт развертывания требует более связного, удобного для разработчиков опыта с превосходной эффективностью. Именно здесь Ultralytics YOLO26 полностью переопределяет стандарт для современного визуального ИИ.

Для команд, стремящихся перейти от изолированных исследовательских репозиториев к готовым к производству системам, Ultralytics предлагает надежную, хорошо поддерживаемую экосистему. Обучение модели больше не требует настройки сложных сред; это так же просто, как доступ к унифицированному Python API.

Ключевые преимущества Ultralytics YOLO26 включают:

  • Сквозная архитектура без NMS: В отличие от PP-YOLOE+ и YOLOX, которые требуют подавления немаксимумов (NMS) для фильтрации избыточных ограничивающих рамок, YOLO26 изначально является сквозной. Это устраняет узкие места, связанные с задержкой, и значительно упрощает логику развертывания.
  • До 43% более быстрая инференция на CPU: За счет стратегического удаления Distribution Focal Loss (DFL), YOLO26 достигает беспрецедентной скорости инференции на оборудовании с CPU, что делает его значительно превосходящим для периферийных вычислений и маломощных устройств.
  • Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибридный оптимизатор привносит стабильность обучения LLM в компьютерное зрение, обеспечивая значительно более быструю сходимость и минимизируя требования к памяти на этапах обучения.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критически важной особенностью для операций с дронами и высокодетализированной аэрофотосъемки.
  • Универсальность: В то время как PP-YOLOE+ и YOLOX сосредоточены исключительно на detect, YOLO26 бесшовно обрабатывает сегментацию экземпляров, оценку позы и ориентированные ограничивающие рамки (OBB), используя тот же интуитивно понятный синтаксис.

Узнайте больше о YOLO26

Оптимизированное обучение с Ultralytics

Эффективность использования памяти и скорость обучения моделей Ultralytics не имеют себе равных, полностью превосходя альтернативы на основе трансформеров, которые требуют огромных накладных расходов на память CUDA. Вы можете использовать мощь YOLO26 всего в нескольких строках кода:

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT
model.export(format="engine")

Изучите платформу Ultralytics

Для команд, ищущих решение без кода, платформа Ultralytics предоставляет облачное обучение, интегрированную аннотацию наборов данных и развертывание в один клик для всех ваших моделей YOLO.

Заключение

Как PP-YOLOE+, так и YOLOX заняли свое место в истории компьютерного зрения, предлагая высокую точность и легкие безанкерные конструкции соответственно. Однако для организаций, строящих будущее ИИ в сельском хозяйстве, умных городах и розничной торговле, непрерывное обслуживание, простота использования и нативная NMS-free архитектура Ultralytics YOLO26 делают его бесспорным выбором.

Если вы изучаете альтернативные архитектуры для конкретных бенчмарков, вы также можете найти полезным сравнение более старой YOLO11 или вариантов на основе трансформеров, таких как RT-DETR, через исчерпывающую документацию Ultralytics. Переходя на унифицированную экосистему Ultralytics, разработчики экономят бесценное время и ресурсы, достигая при этом передовых результатов при любом развертывании на периферийных устройствах или в облаке.


Комментарии