Перейти к содержанию

PP-YOLOE+ против YOLOX: технический анализ детекторов без якорей

В развивающейся области компьютерного зрения обнаружение объектов без анкеров стало доминирующей парадигмой, предлагая более простые архитектуры и зачастую превосходную производительность по сравнению с традиционными методами на основе анкеров. Двумя значительными вкладами в эту область являются PP-YOLOE+, разработанный PaddlePaddle компании Baidu, и YOLOX, высокопроизводительный детектор без анкеров от Megvii.

В этом анализе подробно рассматриваются их архитектура, показатели производительности и применимость в реальных условиях, а также подчеркивается, что современная Ultralytics и передовая модель YOLO26 представляют собой привлекательную альтернативу для разработчиков, стремящихся достичь оптимального баланса между скоростью, точностью и простотой использования.

Обзоры моделей

PP-YOLOE+

Авторы: PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:PaddleDetection

PP-YOLOE+ является эволюцией PP-YOLOE, который сам по себе был усовершенствованной версией PP-YOLOv2. Он служит флагманской моделью для библиотеки PaddleDetection. Он отличается уникальной базовой структурой CSPRepResNet и использует стратегию Task Alignment Learning (TAL) для динамического присвоения меток. Оптимизированная для PaddlePaddle , она обеспечивает высокую скорость инференса на графических процессорах V100 и интегрирует такие технологии, как варифокальная потеря, для эффективного устранения дисбаланса классов.

Узнайте больше о PP-YOLOE+

YOLOX

Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 18.07.2021
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:YOLOX Repository

YOLOX стал поворотным моментом в YOLO , перейдя на механизм без якоря и разделив головку обнаружения. Эта конструкция разделяет задачи классификации и регрессии, что значительно улучшает скорость и точность сходимости. Благодаря использованию передовых технологий, таких как SimOTA для динамического присвоения меток, YOLOX достиг передовых результатов после своего выпуска, выиграв Streaming Perception Challenge на семинаре CVPR 2021 по автономному вождению.

Узнайте больше о YOLOX

Архитектурное сравнение

Основное различие между этими моделями заключается в их конкретной реализации концепции без якорей и целях оптимизации.

Backbone и Neck

PP-YOLOE+ использует базовую структуру CSPRepResNet, которая сочетает в себе преимущества остаточных соединений с эффективностью CSPNet (Cross Stage Partial Network). Это сочетается с сетью агрегации путей (PANet) для улучшения многомасштабного слияния признаков. Версия «+» специально усовершенствует базовую структуру с помощью методов перепараметризации, что позволяет создать сложную структуру обучения, которая при выводе сводится к более простой и быстрой структуре.

YOLOX обычно использует модифицированную магистраль CSPDarknet, аналогичную YOLOv5, но отличается от нее развязанной головкой. Традиционные YOLO выполняют классификацию и локализацию одновременно, что часто приводит к конфликту. Развязанная головная часть YOLOX обрабатывает эти задачи в параллельных ветвях, что приводит к лучшему согласованию характеристик. Это позволяет модели отдельно изучать характеристики, специфичные для «того, что» представляет собой объект (классификация), и «где» он находится (локализация).

Присвоение меток

Присвоение меток — определение, какие выходные пиксели соответствуют объектам реальной местности — имеет решающее значение для детекторов без анкеров.

  • YOLOX представил SimOTA (Simplified Optimal Transport Assignment). Этот алгоритм рассматривает присвоение меток как задачу оптимального транспорта, динамически присваивая положительные образцы к реальным значениям на основе глобальной оптимизации затрат. Это обеспечивает стабильную производительность даже в переполненных сценах.
  • PP-YOLOE+ использует метод Task Alignment Learning (TAL). TAL явно согласовывает оценку классификации и качество локализации (IoU), обеспечивая высокую точность локализации для обнаружений с высокой степенью достоверности. Такой подход сводит к минимуму несоответствие между двумя задачами, что является распространенной проблемой в одноэтапных детекторах.

Без якорей и на основе якорей

Обе модели не используют анкеры, то есть они напрямую прогнозируют центры и размеры объектов, а не уточняют заранее определенные анкерные рамки. Это упрощает конструкцию, сокращает количество гиперпараметров (нет необходимости настраивать размеры анкеров) и в целом улучшает обобщение по различным наборам данных.

Анализ производительности

При сравнении производительности необходимо учитывать как точность (mAP), так и скорость (задержка/FPS) на различном оборудовании.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Основные выводы:

  • Точность: PP-YOLOE+ обычно обеспечивает более высокую mAP при сопоставимых размерах моделей, особенно в более крупных вариантах (L и X), благодаря усовершенствованной стратегии TAL и базовой структуре RepResNet.
  • Эффективность: хотя YOLOX является высокоэффективным, PP-YOLOE+ демонстрирует более низкие показатели FLOP и количество параметров при аналогичном уровне производительности, что указывает на более компактную архитектуру.
  • Скорость: Скорость вывода выводов конкурентоспособна, но PP-YOLOE+ часто превосходит YOLOX на аппаратуре, TensorRT, благодаря своей аппаратно-ориентированной нейронной архитектуре.

Реальные приложения и варианты использования

Когда следует выбирать PP-YOLOE+

PP-YOLOE+ идеально подходит для промышленных приложений, в которых среда развертывания поддерживает PaddlePaddle .

  • Контроль качества производства: высокая точность делает его отличным инструментом для обнаружения мелких дефектов на сборочных линиях.
  • Smart Retail: Высокая производительность вариантов «s» и «m» позволяет эффективно распознавать продукты на пограничных серверах.
  • Высокоскоростной транспорт: его оптимизация для графических процессоров V100/T4 делает его подходящим для обработки потоков трафика на стороне сервера.

Когда следует выбирать YOLOX

YOLOX остается фаворитом в академическом и исследовательском сообществе благодаря своей чистой PyTorch и ясным архитектурным инновациям.

  • Исследования в области автономного вождения: преодолев проблемы с потоковым восприятием, YOLOX демонстрирует надежность в динамичных средах, требующих стабильного отслеживания.
  • Мобильные развертывания: версии YOLOX-Nano и Tiny очень легкие, что делает их подходящими для мобильных приложений или дронов с ограниченными вычислительными мощностями.
  • Исследование на заказ: его отсоединенная головка и конструкция без крепления часто легче модифицируются для новых задач, выходящих за рамки стандартного обнаружения.

Преимущество Ultralytics

Хотя PP-YOLOE+ и YOLOX являются эффективными моделями, Ultralytics предлагает явное преимущество для разработчиков, которые уделяют приоритетное внимание скорости разработки, простоте обслуживания и гибкости развертывания.

Простота использования и экосистема

Ultralytics , включая новейшую YOLO26, разработаны в соответствии с философией «от нуля до героя». В отличие от PP-YOLOE+, который требует специфической PaddlePaddle , или YOLOX, который может иметь сложные конфигурационные файлы, Ultralytics унифицированный Python . Вы можете обучать, проверять и развертывать модели всего за несколько строк кода.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Экосистема дополнительно укрепляется благодаря Ultralytics , которая упрощает управление наборами данных, обучение в облаке и версионирование моделей.

Непревзойденная универсальность

Ultralytics не ограничиваются обнаружением объектов. Один и тот же API поддерживает:

Ни PP-YOLOE+, ни YOLOX не предлагают такой уровень встроенной поддержки многозадачности в рамках единой унифицированной структуры.

Эффективность памяти и обучение

YOLO Ultralytics YOLO разработаны с учетом требований эффективности. Как правило, они требуют меньшего объема GPU во время обучения по сравнению с архитектурами на основе трансформаторов или более старыми моделями обнаружения. Это позволяет разработчикам обучать большие пакеты данных на потребительском оборудовании, что делает высокопроизводительный ИИ доступным для широкого круга пользователей. Предварительно обученные веса легко доступны и автоматически загружаются, что упрощает процесс переноса обучения.

Будущее: YOLO26

Для разработчиков, стремящихся к абсолютному передовому уровню, YOLO26 представляет собой значительный шаг вперед. Выпущенный в январе 2026 года, он предлагает нативные сквозные возможности, которые устраняют необходимость в немаксимальном подавлении (NMS).

Ключевые инновации YOLO26

  • Полная NMS: благодаря устранению этапа NMS , YOLO26 упрощает процессы развертывания и снижает разброс задержек, что является новаторской функцией, впервые реализованной в YOLOv10.
  • MuSGD Optimizer: вдохновленный обучением LLM, этот гибридный оптимизатор (SGD Muon) обеспечивает стабильное обучение и более быструю конвергенцию.
  • Оптимизация по краям: благодаря удалению Distribution Focal Loss (DFL) YOLO26 достигает до 43% более быстрой CPU , что делает его лучшим выбором для пограничных устройств, таких как Raspberry Pi или мобильные телефоны.
  • ProgLoss + STAL: усовершенствованные функции потери улучшают обнаружение мелких объектов, что имеет решающее значение для инспекции с помощью дронов и приложений IoT.

Узнайте больше о YOLO26

Заключение

PP-YOLOE+ и YOLOX помогли начать революцию в области обнаружения объектов без использования якорей. PP-YOLOE+ обеспечивает высокую точность в PaddlePaddle , а YOLOX предоставляет чистую и эффективную архитектуру для исследований. Однако для большинства современных приложений YOLO Ultralytics YOLO , а именно YOLO26, обеспечивают превосходный баланс производительности, универсальности и простоты использования. Независимо от того, создаете ли вы решения для умных городов или сельскохозяйственную робототехнику, Ultralytics гарантирует, что ваш конвейер компьютерного зрения будет перспективным и эффективным.


Комментарии