PP-YOLOE+ против RTDETRv2: подробное руководство по архитектурам для обнаружения объектов в реальном времени

Область компьютерного зрения за последние годы претерпела значительную эволюцию, особенно в сфере обнаружения объектов в реальном времени. Выбор правильной архитектуры для развертывания может означать разницу между медленным, ресурсоемким приложением и высокооптимизированной, отзывчивой системой. В этом техническом сравнении мы рассмотрим две известные модели от Baidu: PP-YOLOE+ на базе CNN и RTDETRv2 на базе трансформеров. Мы проанализируем их архитектуры, показатели производительности и идеальные сценарии использования, а также изучим, как они соотносятся с передовой платформой Ultralytics YOLO26.

PP-YOLOE+: развитие парадигмы CNN

Разработанная как итерация своих предшественников, PP-YOLOE+ расширяет границы того, чего могут достичь традиционные сверточные нейронные сети (CNN) в обнаружении объектов. Это мощный детектор без анкоров (anchor-free), который опирается на фундаментальные механизмы серии YOLO, внедряя при этом специфические оптимизации для экосистемы PaddlePaddle.

Детали модели:

Архитектура и методологии

PP-YOLOE+ полагается на сильно оптимизированный бэкбон и специализированную пирамидальную сеть признаков (FPN) для эффективной агрегации многомасштабных характеристик. Она использует без-анкорный дизайн, что упрощает эвристический процесс настройки, обычно требуемый для генерации анкорных рамок. Кроме того, методология обучения включает продвинутые стратегии назначения меток для более точного соответствия предсказаний с эталонными рамками (ground truth boxes) на этапе обучения.

Сильные стороны и сценарии использования

Главная сила PP-YOLOE+ заключается в ее стабильной производительности на стандартном серверном оборудовании и глубокой интеграции с инструментами Baidu. Она отлично подходит для традиционных промышленных рабочих процессов, таких как статическое обнаружение дефектов в производственных условиях, где аппаратные ограничения не слишком строги.

Узнай больше о PP-YOLOE+

Соображения по экосистеме

Хотя PP-YOLOE+ предлагает высокую точность, развертывание вне ее родной экосистемы иногда может потребовать дополнительных шагов конвертации, в отличие от нативных форматов экспорта, доступных в современных конвейерах Ultralytics.

RTDETRv2: Трансформеры для обнаружения в реальном времени

Уходя от чистого использования CNN, RTDETRv2 (Real-Time Detection Transformer версии 2) представляет собой шаг к механизмам внимания в задачах компьютерного зрения. Она пытается объединить понимание глобального контекста трансформеров с низкой задержкой, необходимой для реальных приложений.

Детали модели:

Архитектура и методологии

RTDETRv2 использует гибридную архитектуру, сочетающую CNN-бэкбон для извлечения признаков с оптимизированным трансформерным энкодером-декодером. Отличительной чертой RTDETRv2 является нативный сквозной (end-to-end) дизайн, который обходит традиционную постобработку NMS (Non-Maximum Suppression). Она также внедряет такие функции, как многомасштабное обнаружение и обработка сложных сцен, используя self-attention для понимания пространственных связей между удаленными объектами.

Сильные стороны и сценарии использования

Архитектура трансформеров делает RTDETRv2 очень эффективной в сценариях, где важно понимание глобального контекста. Однако модели трансформеров обычно требуют значительно больше памяти CUDA как во время обучения, так и при инференсе по сравнению с легкими CNN. Она лучше всего подходит для сред с неограниченным аппаратным обеспечением, например, для облачной видеоаналитики, работающей на мощных GPU-серверах.

Узнай больше о RTDETR

Сравнение производительности и метрик

При оценке этих моделей первостепенное значение имеет компромисс между средним значением точности (mAP) и вычислительными затратами (измеряемыми в FLOPs и задержке инференса). В таблице ниже приведены ключевые метрики для различных масштабов как PP-YOLOE+, так и RTDETRv2.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Хотя RTDETRv2 показывает высокий mAP ценой большего количества параметров и FLOPs, разработчики, планирующие развертывание на ограниченных периферийных (edge) устройствах, часто сталкиваются с «узкими местами» из-за высоких требований к памяти, типичных для трансформерных слоев.

Варианты использования и рекомендации

Выбор между PP-YOLOE+ и RT-DETR зависит от требований твоего проекта, ограничений при развертывании и предпочтений в отношении экосистемы.

Когда выбирать PP-YOLOE+

PP-YOLOE+ — отличный выбор для:

  • Интеграция с экосистемой PaddlePaddle: организации с существующей инфраструктурой, построенной на фреймворке и инструментах Baidu PaddlePaddle.
  • Развертывание на Paddle Lite Edge: развертывание на оборудовании с высокооптимизированными ядрами вывода специально для двигателя Paddle Lite или вывода Paddle.
  • Высокоточное обнаружение на стороне сервера: сценарии, отдающие приоритет максимальной точности обнаружения на мощных серверных GPU, где зависимость от фреймворка не является проблемой.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: представляем YOLO26

Хотя и PP-YOLOE+, и RTDETRv2 являются значимыми вехами, современному разработчику нужна экосистема, которая идеально сочетает экстремальную производительность с удобством использования. Платформа Ultralytics и прорывная модель YOLO26 предлагают именно это.

Выпущенная в январе 2026 года, YOLO26 устанавливает новый стандарт для Vision AI, ориентированного на edge-устройства. Она элегантно решает проблемы развертывания, связанные со старыми архитектурами, превосходя их как по скорости, так и по точности.

Архитектурные инновации

YOLO26 представляет несколько новаторских улучшений, которые превосходят традиционные CNN и тяжелые трансформеры:

  • Сквозной дизайн без NMS: Как и RTDETRv2, YOLO26 является нативно сквозной. Исключая постобработку NMS, она обеспечивает более быстрое и простое развертывание с меньшим джиттером задержки, что идеально подходит для робототехники и автономных систем в реальном времени.
  • До 43% быстрее инференс на CPU: Благодаря глубоким архитектурным оптимизациям, YOLO26 значительно превосходит конкурирующие модели на edge-устройствах без дискретных GPU, что делает ее лучшим выбором для приложений IoT и умных городов.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, YOLO26 использует гибрид SGD и Muon. Это обеспечивает более стабильные траектории обучения и удивительно быструю сходимость, радикально сокращая часы обучения на GPU.
  • ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов — области, где модели вроде PP-YOLOE+ исторически испытывали трудности, что критически важно для аэрофотосъемки и использования дронов.
  • Удаление DFL: Исключение Distribution Focal Loss упрощает процесс экспорта, обеспечивая бесшовную совместимость с различными edge-устройствами и устройствами с низким энергопотреблением.

Узнай больше о YOLO26

Универсальность для конкретных задач

В отличие от специализированных детекторов объектов, YOLO26 обладает высокой универсальностью, поддерживая сегментацию экземпляров, оценку позы, классификацию и ориентированные ограничивающие рамки (OBB). Она включает специализированные улучшения, такие как RLE для Pose и специальную потерю угла для OBB.

Непревзойденная простота использования

Одним из самых больших недостатков внедрения сложных архитектур, таких как RTDETRv2, является крутая кривая обучения и разрозненные процессы интеграции. Экосистема Ultralytics полностью абстрагирует эти сложности с помощью интуитивно понятного Python API и комплексной веб-платформы.

Независимо от того, обучаешь ли ты собственные датасеты или запускаешь быстрый инференс, процесс проходит без проблем:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

Более низкие требования к памяти, типичные для моделей Ultralytics YOLO, означают, что ты можешь обучаться быстрее и развертывать на более дешевом оборудовании по сравнению с аналогами на базе трансформеров. Кроме того, активная разработка и документация мирового класса гарантируют стабильность твоих производственных конвейеров.

Для команд, изучающих альтернативы, YOLO11 остается хорошо поддерживаемым и исключительно способным предшественником в рамках экосистемы, предоставляя отличную базу для интеграции с устаревшим оборудованием. Тебе также может быть полезно прочитать наше сравнение YOLO11 против RTDETR.

Резюме

PP-YOLOE+ и RTDETRv2 внесли существенный вклад в эволюцию компьютерного зрения, продемонстрировав жизнеспособность продвинутых конвейеров CNN и трансформеров реального времени соответственно. Однако для организаций, стремящихся развертывать надежные, универсальные и высокооптимизированные приложения компьютерного зрения в 2026 году, Ultralytics YOLO26 предоставляет непревзойденное решение. Ее нативно NMS-free архитектура, значительно более быстрый инференс на CPU и оптимизированная экосистема позволяют разработчикам переходить от идеи к масштабируемому производству быстрее, чем когда-либо прежде.

Комментарии