Перейти к содержанию

PP-YOLOE+ против RTDETRv2: Подробное руководство по архитектурам обнаружения объектов в реальном времени

Область компьютерного зрения пережила драматическую эволюцию в последние годы, особенно в сфере обнаружения объектов в реальном времени. Выбор правильной архитектуры для вашего развертывания может означать разницу между медленным, ресурсоемким приложением и высокооптимизированной, отзывчивой системой. В этом техническом сравнении мы исследуем две выдающиеся модели от Baidu: PP-YOLOE+ на основе CNN и RTDETRv2 на основе трансформеров. Мы проанализируем их архитектуры, метрики производительности и идеальные сценарии использования, а также рассмотрим, как они соотносятся с современной платформой Ultralytics YOLO26.

PP-YOLOE+: Развитие парадигмы CNN

Разработанный как итерация своих предшественников, PP-YOLOE+ расширяет границы того, чего могут достичь традиционные сверточные нейронные сети (CNN) в обнаружении объектов. Это высокоэффективный безанкерный детектор, который основывается на фундаментальных механизмах серии YOLO, одновременно внедряя специфические оптимизации для экосистемы PaddlePaddle.

Подробности модели:

Архитектура и методологии

PP-YOLOE+ опирается на высокооптимизированный backbone и настраиваемую сеть пирамиды признаков для эффективной агрегации многомасштабных признаков. Он использует безанкерную архитектуру, что упрощает процесс эвристической настройки, обычно требуемый для генерации якорных боксов. Кроме того, его методология обучения включает передовые стратегии присвоения меток для лучшего сопоставления предсказаний с истинными ограничивающими рамками на этапе обучения.

Сильные стороны и варианты использования

Основная сила PP-YOLOE+ заключается в его надежной производительности на стандартном серверном оборудовании и глубокой интеграции с инструментами Baidu. Он хорошо подходит для традиционных промышленных рабочих процессов, таких как статическое обнаружение дефектов в производственных условиях, где аппаратные ограничения не являются чрезмерно строгими.

Узнайте больше о PP-YOLOE+

Соображения, касающиеся экосистемы

Хотя PP-YOLOE+ обеспечивает высокую точность, его развертывание вне нативной экосистемы иногда может требовать дополнительных шагов конвертации, в отличие от нативных форматов экспорта, легко доступных в современных конвейерах Ultralytics.

RTDETRv2: Трансформеры обнаружения в реальном времени

Отходя от чистых CNN, RTDETRv2 (Real-Time Detection Transformer версии 2) представляет собой прорыв в использовании механизмов, основанных на внимании, для задач компьютерного зрения. Он стремится объединить понимание глобального контекста трансформерами с низкой задержкой, необходимой для реальных приложений.

Подробности модели:

Архитектура и методологии

RTDETRv2 использует гибридную архитектуру, сочетающую основу CNN для извлечения признаков с оптимизированным кодировщиком-декодером трансформера. Определяющей характеристикой RTDETRv2 является его нативная сквозная архитектура, которая обходит традиционную постобработку Non-Maximum Suppression (NMS). Он также вводит такие функции, как многомасштабное обнаружение и обработка сложных сцен, используя самовнимание для понимания пространственных отношений между удаленными объектами.

Сильные стороны и варианты использования

Архитектура трансформера делает RTDETRv2 высокоэффективным в сценариях, где понимание глобального контекста имеет решающее значение. Однако модели-трансформеры обычно требуют значительно больше памяти CUDA как во время обучения, так и во время инференса по сравнению с легковесными CNN. Он лучше всего подходит для сред с неограниченными аппаратными ресурсами, таких как облачная видеоаналитика, работающая на мощных GPU-серверах.

Узнайте больше о RTDETR

Сравнение производительности и метрик

При оценке этих моделей компромисс между средней точностью (mAP) и вычислительными затратами (измеряемыми во FLOPs и задержке инференса) имеет первостепенное значение. В таблице ниже представлены ключевые метрики для различных масштабов PP-YOLOE+ и RTDETRv2.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Хотя RTDETRv2 демонстрирует высокий mAP ценой большего количества параметров и FLOPs, разработчики, стремящиеся развернуть решения на ограниченных периферийных устройствах, часто сталкиваются с узкими местами из-за высоких требований к памяти, характерных для трансформерных слоев.

Сценарии использования и рекомендации

Выбор между PP-YOLOE+ и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда следует выбирать PP-YOLOE+

PP-YOLOE+ является отличным выбором для:

  • Интеграция с экосистемой PaddlePaddle: Для организаций с существующей инфраструктурой, построенной на фреймворке и инструментарии Baidu PaddlePaddle.
  • Развертывание Paddle Lite на периферийных устройствах: Развертывание на аппаратном обеспечении с высокооптимизированными ядрами вывода специально для механизма вывода Paddle Lite или Paddle.
  • Высокоточное серверное обнаружение: Сценарии, где приоритетом является максимальная точность обнаружения на мощных GPU-серверах, и зависимость от фреймворка не является проблемой.

Когда выбрать RT-DETR

RT-DETR рекомендуется для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Преимущество Ultralytics: Представляем YOLO26

Хотя PP-YOLOE+ и RTDETRv2 представляют собой значимые вехи, современному разработчику требуется экосистема, которая идеально сочетает экстремальную производительность с оптимизированным удобством использования. Платформа Ultralytics и прорывная модель YOLO26 предлагают именно это.

Выпущенный в январе 2026 года, YOLO26 устанавливает новый стандарт для периферийного ИИ-зрения. Он элегантно решает проблемы развертывания, связанные со старыми архитектурами, превосходя их как по скорости, так и по точности.

Архитектурные инновации

YOLO26 представляет несколько новаторских улучшений, которые превосходят традиционные CNN и тяжелые трансформеры:

  • Сквозная архитектура без NMS: Как и RTDETRv2, YOLO26 является изначально сквозной. Устраняя постобработку подавления немаксимумов (NMS), она обеспечивает более быстрое, простое развертывание с уменьшенным дрожанием задержки, что идеально подходит для робототехники реального времени и автономных систем.
  • До 43% более быстрый инференс на CPU: Благодаря глубоким архитектурным оптимизациям YOLO26 значительно превосходит конкурирующие модели на периферийных устройствах, не имеющих дискретных GPU, что делает его лучшим выбором для IoT и приложений умного города.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, YOLO26 применяет гибрид SGD и Muon. Это обеспечивает более стабильные траектории обучения и значительно более быструю сходимость, резко сокращая часы обучения на GPU.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов — области, где такие модели, как PP-YOLOE+, исторически испытывают трудности, что оказывается критически важным для аэрофотосъемки и применения дронов.
  • Удаление DFL: Удаление Distribution Focal Loss упрощает процесс экспорта, обеспечивая бесшовную совместимость с различными периферийными и маломощными устройствами.

Узнайте больше о YOLO26

Универсальность, специфичная для задачи

В отличие от специализированных детекторов объектов, YOLO26 обладает высокой универсальностью, поддерживая сегментацию экземпляров, оценку позы, классификацию и ориентированные ограничивающие рамки (OBB). Он включает специализированные улучшения, такие как RLE для оценки позы и специализированную угловую функцию потерь для OBB.

Непревзойденная простота использования

Одним из самых больших недостатков использования сложных архитектур, таких как RTDETRv2, являются крутая кривая обучения и разрозненные процессы интеграции. Экосистема Ultralytics полностью абстрагирует эти сложности благодаря интуитивно понятному Python API и комплексной веб-платформе.

Независимо от того, обучаете ли вы пользовательские наборы данных или выполняете быстрый вывод, процесс проходит бесшовно:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

Меньшие требования к памяти, характерные для моделей Ultralytics YOLO, означают, что вы можете обучать быстрее и развертывать на более дешевом оборудовании по сравнению с аналогами на основе трансформеров. Кроме того, активная разработка и первоклассная документация гарантируют стабильность ваших производственных конвейеров.

Для команд, изучающих альтернативы, YOLO11 остается высокоподдерживаемым и исключительно мощным предшественником в экосистеме, предоставляя отличную основу для интеграции с устаревшим оборудованием. Вам также может быть полезно прочитать наше сравнение YOLO11 и RTDETR.

Обзор

PP-YOLOE+ и RTDETRv2 внесли существенный вклад в развитие компьютерного зрения, продемонстрировав жизнеспособность передовых конвейеров CNN и трансформеров реального времени соответственно. Однако для организаций, стремящихся развернуть надежные, универсальные и высокооптимизированные приложения компьютерного зрения в 2026 году, Ultralytics YOLO26 предлагает беспрецедентное решение. Его изначально NMS-free архитектура, значительно более быстрая инференция на CPU и оптимизированная экосистема позволяют разработчикам переходить от идеи к масштабируемому производству быстрее, чем когда-либо прежде.


Комментарии