PP-YOLOE+ против RTDETRv2: подробное руководство по архитектурам для обнаружения объектов в реальном времени
Область компьютерного зрения за последние годы претерпела значительную эволюцию, особенно в сфере обнаружения объектов в реальном времени. Выбор правильной архитектуры для развертывания может означать разницу между медленным, ресурсоемким приложением и высокооптимизированной, отзывчивой системой. В этом техническом сравнении мы рассмотрим две известные модели от Baidu: PP-YOLOE+ на базе CNN и RTDETRv2 на базе трансформеров. Мы проанализируем их архитектуры, показатели производительности и идеальные сценарии использования, а также изучим, как они соотносятся с передовой платформой Ultralytics YOLO26.
PP-YOLOE+: развитие парадигмы CNN
Разработанная как итерация своих предшественников, PP-YOLOE+ расширяет границы того, чего могут достичь традиционные сверточные нейронные сети (CNN) в обнаружении объектов. Это мощный детектор без анкоров (anchor-free), который опирается на фундаментальные механизмы серии YOLO, внедряя при этом специфические оптимизации для экосистемы PaddlePaddle.
Детали модели:
- Авторы: авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: 2203.16250
- GitHub: Репозиторий PaddleDetection
- Документация: Документация PP-YOLOE+
Архитектура и методологии
PP-YOLOE+ полагается на сильно оптимизированный бэкбон и специализированную пирамидальную сеть признаков (FPN) для эффективной агрегации многомасштабных характеристик. Она использует без-анкорный дизайн, что упрощает эвристический процесс настройки, обычно требуемый для генерации анкорных рамок. Кроме того, методология обучения включает продвинутые стратегии назначения меток для более точного соответствия предсказаний с эталонными рамками (ground truth boxes) на этапе обучения.
Сильные стороны и сценарии использования
Главная сила PP-YOLOE+ заключается в ее стабильной производительности на стандартном серверном оборудовании и глубокой интеграции с инструментами Baidu. Она отлично подходит для традиционных промышленных рабочих процессов, таких как статическое обнаружение дефектов в производственных условиях, где аппаратные ограничения не слишком строги.
Хотя PP-YOLOE+ предлагает высокую точность, развертывание вне ее родной экосистемы иногда может потребовать дополнительных шагов конвертации, в отличие от нативных форматов экспорта, доступных в современных конвейерах Ultralytics.
RTDETRv2: Трансформеры для обнаружения в реальном времени
Уходя от чистого использования CNN, RTDETRv2 (Real-Time Detection Transformer версии 2) представляет собой шаг к механизмам внимания в задачах компьютерного зрения. Она пытается объединить понимание глобального контекста трансформеров с низкой задержкой, необходимой для реальных приложений.
Детали модели:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 2024-07-24
- Arxiv: 2407.17140
- GitHub: репозиторий RT-DETRv2
- Документация: README RTDETRv2
Архитектура и методологии
RTDETRv2 использует гибридную архитектуру, сочетающую CNN-бэкбон для извлечения признаков с оптимизированным трансформерным энкодером-декодером. Отличительной чертой RTDETRv2 является нативный сквозной (end-to-end) дизайн, который обходит традиционную постобработку NMS (Non-Maximum Suppression). Она также внедряет такие функции, как многомасштабное обнаружение и обработка сложных сцен, используя self-attention для понимания пространственных связей между удаленными объектами.
Сильные стороны и сценарии использования
Архитектура трансформеров делает RTDETRv2 очень эффективной в сценариях, где важно понимание глобального контекста. Однако модели трансформеров обычно требуют значительно больше памяти CUDA как во время обучения, так и при инференсе по сравнению с легкими CNN. Она лучше всего подходит для сред с неограниченным аппаратным обеспечением, например, для облачной видеоаналитики, работающей на мощных GPU-серверах.
Сравнение производительности и метрик
При оценке этих моделей первостепенное значение имеет компромисс между средним значением точности (mAP) и вычислительными затратами (измеряемыми в FLOPs и задержке инференса). В таблице ниже приведены ключевые метрики для различных масштабов как PP-YOLOE+, так и RTDETRv2.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Хотя RTDETRv2 показывает высокий mAP ценой большего количества параметров и FLOPs, разработчики, планирующие развертывание на ограниченных периферийных (edge) устройствах, часто сталкиваются с «узкими местами» из-за высоких требований к памяти, типичных для трансформерных слоев.
Варианты использования и рекомендации
Выбор между PP-YOLOE+ и RT-DETR зависит от требований твоего проекта, ограничений при развертывании и предпочтений в отношении экосистемы.
Когда выбирать PP-YOLOE+
PP-YOLOE+ — отличный выбор для:
- Интеграция с экосистемой PaddlePaddle: организации с существующей инфраструктурой, построенной на фреймворке и инструментах Baidu PaddlePaddle.
- Развертывание на Paddle Lite Edge: развертывание на оборудовании с высокооптимизированными ядрами вывода специально для двигателя Paddle Lite или вывода Paddle.
- Высокоточное обнаружение на стороне сервера: сценарии, отдающие приоритет максимальной точности обнаружения на мощных серверных GPU, где зависимость от фреймворка не является проблемой.
Когда стоит выбирать RT-DETR
RT-DETR рекомендуется для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Преимущество Ultralytics: представляем YOLO26
Хотя и PP-YOLOE+, и RTDETRv2 являются значимыми вехами, современному разработчику нужна экосистема, которая идеально сочетает экстремальную производительность с удобством использования. Платформа Ultralytics и прорывная модель YOLO26 предлагают именно это.
Выпущенная в январе 2026 года, YOLO26 устанавливает новый стандарт для Vision AI, ориентированного на edge-устройства. Она элегантно решает проблемы развертывания, связанные со старыми архитектурами, превосходя их как по скорости, так и по точности.
Архитектурные инновации
YOLO26 представляет несколько новаторских улучшений, которые превосходят традиционные CNN и тяжелые трансформеры:
- Сквозной дизайн без NMS: Как и RTDETRv2, YOLO26 является нативно сквозной. Исключая постобработку NMS, она обеспечивает более быстрое и простое развертывание с меньшим джиттером задержки, что идеально подходит для робототехники и автономных систем в реальном времени.
- До 43% быстрее инференс на CPU: Благодаря глубоким архитектурным оптимизациям, YOLO26 значительно превосходит конкурирующие модели на edge-устройствах без дискретных GPU, что делает ее лучшим выбором для приложений IoT и умных городов.
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, YOLO26 использует гибрид SGD и Muon. Это обеспечивает более стабильные траектории обучения и удивительно быструю сходимость, радикально сокращая часы обучения на GPU.
- ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов — области, где модели вроде PP-YOLOE+ исторически испытывали трудности, что критически важно для аэрофотосъемки и использования дронов.
- Удаление DFL: Исключение Distribution Focal Loss упрощает процесс экспорта, обеспечивая бесшовную совместимость с различными edge-устройствами и устройствами с низким энергопотреблением.
В отличие от специализированных детекторов объектов, YOLO26 обладает высокой универсальностью, поддерживая сегментацию экземпляров, оценку позы, классификацию и ориентированные ограничивающие рамки (OBB). Она включает специализированные улучшения, такие как RLE для Pose и специальную потерю угла для OBB.
Непревзойденная простота использования
Одним из самых больших недостатков внедрения сложных архитектур, таких как RTDETRv2, является крутая кривая обучения и разрозненные процессы интеграции. Экосистема Ultralytics полностью абстрагирует эти сложности с помощью интуитивно понятного Python API и комплексной веб-платформы.
Независимо от того, обучаешь ли ты собственные датасеты или запускаешь быстрый инференс, процесс проходит без проблем:
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)Более низкие требования к памяти, типичные для моделей Ultralytics YOLO, означают, что ты можешь обучаться быстрее и развертывать на более дешевом оборудовании по сравнению с аналогами на базе трансформеров. Кроме того, активная разработка и документация мирового класса гарантируют стабильность твоих производственных конвейеров.
Для команд, изучающих альтернативы, YOLO11 остается хорошо поддерживаемым и исключительно способным предшественником в рамках экосистемы, предоставляя отличную базу для интеграции с устаревшим оборудованием. Тебе также может быть полезно прочитать наше сравнение YOLO11 против RTDETR.
Резюме
PP-YOLOE+ и RTDETRv2 внесли существенный вклад в эволюцию компьютерного зрения, продемонстрировав жизнеспособность продвинутых конвейеров CNN и трансформеров реального времени соответственно. Однако для организаций, стремящихся развертывать надежные, универсальные и высокооптимизированные приложения компьютерного зрения в 2026 году, Ultralytics YOLO26 предоставляет непревзойденное решение. Ее нативно NMS-free архитектура, значительно более быстрый инференс на CPU и оптимизированная экосистема позволяют разработчикам переходить от идеи к масштабируемому производству быстрее, чем когда-либо прежде.