Link to this sectionPP-YOLOE+ против RTDETRv2#

Область компьютерного зрения претерпела значительную эволюцию за последние годы, особенно в сфере детектирования объектов в реальном времени. Правильный выбор архитектуры для твоего проекта может стать решающим фактором между медленным, требовательным к памяти приложением и высокооптимизированной, отзывчивой системой. В этом техническом сравнении мы рассмотрим две заметные модели от Baidu: PP-YOLOE+ на базе CNN и RTDETRv2 на основе Transformer. Мы проанализируем их архитектуру, показатели производительности и идеальные сценарии использования, а также сравним их с современной платформой Ultralytics YOLO26.

Link to this sectionPP-YOLOE+: Развитие парадигмы CNN#

Разработанная как итерация своих предшественников, PP-YOLOE+ расширяет границы того, чего традиционные сверточные нейронные сети (CNN) могут достичь в детектировании объектов. Это мощный детектор без использования анкоров (anchor-free), который опирается на фундаментальные принципы серии YOLO, одновременно вводя специфические оптимизации для экосистемы PaddlePaddle.

Детали модели:

Авторы: Авторы PaddlePaddle
Организация: Baidu
Дата: 02.04.2022
Arxiv: 2203.16250
GitHub: Репозиторий PaddleDetection
Документация: Документация PP-YOLOE+

Link to this sectionАрхитектура и методологии#

PP-YOLOE+ опирается на сильно оптимизированный бэкбон и специализированную пирамидальную сеть признаков (FPN) для эффективного объединения многомасштабных признаков. Модель использует архитектуру без анкоров, что упрощает процесс эвристической настройки, обычно требуемый для генерации bbox. Кроме того, методология обучения включает передовые стратегии назначения меток для лучшего сопоставления предсказаний с эталонными рамками (ground truth) во время обучения.

Link to this sectionСильные стороны и сценарии использования#

Основная сила PP-YOLOE+ заключается в высокой производительности на стандартном серверном оборудовании и глубокой интеграции с инструментами Baidu. Она отлично подходит для традиционных промышленных рабочих процессов, таких как статическое обнаружение дефектов в производственных условиях, где аппаратные ограничения не являются слишком жесткими.

Узнай больше о PP-YOLOE+

Особенности экосистемы

Хотя PP-YOLOE+ обеспечивает высокую точность, развертывание за пределами собственной экосистемы иногда требует дополнительных этапов конвертации, в отличие от нативных форматов экспорта, доступных в современных конвейерах Ultralytics.

Link to this sectionRTDETRv2: Трансформеры для детектирования в реальном времени#

Отходя от чистых CNN, RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой шаг вперед к механизмам внимания для задач компьютерного зрения. Она пытается объединить способность Transformer понимать глобальный контекст с низкой задержкой, необходимой для реальных приложений.

Детали модели:

Авторы: Вэньюй Лю, Иань Чжао, Циньяо Чанг, Куй Хуан, Гуаньчжун Ван и И Лю
Организация: Baidu
Дата: 2024-07-24
Arxiv: 2407.17140
GitHub: Репозиторий RT-DETRv2
Документация: RTDETRv2 README

Link to this sectionАрхитектура и методологии#

RTDETRv2 использует гибридную архитектуру, сочетая бэкбон CNN для извлечения признаков с оптимизированным энкодером-декодером на базе Transformer. Отличительной характеристикой RTDETRv2 является нативная архитектура end-to-end, которая исключает традиционную постобработку через NMS. Модель также внедряет такие функции, как многомасштабное детектирование и обработка сложных сцен, используя self-attention для понимания пространственных связей между удаленными объектами.

Link to this sectionСильные стороны и сценарии использования#

Архитектура Transformer делает RTDETRv2 очень эффективной в сценариях, где важно понимание глобального контекста. Однако модели Transformer обычно требуют значительно больше памяти CUDA как при обучении, так и при инференсе по сравнению с легкими CNN. Она лучше всего подходит для сред с неограниченным аппаратным обеспечением, таких как облачная видеоаналитика, работающая на мощных GPU-серверах.

Узнай больше о RTDETR

Link to this sectionСравнение производительности и метрик#

При оценке этих моделей решающее значение имеет компромисс между mAP и вычислительными затратами (измеряемыми в FLOPs и задержке инференса). В таблице ниже приведены ключевые показатели для различных масштабов PP-YOLOE+ и RTDETRv2.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(М)	FLOPs ^(Б)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

В то время как RTDETRv2 показывает высокие значения mAP ценой большего количества параметров и FLOPs, разработчики, планирующие развертывание на ограниченных периферийных устройствах, часто сталкиваются с препятствиями из-за высоких требований к памяти, типичных для слоев Transformer.

Link to this sectionСценарии использования и рекомендации#

Выбор между PP-YOLOE+ и RT-DETR зависит от специфических требований твоего проекта, ограничений по развертыванию и предпочтений в экосистеме.

Link to this sectionКогда выбирать PP-YOLOE+#

PP-YOLOE+ — это сильный выбор в следующих случаях:

Интеграция с экосистемой PaddlePaddle: Организации с существующей инфраструктурой, построенной на фреймворке и инструментах Baidu PaddlePaddle.
Развертывание на периферии с Paddle Lite: Развертывание на оборудовании с высокооптимизированными ядрами вывода, специально предназначенными для движка Paddle Lite или Paddle.
Серверное обнаружение с высокой точностью: Сценарии, где приоритетом является максимальная точность обнаружения на мощных GPU-серверах, где зависимость от фреймворка не является проблемой.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR рекомендуется для:

Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionПреимущество Ultralytics: представляем YOLO26#

Хотя и PP-YOLOE+, и RTDETRv2 представляют собой важные вехи, современному разработчику нужна экосистема, которая идеально сочетает экстремальную производительность с удобством использования. Платформа Ultralytics Platform и прорывная модель YOLO26 предлагают именно это.

Выпущенная в январе 2026 года, YOLO26 устанавливает новый стандарт для граничного (edge-first) ИИ в компьютерном зрении. Она элегантно решает проблемы развертывания, связанные со старыми архитектурами, превосходя их как по скорости, так и по точности.

Link to this sectionАрхитектурные инновации#

YOLO26 представляет несколько новаторских улучшений, которые превосходят традиционные CNN и тяжелые Transformer:

End-to-End NMS-Free архитектура: Как и RTDETRv2, YOLO26 является нативно end-to-end. Исключая постобработку NMS, модель обеспечивает более быстрое и простое развертывание с уменьшенным джиттером задержки, что идеально подходит для робототехники и автономных систем.
Инференс на CPU до 43% быстрее: Благодаря глубоким архитектурным оптимизациям, YOLO26 значительно превосходит конкурирующие модели на устройствах без дискретных GPU, что делает её лучшим выбором для IoT и приложений умного города.
Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, YOLO26 использует гибрид SGD и Muon. Это обеспечивает более стабильные траектории обучения и заметно более быструю сходимость, существенно сокращая время обучения на GPU.
ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов — области, в которой такие модели, как PP-YOLOE+, исторически испытывали трудности. Это критически важно для аэросъемки и работы с дронами.
Удаление DFL: Отказ от Distribution Focal Loss упрощает процесс экспорта, обеспечивая бесшовную совместимость с различными периферийными и маломощными устройствами.

Узнай больше о YOLO26

Универсальность для конкретных задач

В отличие от узкоспециализированных детекторов, YOLO26 обладает высокой универсальностью, поддерживая сегментацию экземпляров, оценку позы, классификацию и ориентированные ограничивающие рамки (OBB). Она включает специальные улучшения, такие как RLE для Pose и специализированную функцию потерь по углу для OBB.

Link to this sectionНепревзойденная простота использования#

Одним из самых больших недостатков внедрения сложных архитектур, таких как RTDETRv2, является высокий порог вхождения и разобщенные процессы интеграции. Экосистема Ultralytics полностью абстрагирует эти сложности через интуитивно понятный Python API и комплексную веб-платформу.

Независимо от того, обучаешь ли ты собственные наборы данных или выполняешь быстрый инференс, процесс проходит гладко:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", quantize=16)

Более низкие требования к памяти, типичные для моделей Ultralytics YOLO, означают, что ты можешь обучаться быстрее и развертываться на более дешевом оборудовании по сравнению с аналогами на базе Transformer. Более того, активная разработка и документация мирового уровня гарантируют стабильность твоих производственных конвейеров.

Для команд, изучающих альтернативы, YOLO11 остается хорошо поддерживаемым и исключительно функциональным предшественником в рамках экосистемы, предоставляя отличную базу для интеграции с устаревшим оборудованием. Тебе также может быть полезно ознакомиться с нашим сравнением YOLO11 vs RTDETR.

Link to this sectionРезюме#

PP-YOLOE+ и RTDETRv2 внесли существенный вклад в эволюцию компьютерного зрения, продемонстрировав жизнеспособность передовых конвейеров CNN и трансформеров реального времени соответственно. Однако для организаций, стремящихся развернуть надежные, универсальные и высокооптимизированные приложения компьютерного зрения в 2026 году, Ultralytics YOLO26 предоставляет непревзойденное решение. Её архитектура без NMS, значительно более быстрый инференс на CPU и оптимизированная экосистема позволяют разработчикам переходить от идеи к масштабируемому производству быстрее, чем когда-либо прежде.

Участники

GLglenn-jocher¹⁵ ONonuralpszr¹

Создано 27 янв. 2025 г.Обновлено 3 недели назад

Link to this sectionPP-YOLOE+ против RTDETRv2#

Link to this sectionPP-YOLOE+: Развитие парадигмы CNN#

Link to this sectionАрхитектура и методологии#

Link to this sectionСильные стороны и сценарии использования#

Link to this sectionRTDETRv2: Трансформеры для детектирования в реальном времени#

Link to this sectionАрхитектура и методологии#

Link to this sectionСильные стороны и сценарии использования#

Link to this sectionСравнение производительности и метрик#

Link to this sectionСценарии использования и рекомендации#

Link to this sectionКогда выбирать PP-YOLOE+#

Link to this sectionКогда выбирать RT-DETR#

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Link to this sectionПреимущество Ultralytics: представляем YOLO26#

Link to this sectionАрхитектурные инновации#

Link to this sectionНепревзойденная простота использования#

Link to this sectionРезюме#

Комментарии