Link to this sectionRTDETRv2 против PP-YOLOE+#

Быстро развивающаяся область компьютерного зрения породила разнообразные архитектурные подходы для решения сложных задач обнаружения объектов в реальном времени. Среди самых заметных недавних достижений выделяются RTDETRv2 и PP-YOLOE+ — две мощные модели, подходящие к визуальному распознаванию с фундаментально разных точек зрения. Хотя обе модели нацелены на высокопроизводительное обнаружение, их внутренние механизмы, парадигмы обучения и идеальные сценарии развертывания существенно различаются.

Это подробное руководство погружает в технические нюансы обеих моделей, сравнивая их архитектуры, показатели производительности и поддержку экосистемы, чтобы помочь разработчикам и исследователям выбрать оптимальное решение для их специфических нужд развертывания.

Link to this sectionОбзор моделей#

Перед анализом данных производительности важно понять происхождение и архитектурные цели каждой модели. Обе они происходят из исследовательских групп Baidu, однако представляют разные ветви генеалогического древа обнаружения объектов.

Link to this sectionRTDETRv2#

RTDETRv2 представляет собой значительный скачок в архитектурах зрения на основе Transformer. Основываясь на оригинальном Real-Time Detection Transformer, она использует гибкий бэкбон vision transformer в сочетании с эффективным гибридным энкодером. Ее самой определяющей характеристикой является возможность предсказания, полностью готовая к работе по принципу «end-to-end», что полностью устраняет необходимость в Non-Maximum Suppression (NMS) при постобработке.

Автор: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu Дата: 2024-07-24 Arxiv: 2407.17140
GitHub: RT-DETR Repository

Узнай больше о RTDETRv2

Link to this sectionPP-YOLOE+#

PP-YOLOE+ — это продвинутая итерация серии YOLO, сильно оптимизированная для высокопроизводительных промышленных приложений. Она отличается масштабируемой архитектурой CNN с головой обнаружения без якорей (anchor-free). Разработанная для обеспечения исключительного баланса скорости и точности, она внедряет мощные методы, такие как ET-head и обобщенная функция focal loss, для улучшения обнаружения мелких объектов.

Автор: Авторы PaddlePaddle
Организация: Baidu
Дата: 2022-04-02
Arxiv: 2203.16250
GitHub: PaddleDetection Repository

Узнай больше о PP-YOLOE+

Интеграция с экосистемой

Хотя у обеих моделей есть свои отдельные исследовательские репозитории, ты можешь легко экспериментировать с RTDETRv2 прямо внутри пакета Ultralytics для Python, пользуясь преимуществами унифицированного API и оптимизированными опциями экспорта.

Link to this sectionАрхитектурные различия#

Фундаментальное различие между этими двумя моделями заключается в том, как они обрабатывают визуальный контекст и генерируют предсказания.

PP-YOLOE+ использует традиционный, но высоко оптимизированный бэкбон Convolutional Neural Network (CNN). Он опирается на локальные рецептивные поля для извлечения признаков, что делает его невероятно быстрым и эффективным для стандартного развертывания. Однако он по-прежнему требует стандартной постобработки NMS для фильтрации перекрывающихся bbox, что может привести к задержкам в плотных сценах.

Напротив, RTDETRv2 использует Hybrid Encoder и Transformer Decoder. Это позволяет модели захватывать глобальный контекст по всему изображению одновременно. Механизмы внимания по своей природе понимают взаимосвязи между объектами, позволяя модели выводить финальные bbox напрямую без NMS. Этот подход end-to-end гарантирует стабильную задержку вывода независимо от количества обнаруженных объектов.

Link to this sectionПоказатели производительности и сравнение#

При оценке метрик производительности YOLO критически важно соблюдать баланс между точностью (mAP) и вычислительными затратами (FLOPs), а также скоростью вывода. В таблице ниже показана производительность обеих моделей для различных размеров.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(М)	FLOPs ^(Б)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Хотя PP-YOLOE+x достигает незначительно более высокого mAP^val в 54,7% на датасете COCO, модели RTDETRv2 в целом предлагают конкурентоспособную точность с дополнительным преимуществом в виде стабильной задержки благодаря дизайну без NMS. Однако PP-YOLOE+ сохраняет явное преимущество в количестве параметров и FLOPs для небольших моделей, что делает его высокоэффективным для развертывания на граничных устройствах (edge deployments).

Link to this sectionПреимущество Ultralytics: знакомься с YOLO26#

Хотя RTDETRv2 и PP-YOLOE+ внушительны сами по себе, современный уровень технологий продолжает развиваться. Для разработчиков, ищущих идеальный баланс скорости, точности и поддержки экосистемы, Ultralytics YOLO26 представляет собой новый промышленный стандарт.

YOLO26 синтезирует лучшие аспекты как CNN, так и Transformer. Он принимает дизайн End-to-End NMS-Free, заложенный современными архитектурами, эффективно устраняя узкие места постобработки. Более того, он представляет революционный MuSGD Optimizer, гибридный подход, вдохновленный инновациями в обучении LLM, который обеспечивает высокую стабильность обучения и быструю сходимость.

Оптимизировано для Edge

В отличие от тяжелых моделей Transformer, требующих значительной памяти CUDA, YOLO26 отличается функцией DFL Removal (Distribution Focal Loss) и специально оптимизирован для граничных вычислений (edge computing), обеспечивая до 43% более быстрый CPU вывод по сравнению с предыдущими поколениями.

Кроме того, YOLO26 не ограничивается простым обнаружением объектов. Он изначально универсален, поддерживая instance segmentation, pose estimation и oriented bounding boxes (OBB) «из коробки», тогда как PP-YOLOE+ в первую очередь сфокусирован на обнаружении ограничивающих рамок (bounding box).

Узнай больше о YOLO26

Link to this sectionМетодологии обучения и экосистема#

Эффективность обучения и простота использования — это то, в чем экосистема Ultralytics действительно сияет по сравнению с отдельными исследовательскими репозиториями. Хотя PP-YOLOE+ полагается на фреймворк PaddlePaddle, а RTDETRv2 часто требует сложной настройки окружения, интеграция моделей через Ultralytics обеспечивает бесшовный опыт.

С помощью API Ultralytics ты получаешь преимущества в виде снижения требований к памяти во время обучения, автоматизированной обработки датасетов и упрощенной настройки гиперпараметров. Более того, развертывание моделей в производственные форматы, такие как ONNX или TensorRT, может быть выполнено с помощью одной команды.

Link to this sectionПример кода: Упрощенный вывод (Inference)#

Ниже представлена демонстрация того, как легко ты можешь использовать RTDETRv2 наряду с рекомендуемой моделью YOLO26, используя пакет Ultralytics для Python:

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Link to this sectionПриложения в реальном мире и сценарии использования#

Выбор между этими архитектурами часто зависит от конкретного оборудования и требований приложения.

RTDETRv2 превосходен в серверных средах и при понимании сложных сцен. Его механизм глобального внимания делает его крайне эффективным для управления толпой и плотного анализа медицинских изображений, где перекрывающиеся объекты обычно приводят к сбоям стандартных алгоритмов NMS.
PP-YOLOE+ отлично подходит для высокоскоростной промышленной инспекции и сред, активно использующих экосистему PaddlePaddle. Низкое количество параметров на малых масштабах делает его пригодным для определенных робототехнических приложений.
Ultralytics YOLO26 является повсеместно рекомендуемым решением для комплексного коммерческого развертывания. Благодаря улучшенным функциям ProgLoss + STAL, он значительно улучшает распознавание мелких объектов, что критически важно для операций с дронами и мониторинга дорожного движения в умных городах.

Link to this sectionСценарии использования и рекомендации#

Выбор между RT-DETR и PP-YOLOE+ зависит от твоих специфических требований проекта, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR — отличный выбор для:

Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать PP-YOLOE+#

PP-YOLOE+ рекомендуется для:

Интеграция с экосистемой PaddlePaddle: Организации с существующей инфраструктурой, построенной на фреймворке и инструментах Baidu PaddlePaddle.
Развертывание на периферии с Paddle Lite: Развертывание на оборудовании с высокооптимизированными ядрами вывода, специально предназначенными для движка Paddle Lite или Paddle.
Серверное обнаружение с высокой точностью: Сценарии, где приоритетом является максимальная точность обнаружения на мощных GPU-серверах, где зависимость от фреймворка не является проблемой.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionЗаключение#

И RTDETRv2, и PP-YOLOE+ расширили границы возможного в компьютерном зрении, доказав жизнеспособность как Transformer-архитектур, так и высоко оптимизированных CNN. Однако сложность развертывания фрагментированных исследовательских кодовых баз может замедлить сроки выпуска продукта.

Для современных инженеров ИИ использование платформы Ultralytics дает непревзойденное преимущество. Переходя на бесшовно интегрированные модели, такие как YOLO11 или передовой YOLO26, команды могут достичь максимально возможных коэффициентов точности к скорости, значительно снижая требования к памяти и затраты на разработку.

Участники

GLglenn-jocher¹⁴ PDpderrenger¹

Создано 27 янв. 2025 г.Обновлено 3 недели назад