RTDETRv2 против PP-YOLOE+: Техническое сравнение моделей детектирования объектов
Быстро развивающаяся область компьютерного зрения породила разнообразные архитектурные подходы для решения сложных задач детектирования объектов в реальном времени. Среди наиболее заметных недавних достижений — RTDETRv2 и PP-YOLOE+, две мощные модели, которые подходят к визуальному распознаванию с принципиально разных дизайнерских позиций. Хотя обе модели нацелены на обеспечение высокопроизводительного детектирования, их базовые механизмы, парадигмы обучения и идеальные сценарии развертывания значительно различаются.
Это полное руководство подробно описывает технические нюансы обеих моделей, сравнивая их архитектуры, показатели производительности и поддержку экосистемы, чтобы помочь разработчикам и исследователям выбрать оптимальное решение для их конкретных потребностей развертывания.
Обзор моделей
Прежде чем анализировать данные о производительности, важно понять происхождение и архитектурные цели каждой модели. Обе они исходят от исследовательских групп Baidu, однако они представляют разные ветви генеалогического древа детектирования объектов.
RTDETRv2
RTDETRv2 представляет собой значительный скачок в архитектурах зрения на основе трансформеров. Опираясь на оригинальный Real-Time Detection Transformer, он использует гибкую архитектуру vision transformer в сочетании с эффективным гибридным энкодером. Его наиболее определяющей характеристикой является способность к нативному предсказанию "end-to-end", что полностью устраняет необходимость в Non-Maximum Suppression (NMS) при постобработке.
Автор: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu Организация: Baidu Дата: 2024-07-24 Arxiv: 2407.17140 GitHub: RT-DETR Repository
PP-YOLOE+
PP-YOLOE+ — это продвинутая итерация серии YOLO, сильно оптимизированная для высокопроизводительных промышленных приложений. Она оснащена масштабируемой CNN-архитектурой с детектирующей головой без анкоров (anchor-free). Разработанная для обеспечения исключительного баланса скорости и точности, она внедряет мощные методы, такие как ET-head и обобщенная функция focal loss, для улучшения детектирования малых объектов.
Автор: Авторы PaddlePaddle Организация: Baidu Дата: 2022-04-02 Arxiv: 2203.16250 GitHub: PaddleDetection Repository
Хотя у обеих моделей есть свои отдельные исследовательские репозитории, ты можешь легко экспериментировать с RTDETRv2 прямо в пакете Ultralytics Python, используя преимущества унифицированного API и оптимизированных параметров экспорта.
Архитектурные различия
Фундаментальное различие между этими двумя моделями заключается в том, как они обрабатывают визуальный контекст и генерируют предсказания.
PP-YOLOE+ использует традиционную, но высоко оптимизированную архитектуру Convolutional Neural Network (CNN). Она опирается на локальные рецептивные поля для извлечения признаков, что делает ее невероятно быстрой и эффективной для стандартного развертывания. Однако она все еще требует стандартной постобработки NMS для фильтрации перекрывающихся рамок (BBox), что может привести к задержкам в сценах с высокой плотностью объектов.
Напротив, RTDETRv2 использует гибридный энкодер и декодер Transformer. Это позволяет модели захватывать глобальный контекст по всему изображению одновременно. Механизмы внимания по своей сути понимают связи между объектами, позволяя модели выдавать финальные рамки (BBox) напрямую без NMS. Этот подход end-to-end обеспечивает стабильную задержку вывода независимо от количества детектируемых объектов.
Показатели производительности и сравнение
При оценке метрик производительности YOLO крайне важно сбалансировать точность (mAP) и вычислительные затраты (FLOPs), а также скорость вывода. В таблице ниже показана производительность обеих моделей для различных размеров.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Хотя PP-YOLOE+x достигает незначительно более высокого mAPval в 54.7% на датасете COCO, модели RTDETRv2 в целом предлагают конкурентоспособную точность с дополнительным преимуществом в виде стабильной задержки благодаря дизайну без использования NMS. Однако PP-YOLOE+ сохраняет преимущество в количестве параметров и FLOPs для моделей меньшего размера, что делает ее очень эффективной для развертывания на периферийных устройствах (edge).
Преимущество Ultralytics: знакомство с YOLO26
Хотя RTDETRv2 и PP-YOLOE+ сильны сами по себе, современный уровень технологий продолжает развиваться. Для разработчиков, ищущих идеальный баланс скорости, точности и поддержки экосистемы, Ultralytics YOLO26 представляет собой новый промышленный стандарт.
YOLO26 синтезирует лучшие аспекты как CNN, так и Transformer. Она использует дизайн End-to-End NMS-Free, ставший новаторским для современных архитектур, эффективно устраняя узкие места постобработки. Кроме того, она внедряет революционный оптимизатор MuSGD, гибридный подход, вдохновленный инновациями в обучении LLM, который обеспечивает высокую стабильность обучения и быструю сходимость.
В отличие от тяжелых трансформерных моделей, требующих значительной памяти CUDA, YOLO26 использует удаление DFL (Distribution Focal Loss) и специально оптимизирована для edge-вычислений, обеспечивая до 43% более быстрый вывод на CPU по сравнению с предыдущими поколениями.
Кроме того, YOLO26 не ограничивается простым детектированием объектов. Она обладает нативной универсальностью, поддерживая сегментацию экземпляров, оценку позы и ориентированные ограничивающие рамки (OBB) «из коробки», тогда как PP-YOLOE+ в основном сфокусирована на детектировании ограничивающих рамок.
Методологии обучения и экосистема
Эффективность обучения и простота использования — это те области, где экосистема Ultralytics по-настоящему выделяется на фоне отдельных исследовательских репозиториев. В то время как PP-YOLOE+ полагается на фреймворк PaddlePaddle, а RTDETRv2 часто требует сложной настройки окружения, интеграция моделей через Ultralytics обеспечивает бесшовный опыт.
С помощью API Ultralytics ты получаешь выгоду от меньших требований к памяти при обучении, автоматизированной обработки данных и упрощенной настройки гиперпараметров. Более того, развертывание моделей в производственные форматы, такие как ONNX или TensorRT, выполняется одной командой.
Пример кода: Оптимизированный вывод
Ниже продемонстрировано, насколько легко ты можешь использовать RTDETRv2 вместе с рекомендованной моделью YOLO26, используя пакет Ultralytics Python:
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")Приложения в реальном мире и варианты использования
Выбор между этими архитектурами часто зависит от конкретного оборудования и требований приложения.
- RTDETRv2 отлично подходит для серверных сред и понимания сложных сцен. Его механизм глобального внимания делает его крайне эффективным для управления толпой и плотного медицинского анализа изображений, где перекрывающиеся объекты обычно приводят к сбоям в стандартных алгоритмах NMS.
- PP-YOLOE+ отлично подходит для высокоскоростного промышленного контроля и сред, активно использующих экосистему PaddlePaddle. Низкое количество параметров в меньших масштабах делает ее пригодной для определенных робототехнических приложений.
- Ultralytics YOLO26 — это универсальное рекомендуемое решение для комплексного коммерческого развертывания. Благодаря улучшенным функциям ProgLoss + STAL она значительно улучшает распознавание мелких объектов, что критически важно для операций с беспилотниками и мониторинга дорожного движения в умных городах.
Варианты использования и рекомендации
Выбор между RT-DETR и PP-YOLOE+ зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.
Когда стоит выбирать RT-DETR
RT-DETR — сильный выбор для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать PP-YOLOE+
PP-YOLOE+ рекомендуется для:
- Интеграция с экосистемой PaddlePaddle: организации с существующей инфраструктурой, построенной на фреймворке и инструментах Baidu PaddlePaddle.
- Развертывание на Paddle Lite Edge: развертывание на оборудовании с высокооптимизированными ядрами вывода специально для двигателя Paddle Lite или вывода Paddle.
- Высокоточное обнаружение на стороне сервера: сценарии, отдающие приоритет максимальной точности обнаружения на мощных серверных GPU, где зависимость от фреймворка не является проблемой.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Заключение
И RTDETRv2, и PP-YOLOE+ расширили границы возможного в компьютерном зрении, доказав жизнеспособность как трансформеров, так и высоко оптимизированных CNN-архитектур. Однако сложность развертывания фрагментированных исследовательских кодовых баз может тормозить сроки производства.
Для современных инженеров по ИИ использование платформы Ultralytics дает непревзойденное преимущество. Переходя на бесшовно интегрированные модели, такие как YOLO11 или передовая YOLO26, команды могут достичь максимально возможного соотношения точности к скорости, при этом значительно снизив требования к памяти и затраты на разработку.