RTDETRv2 против PP-YOLOE+: Техническое сравнение моделей обнаружения объектов
Быстро развивающаяся область компьютерного зрения породила разнообразные архитектурные подходы для решения сложных задач обнаружения объектов в реальном времени. Среди наиболее заметных недавних достижений — RTDETRv2 и PP-YOLOE+, две мощные модели, которые подходят к визуальному распознаванию с принципиально разных дизайнерских философий. Хотя обе модели нацелены на обеспечение высокопроизводительного обнаружения, их базовые механизмы, парадигмы обучения и идеальные сценарии развертывания значительно различаются.
Это всеобъемлющее руководство углубляется в технические нюансы обеих моделей, сравнивая их архитектуры, метрики производительности и поддержку экосистемы, чтобы помочь разработчикам и исследователям выбрать оптимальное решение для их конкретных потребностей развертывания.
Обзоры моделей
Прежде чем анализировать данные о производительности, важно понять происхождение и архитектурные цели каждой модели. Обе модели созданы исследовательскими группами Baidu, но они представляют разные ветви генеалогического древа обнаружения объектов.
RTDETRv2
RTDETRv2 представляет собой значительный прорыв в архитектурах компьютерного зрения на основе трансформеров. Развивая оригинальный Real-Time Detection Transformer, он использует гибкую опорную сеть Vision Transformer в сочетании с эффективным гибридным энкодером. Его наиболее определяющей характеристикой является встроенная сквозная возможность предсказания, полностью исключающая необходимость в Non-Maximum Suppression (NMS) во время постобработки.
Автор: Вэньюй Лю, Иань Чжао, Циняо Чан, Куй Хуан, Гуаньчжун Ван и И Лю
Организация: Baidu
Дата: 24.07.2024
Arxiv: 2407.17140
GitHub: Репозиторий RT-DETR
PP-YOLOE+
PP-YOLOE+ — это продвинутая итерация серии YOLO, сильно оптимизированная для высокопроизводительных промышленных приложений. Он имеет масштабируемую архитектуру CNN с безанкерной головой обнаружения. Разработанный для обеспечения исключительного компромисса между скоростью и точностью, он представляет мощные методы, такие как ET-head и обобщенную функцию фокальных потерь для улучшения обнаружения мелких объектов.
Автор: Авторы PaddlePaddle
Организация: Baidu
Дата: 02.04.2022
Arxiv: 2203.16250
GitHub: Репозиторий PaddleDetection
Интеграция в экосистему
Хотя обе модели имеют свои автономные исследовательские репозитории, вы можете легко экспериментировать с RTDETRv2 непосредственно в пакете Ultralytics Python, используя унифицированный API и упрощенные параметры экспорта.
Архитектурные различия
Фундаментальное различие между этими двумя моделями заключается в том, как они обрабатывают визуальный контекст и генерируют предсказания.
PP-YOLOE+ использует традиционную, но высокооптимизированную основу сверточной нейронной сети (CNN). Она опирается на локальные рецептивные поля для извлечения признаков, что делает ее невероятно быстрой и эффективной для стандартного развертывания. Однако ей по-прежнему требуется стандартная постобработка NMS для фильтрации перекрывающихся ограничивающих рамок, что может создавать узкие места по задержке в сценах с высокой плотностью объектов.
Напротив, RTDETRv2 использует гибридный кодировщик и Transformer-декодер. Это позволяет модели одновременно захватывать глобальный контекст по всему изображению. Механизмы внимания по своей природе понимают взаимосвязи между объектами, позволяя модели выводить окончательные ограничивающие рамки напрямую без NMS. Этот сквозной подход обеспечивает стабильную задержку инференса независимо от количества обнаруженных объектов.
Метрики производительности и сравнение
При оценке метрик производительности YOLO крайне важно сбалансировать точность (mAP) с вычислительными затратами (FLOPs) и скоростью инференса. В таблице ниже представлена производительность обеих моделей в различных размерах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Хотя PP-YOLOE+x достигает незначительно более высокого mAPval в 54,7% на наборе данных COCO, модели RTDETRv2 обычно предлагают конкурентную точность с дополнительным преимуществом стабильной задержки благодаря их беc-NMS архитектуре. Однако PP-YOLOE+ сохраняет значительное преимущество по количеству параметров и FLOPs для небольших моделей, что делает его высокоэффективным для развертывания на периферийных устройствах.
Преимущество Ultralytics: Представляем YOLO26
Хотя RTDETRv2 и PP-YOLOE+ грозны сами по себе, современное состояние технологий продолжает развиваться. Для разработчиков, ищущих идеальный баланс скорости, точности и поддержки экосистемы, Ultralytics YOLO26 представляет собой новый отраслевой стандарт.
YOLO26 синтезирует лучшие аспекты как CNN, так и Трансформеров. Он использует сквозную архитектуру без NMS, впервые примененную в современных архитектурах, эффективно устраняя узкие места постобработки. Кроме того, он представляет революционный оптимизатор MuSGD, гибридный подход, вдохновленный инновациями в обучении LLM, который обеспечивает высокостабильное обучение и быструю сходимость.
Оптимизировано для периферии
В отличие от тяжелых трансформерных моделей, требующих значительной памяти CUDA, YOLO26 включает удаление DFL (Distribution Focal Loss) и специально оптимизирован для граничных вычислений, обеспечивая до 43% более быструю инференцию на CPU по сравнению с предыдущими поколениями.
Кроме того, YOLO26 не ограничивается простым обнаружением объектов. Она изначально универсальна, поддерживая сегментацию экземпляров, оценку позы и ориентированные ограничивающие рамки (obb) из коробки, в то время как PP-YOLOE+ в основном ориентирована на обнаружение ограничивающих рамок.
Методологии обучения и экосистема
Эффективность обучения и простота использования — это те области, где экосистема Ultralytics действительно превосходит автономные исследовательские репозитории. В то время как PP-YOLOE+ опирается на фреймворк PaddlePaddle, а RTDETRv2 часто требует сложной настройки окружения, интеграция моделей через Ultralytics обеспечивает бесшовный опыт.
С Ultralytics API вы получаете преимущества от более низких требований к памяти во время обучения, автоматизированной обработки наборов данных и упрощенной настройки гиперпараметров. Кроме того, развертывание моделей в производственные форматы, такие как ONNX или TensorRT, может быть выполнено одной командой.
Пример кода: Оптимизированный вывод
Ниже приведена демонстрация того, как легко вы можете использовать RTDETRv2 вместе с рекомендованной моделью YOLO26 с помощью пакета Ultralytics Python:
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")
Реальные приложения и сценарии использования
Выбор между этими архитектурами часто зависит от конкретных аппаратных средств и требований приложения.
- RTDETRv2 отлично проявляет себя в серверных средах и при понимании сложных сцен. Его механизм глобального внимания делает его высокоэффективным для управления толпой и анализа плотных медицинских изображений, где перекрывающиеся объекты обычно приводят к сбою стандартных алгоритмов NMS.
- PP-YOLOE+ отлично подходит для высокоскоростной промышленной инспекции и сред, активно использующих экосистему PaddlePaddle. Малое количество параметров в меньших масштабах делает его пригодным для некоторых робототехнических приложений.
- Ultralytics YOLO26 — это универсально рекомендуемое решение для комплексного коммерческого развертывания. Благодаря улучшенным функциям ProgLoss + STAL оно значительно улучшает распознавание мелких объектов, что критически важно для операций с воздушными дронами и мониторинга дорожного движения в умных городах.
Сценарии использования и рекомендации
Выбор между RT-DETR и PP-YOLOE+ зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбрать RT-DETR
RT-DETR — отличный выбор для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда следует выбирать PP-YOLOE+
PP-YOLOE+ рекомендуется для:
- Интеграция с экосистемой PaddlePaddle: Для организаций с существующей инфраструктурой, построенной на фреймворке и инструментарии Baidu PaddlePaddle.
- Развертывание Paddle Lite на периферийных устройствах: Развертывание на аппаратном обеспечении с высокооптимизированными ядрами вывода специально для механизма вывода Paddle Lite или Paddle.
- Высокоточное серверное обнаружение: Сценарии, где приоритетом является максимальная точность обнаружения на мощных GPU-серверах, и зависимость от фреймворка не является проблемой.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Заключение
Как RTDETRv2, так и PP-YOLOE+ расширили границы возможного в компьютерном зрении, доказав жизнеспособность как трансформерных, так и высокооптимизированных архитектур CNN. Однако сложность развертывания фрагментированных исследовательских кодовых баз может замедлить сроки производства.
Для современных инженеров ИИ использование платформы Ultralytics обеспечивает непревзойденное преимущество. Переходя на бесшовно интегрированные модели, такие как YOLO11 или передовой YOLO26, команды могут достичь максимально возможных соотношений точности к скорости, значительно сокращая требования к памяти и накладные расходы на разработку.