PP-YOLOE+ против RTDETRv2: сравнение методов глубокого обучения для обнаружения объектов
Развитие архитектур обнаружения объектов было отмечено ожесточенной конкуренцией между сверточными нейронными сетями (CNN) и моделями на основе трансформеров. Двумя важными вехами в этой истории являются PP-YOLOE+, усовершенствованный детектор на основе CNN из PaddlePaddle , и RTDETRv2, передовой трансформер для обнаружения в реальном времени.
В этом техническом сравнении оцениваются их архитектуры, показатели производительности и пригодность для развертывания, чтобы помочь исследователям и инженерам выбрать оптимальную модель для своих конкретных приложений компьютерного зрения.
Краткое изложение
PP-YOLOE+ представляет собой вершинуYOLO , уделяя особое внимание усовершенствованию механизмов без анкеров и стратегий присвоения меток в рамках чистой CNN-структуры. Он отлично работает в средах, глубоко интегрированных с PaddlePaddle Baidu PaddlePaddle , но может сталкиваться с трудностями при экспорте в другие экосистемы.
RTDETRv2 (Real-Time Detection Transformer v2) расширяет границы возможностей за счет внедрения гибкого, настраиваемого декодера и оптимизации гибридного кодера. Он успешно устраняет необходимость в использовании Non-Maximum Suppression (NMS), распространенного узкого места в постобработке, за счет использования глобальных возможностей трансформаторов.
Однако для разработчиков, которые ищут унифицированное решение, сочетающее в себе скорость CNN и удобство трансформаторов NMS, без огромных вычислительных затрат,Ultralytics предлагает превосходную альтернативу. Благодаря своей встроенной сквозной архитектуре и на 43 % более быстрой CPU , YOLO26 устраняет разрыв между высокопроизводительными серверами и периферийными устройствами.
PP-YOLOE+: Мощный CNN без привязки к якорям
Выпущенный в 2022 году, PP-YOLOE+ является обновленной версией PP-YOLOE, в которой используется мощная основа и динамическое присвоение меток для достижения конкурентоспособной точности.
Авторы: PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection
Архитектурные особенности
PP-YOLOE+ использует CSPRepResStage, основу, которая сочетает в себе преимущества градиентного потока CSPNet с методами перепараметризации, используемыми в RepVGG. Это позволяет модели иметь сложную динамику обучения, которая сводится к простым сверткам во время вывода, ускоряя развертывание.
В модели используется головка Anchor-Free со стратегией Task Alignment Learning (TAL). В отличие от старых методов на основе анкоров, которые полагаются на заранее определенные рамки, PP-YOLOE+ предсказывает центр объектов и их расстояние до краев ограничивающей рамки. Это упрощает поиск гиперпараметров и улучшает обобщение на различных наборах данных, таких как COCO.
Ограничения наследия
Хотя PP-YOLOE+ предлагает высокую производительность, его сильная зависимость от PaddlePaddle может усложнить процессы развертывания, стандартизированные на PyTorch ONNX. Пользователям часто требуются специальные конвертеры для переноса моделей на периферийные платформы.
RTDETRv2: эволюция Transformer
RTDETRv2 основан на успехе оригинального RT-DETR и призван доказать, что трансформеры могут превосходить YOLO в сценариях реального времени. Он решает проблему высокой вычислительной стоимости стандартных трансформеров Vision Transformers (ViT) за счет использования гибридного кодировщика, который эффективно обрабатывает многомасштабные особенности.
Авторы: Вэнью Лв, Янь Чжао, Циньяо Чан, Куй Хуан, Гуанчжун Ван и И Лю
Организация: Baidu
Дата: 17.04.2023 (оригинал), 24.07.2024 (версия v2)
Arxiv:2304.08069
GitHub:RT-DETR
Архитектурные особенности
Основной инновацией в RTDETRv2 является гибридный кодировщик и выбор запросовIoU. Традиционные трансформеры сталкиваются с квадратичной сложностью механизмов внимания при обработке карт характеристик с высоким разрешением. RTDETRv2 смягчает эту проблему за счет развязки внутримасштабного взаимодействия и межмасштабного слияния, что значительно сокращает использование памяти.
Важно отметить, что RTDETRv2 является детектором типа «конец-конец ». Во время обучения он использует алгоритм Hungarian Matcher для сопоставления прогнозов с реальными данными в соотношении один к одному. Это означает, что результаты модели не требуют NMS , что позволяет избежать всплесков задержки и настройки параметров, характерных для традиционных YOLO .
Сравнение производительности
В следующей таблице сравниваются характеристики обеих архитектур. В то время как PP-YOLOE+ демонстрирует высокую эффективность при меньшем количестве параметров, RTDETRv2 показывает превосходную масштабируемость при больших размерах, хотя и с более высокими вычислительными требованиями (FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Преимущества Ultralytics: Почему стоит выбрать YOLO26?
Хотя RTDETRv2 представил преимущества обнаружения NMS, это было достигнуто за счет использования тяжелых блоков трансформаторов, которые часто медленно обучаются и трудно развертываются наGPU . Ultralytics революционизирует эту область, достигая сквозного обнаружения NMS с использованием чистой архитектуры CNN.
Применяя стратегию последовательного двойного назначения (CDA) во время обучения, YOLO26 учится подавлять дубликаты коробок внутри системы. Это устраняет накладные расходы NMS на вывод, NMS приводя к задержкам в работе трансформаторов.
Основные преимущества YOLO26
- Оптимизатор MuSGD: Вдохновленный инновациями в области обучения LLM, такими как Kimi K2 от Moonshot AI, оптимизатор MuSGD сочетает в себе SGD Muon для более быстрой конвергенции и стабильного обучения, что является уникальной особенностью поколения YOLO26.
- Оптимизированная эффективность: благодаря устранению распределительной фокальной потери (DFL) и сложных слоев внимания, YOLO26 достигает до 43% более быстрой CPU по сравнению с предыдущими итерациями. Это делает его идеальным для запуска на Raspberry Pi или мобильных устройствах, где RTDETR испытывает трудности.
- Универсальность задач: в отличие от PP-YOLOE+, который в основном является детектором, YOLO26 изначально поддерживает оценку позы, сегментацию экземпляров и OBB в одной библиотеке.
- ProgLoss + STAL: новые функции потери улучшают обнаружение мелких объектов — критический недостаток многих моделей трансформаторов — что делает YOLO26 превосходным инструментом для анализа аэрофотоснимков.
Оптимизированный рабочий процесс с Ultralytics
Забудьте о сложных конфигурационных файлах. Вы можете обучать, версионировать и развертывать модели YOLO26 напрямую через Ultralytics . Экосистема обрабатывает все, от аннотирования наборов данных до экспорта в TensorRT, CoreML и TFLite одним щелчком мыши.
Пример кода: Начало работы с YOLO26
С помощьюPython Ultralytics запуск новейшей современной модели становится невероятно простым:
from ultralytics import YOLO
# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for simplified deployment
model.export(format="onnx")
Идеальные варианты использования
Когда использовать PP-YOLOE+
- Устаревшие системы Paddle: если ваша существующая инфраструктура построена полностью на Baidu PaddlePaddle, PP-YOLOE+ предоставляет нативный путь обновления без изменения фреймворков.
- CNN на стороне сервера: для сценариев, в которых GPU достаточно, но в среде развертывания отсутствует поддержка трансформаторов (например, TensorRT для Multi-Head Attention).
Когда использовать RTDETRv2
- Перегруженные сцены: глобальный механизм внимания трансформеров помогает в сценах с сильной окклюзией, где CNN могут испытывать трудности с разделением перекрывающихся объектов.
- Фиксированное оборудование: подходит для высокопроизводительных графических процессоров (таких как NVIDIA или A100), где накладные расходы на умножение матриц трансформаторов незначительны по сравнению с повышением точности.
Когда использовать Ultralytics YOLO26
- Edge & Mobile AI: Низкое потребление памяти и высокая CPU делают YOLO26 идеальным выбором для Android или встроенных системах.
- Аналитика видео в реальном времени: для приложений, требующих высокой частоты кадров, таких как мониторинг дорожного движения или производственные линии, конструкция NMS обеспечивает детерминированную задержку.
- Исследования и быстрое прототипирование: обширная документация и активная поддержка сообщества позволяют исследователям быстро повторять операции, используя предварительно обученные веса для различных задач, выходящих за рамки простого обнаружения ограничивающих рамок.
Заключение
Как PP-YOLOE+, так и RTDETRv2 внесли значительный вклад в область компьютерного зрения. PP-YOLOE+ расширил границы CNN в экосистеме Paddle, а RTDETRv2 продемонстрировал жизнеспособность трансформеров для задач в реальном времени. Однако Ultralytics представляет собой синтез этих достижений: он предлагает архитектурную простоту и скорость CNN с элегантностью трансформатора, NMS. В сочетании с надежной Ultralytics он является наиболее универсальным инструментом для современной разработки ИИ.