PP-YOLOE+ против RTDETRv2: Техническое сравнение
При выборе современных моделей обнаружения объектов часто приходится выбирать между устоявшимися архитектурами конволюционных нейронных сетей (CNN) и новыми разработками на основе трансформаторов. В данном техническом сравнении рассматриваются PP-YOLOE+ и RTDETRv2, две высокопроизводительные модели, созданные компанией Baidu. В то время как PP-YOLOE+ представляет собой эволюцию эффективных CNN без якорей в экосистеме PaddlePaddle , RTDETRv2 (Real-Time Detection Transformer version 2) расширяет границы точности с помощью трансформаторов зрения.
В этом анализе рассматриваются их архитектурные новшества, показатели производительности и идеальные сценарии развертывания, чтобы помочь вам выбрать подходящий инструмент для ваших проектов в области компьютерного зрения.
PP-YOLOE+: Эффективная безъякорная CNN
PP-YOLOE+ - это современный промышленный детектор объектов, разработанный командой PaddlePaddle . Он является модернизацией PP-YOLOE, сфокусированной на улучшении баланса между эффективностью обучения, скоростью вывода и точностью обнаружения. Построенный на принципах семейства YOLO (You Only Look Once), он создает обтекаемую архитектуру без якорей, оптимизированную для практического применения в реальном мире.
- Авторы: Авторы PaddlePaddle
- Организация:Baidu
- Дата: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- Документы:PaddleDetection PP-YOLOE+ README
Архитектура и основные функции
В PP-YOLOE+ используется масштабируемая магистраль CSPResNet, которая эффективно извлекает признаки на разных масштабах. Отличительной особенностью архитектуры является использование горловины CSPPAN (Cross Stage Partial Path Aggregation Network), которая улучшает объединение признаков. Ключевым новшеством является эффективная голова с выравниванием задач (ET-Head), которая разделяет задачи классификации и локализации, обеспечивая их выравнивание в процессе обучения с помощью Task Alignment Learning (TAL). Этот подход устраняет необходимость в чувствительной настройке гиперпараметров якорного ящика.
Сильные стороны и ограничения
Основная сила PP-YOLOE+ заключается в скорости вычислений. Он спроектирован таким образом, чтобы работать очень быстро на различном оборудовании, от GPU серверного класса до граничных устройств, не жертвуя при этом значительной точностью. Безъякорная конструкция упрощает конвейер обучения, что облегчает адаптацию к новым наборам данных.
Однако его опора на PaddlePaddle может стать препятствием для команд, глубоко интегрированных в PyTorch или экосистемы TensorFlow . Перенос моделей или поиск совместимых инструментов развертывания за пределами пакета Baidu может привести к возникновению трудностей.
RTDETRv2: Трансформер-мощник
RTDETRv2 представляет собой значительный скачок в области обнаружения объектов в реальном времени благодаря успешной адаптации архитектуры Transformer, изначально разработанной для обработки естественного языка, для задач зрения на конкурентоспособных скоростях. Она решает проблему высоких вычислительных затрат, обычно связанных с трансформаторами, предлагая "пакет бесплатных решений", которые улучшают исходный базовый уровень RT-DETR .
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2023-04-17 (оригинал), 2024-07-24 (релиз v2)
- Arxiv:https://arxiv.org/abs/2304.08069RT-DETR), https://arxiv.org/abs/2407.17140RT-DETRv2)
- GitHub:РепозиторийRT-DETR на GitHub
- Документы:Документация поRT-DETRv2
Архитектура и основные функции
В RTDETRv2 используется гибридный кодер, который эффективно обрабатывает разномасштабные признаки, отделяя внутримасштабное взаимодействие от межмасштабного слияния. Такая конструкция позволяет ему улавливать глобальный контекст - взаимосвязимежду удаленными частями изображения - гораздо эффективнее, чем локальные рецептивные поля CNN. В нем используется механизм выбора запросовIoU для инициализации запросов к объектам, что стабилизирует процесс обучения и улучшает конечное качество обнаружения. В обновлении v2 появился гибкий декодер, который позволяет пользователям регулировать скорость вывода путем изменения слоев декодера без переобучения.
Сильные стороны и ограничения
Отличительной особенностью RTDETRv2 является точность в сложных сценах, особенно в тех, где объекты заслонены или не имеют четкой визуальной различимости. Механизм самонаблюдения позволяет модели "рассуждать" о сцене глобально.
Интенсивность использования ресурсов
Несмотря на название "Real-Time", модели на основе трансформаторов, такие как RTDETRv2, как правило, более требовательны к ресурсам, чем CNN. Они обычно требуют значительно больше памятиCUDA во время обучения и имеют более высокую скорость выполнения операций FLOP, что может затруднить развертывание на устройствах с ограниченным объемом памяти по сравнению с эффективными CNN, такими как YOLO.
Анализ производительности: скорость в сравнении с точностью
Выбор между этими двумя моделями часто сводится к конкретным ограничениям среды развертывания. Приведенная ниже таблица иллюстрирует компромиссы, сравнивая среднюю точность (mAP) и задержку вывода.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Основные выводы:
- Эффективность малых моделей: На меньшем конце спектра PP-YOLOE+s работает почти в два раза быстрее RTDETRv2-s (2,62 мс против 5,03 мс), используя при этом значительно меньшее количество параметров (7,93 М против 20 М).
- Пиковая точность:RTDETRv2 в целом обеспечивает более высокую точность на параметр в среднем диапазоне (модели M и L). Однако самый большой PP-YOLOE+x практически соответствует или немного превосходит точность RTDETRv2-x (54,7 против 54,3 mAP), сохраняя при этом немного меньшую задержку.
- Вычислительная нагрузка: Модели RTDETRv2 постоянно демонстрируют более высокое количество FLOPs, что свидетельствует о более высокой вычислительной нагрузке, которая влияет на время автономной работы и тепловыделение во встраиваемых системах.
Приложения в реальном мире
Когда следует выбирать PP-YOLOE+
- Высокоскоростное производство: Для сборочных линий, требующих контроля качества с высокой частотой кадров, где важна миллисекундная задержка.
- Граничные устройства: При развертывании на оборудовании с ограниченным бюджетом питания, таком как беспилотные летательные аппараты или портативные сканеры, где критически важны меньшее количество FLOP и количество параметров.
- ЭкосистемаPaddlePaddle : Если ваша существующая инфраструктура уже построена на основе фреймворка PaddlePaddle от Baidu.
Когда следует выбирать RTDETRv2
- Сложные сценарии: Для автономного вождения или мониторинга дорожного движения, где понимание взаимосвязи между объектами (контекст) так же важно, как и их обнаружение.
- Многолюдные сцены: В системах наблюдения с сильной окклюзией механизм глобального внимания трансформатора помогает поддерживать согласованность отслеживания и обнаружения лучше, чем чистые CNN.
Преимущество Ultralytics : Почему YOLO11 выделяется
В то время как PP-YOLOE+ и RTDETRv2 являются грозными моделями, Ultralytics YOLO11 предлагает убедительную альтернативу, которая часто становится лучшим выбором для большинства разработчиков и исследователей.
- Простота использования: Ultralytics уделяет первостепенное внимание работе с разработчиками. С помощью простого API и CLI на Python вы можете обучать, проверять и развертывать модели за считанные минуты. В отличие от сложной конфигурации, которая часто требуется для PaddleDetection или исследовательских кодовых баз, таких как RT-DETR, модели Ultralytics YOLO работают "из коробки".
- Хорошо поддерживаемая экосистема: Экосистема Ultralytics динамична и активно обновляется. Она включает в себя бесшовные интеграции с инструментами для аннотирования данных, отслеживания экспериментов (например, MLflow и Comet) и развертывания.
- Баланс производительности:YOLO11 разработан таким образом, чтобы обеспечить оптимальный компромисс между скоростью и точностью. Он часто соответствует или превосходит по точности трансформаторные модели, сохраняя при этом скорость и эффективность использования памяти CNN.
- Эффективность памяти: Одно из важнейших преимуществ YOLO11 - меньший объем занимаемой памяти. Для обучения моделей на основе трансформаторов, таких как RTDETRv2, могут потребоваться огромные объемы VRAM GPU . YOLO11 оптимизирован для эффективного обучения на оборудовании потребительского класса.
- Универсальность: В отличие от многих конкурентов, ориентированных исключительно на ограничительные рамки, единая архитектура модели YOLO11 поддерживает обнаружение объектов, сегментацию объектов, оценку позы, классификацию и ориентированное обнаружение объектов (OBB).
Пример: Обучение YOLO11 на языке Python
Следующий пример демонстрирует простоту рабочего процесса Ultralytics по сравнению с более сложными фреймворками:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Заключение
И PP-YOLOE+, и RTDETRv2 демонстрируют стремительный прогресс в области компьютерного зрения. PP-YOLOE+ - отличный выбор для тех, кто глубоко внедрен в экосистему PaddlePaddle и нуждается в высокой эффективности, а RTDETRv2 демонстрирует высокоточный потенциал трансформаторов.
Однако разработчикам требуется универсальное, простое в использовании и поддерживаемое сообществом решение, не идущее на компромисс с производительностью, Ultralytics YOLO11 остается рекомендованным стандартом. Баланс низкого потребления памяти, высокой скорости и многозадачности делает его наиболее практичным выбором для перехода от прототипа к производству решений в области ИИ.