Baidu's RT-DETR: детектор объектов в реальном времени на основе трансформатора зрения
Обзор
Real-Time Detection Transformer (RT-DETR), разработанный компанией Baidu, - это передовой сквозной детектор объектов, который обеспечивает производительность в реальном времени при сохранении высокой точности. Он использует возможности Vision Transformers (ViT) для эффективной обработки разномасштабных признаков, отделяя внутримасштабное взаимодействие от межмасштабного слияния. RT-DETR обладает высокой адаптивностью, поддерживая гибкую настройку скорости вывода с использованием различных слоев декодера без переобучения. Модель отлично работает на ускоренных бэкендах, таких как CUDA с TensorRT, превосходя многие другие детекторы объектов в реальном времени.
Смотри: Трансформатор обнаружения в реальном времени (RT-DETR)
Обзор сайта Baidu RT-DETR. На схеме архитектуры модели RT-DETR показаны три последних этапа магистрали {S3, S4, S5} в качестве входа для кодера. Эффективный гибридный кодер преобразует разномасштабные признаки в последовательность признаков изображения с помощью внутримасштабного взаимодействия признаков (AIFI) и модуля межмасштабного слияния признаков (CCFM). Выбор запросов с учетом IoU используется для выбора фиксированного количества признаков изображения, которые будут служить начальными объектными запросами для декодера. Наконец, декодер со вспомогательными головками предсказания итеративно оптимизирует запросы к объектам, чтобы сгенерировать боксы и баллы доверия (источник).
Основные характеристики
- Эффективный гибридный кодер: На сайте Baidu RT-DETR используется эффективный гибридный кодер, который обрабатывает разномасштабные признаки, отделяя внутримасштабное взаимодействие от межмасштабного слияния. Эта уникальная конструкция на основе Vision Transformers снижает вычислительные затраты и позволяет обнаруживать объекты в режиме реального времени.
- IoU-aware Query Selection: Baidu's RT-DETR улучшает инициализацию запросов к объектам за счет использования IoU-aware query selection. Это позволяет модели фокусироваться на наиболее релевантных объектах в сцене, повышая точность обнаружения.
- Адаптируемая скорость вывода: RT-DETR от Baidu поддерживает гибкую настройку скорости вывода за счет использования различных слоев декодера без необходимости переобучения. Такая адаптивность облегчает практическое применение в различных сценариях обнаружения объектов в реальном времени.
Предварительно обученные модели
Ultralytics Python API предоставляет предварительно обученные модели PaddlePaddle RT-DETR с разными масштабами:
- RT-DETR-L: 53,0% AP на COCO val2017, 114 FPS на T4 GPU
- RT-DETR-X: 54,8% AP на COCO val2017, 74 FPS на GPU T4
Примеры использования
В этом примере приведены простые примеры обучения и вывода RT-DETR . Полную документацию по этим и другим режимам можно найти на страницах Predict, Train, Val и Export docs.
Пример
from ultralytics import RTDETR
# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')
# Display model information (optional)
model.info()
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)
# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
Поддерживаемые задачи и режимы
В этой таблице представлены типы моделей, конкретные предварительно обученные веса, задачи, поддерживаемые каждой моделью, и различные режимы(Train, Val, Predict, Export), которые поддерживаются, обозначенные ✅ emojis.
Тип модели | Предварительно обученные веса | Поддерживаемые задачи | Заключение | Валидация | Тренировка | Экспорт |
---|---|---|---|---|---|---|
RT-DETR Большой | rtdetr-l.pt | Обнаружение объектов | ✅ | ✅ | ✅ | ✅ |
RT-DETR Экстрабольшой | rtdetr-x.pt | Обнаружение объектов | ✅ | ✅ | ✅ | ✅ |
Цитаты и благодарности
Если ты используешь сайт Baidu RT-DETR в своих исследованиях или разработках, пожалуйста, ссылайся на оригинальную статью:
Мы хотели бы выразить благодарность компании Baidu и ее PaddlePaddle за создание и поддержку этого ценного ресурса для сообщества компьютерного зрения. Их вклад в эту область, связанный с разработкой детектора объектов в реальном времени на основе Vision Transformers, RT-DETR, заслуживает огромной благодарности.
Ключевые слова: RT-DETR, Transformer, ViT, Vision Transformers, Baidu RT-DETR, PaddlePaddle, Paddle Paddle RT-DETR, обнаружение объектов в реальном времени, обнаружение объектов на основе Vision Transformers, предварительно обученные модели PaddlePaddle RT-DETR, использование RT-DETR в Baidu, Ultralytics Python API.