Перейти к содержимому

Baidu's RT-DETR: детектор объектов в реальном времени на основе трансформатора зрения

Обзор

Real-Time Detection Transformer (RT-DETR), разработанный компанией Baidu, - это передовой сквозной детектор объектов, который обеспечивает производительность в реальном времени при сохранении высокой точности. Он использует возможности Vision Transformers (ViT) для эффективной обработки разномасштабных признаков за счет развязки внутримасштабного взаимодействия и межмасштабного слияния. RT-DETR обладает высокой адаптивностью, поддерживая гибкую настройку скорости вывода с использованием различных слоев декодера без переобучения. Модель отлично работает на ускоренных бэкендах, таких как CUDA с TensorRT, превосходя многие другие детекторы объектов в реальном времени.

Пример модели изображения Обзор сайта Baidu RT-DETR. На схеме архитектуры модели RT-DETR показаны три последних этапа магистрали {S3, S4, S5} в качестве входа для кодера. Эффективный гибридный кодер преобразует разномасштабные признаки в последовательность признаков изображения с помощью внутримасштабного взаимодействия признаков (AIFI) и модуля межмасштабного слияния признаков (CCFM). Выбор запросов с учетом IoU используется для выбора фиксированного количества признаков изображения, которые будут служить начальными объектными запросами для декодера. Наконец, декодер со вспомогательными головками предсказания итеративно оптимизирует запросы к объектам, чтобы сгенерировать боксы и баллы доверия (источник).

Основные характеристики

  • Эффективный гибридный кодер: На сайте Baidu RT-DETR используется эффективный гибридный кодер, который обрабатывает разномасштабные признаки, отделяя внутримасштабное взаимодействие от межмасштабного слияния. Эта уникальная конструкция на основе Vision Transformers снижает вычислительные затраты и позволяет обнаруживать объекты в режиме реального времени.
  • IoU-aware Query Selection: Baidu's RT-DETR улучшает инициализацию запросов к объектам за счет использования IoU-aware query selection. Это позволяет модели фокусироваться на наиболее релевантных объектах в сцене, повышая точность обнаружения.
  • Адаптируемая скорость вывода: RT-DETR от Baidu поддерживает гибкую настройку скорости вывода за счет использования различных слоев декодера без необходимости переобучения. Такая адаптивность облегчает практическое применение в различных сценариях обнаружения объектов в реальном времени.

Предварительно обученные модели

API Ultralytics Python предоставляет предварительно обученные PaddlePaddle RT-DETR модели с разными масштабами:

  • RT-DETR-L: 53,0% AP на COCO val2017, 114 FPS на T4 GPU
  • RT-DETR-X: 54,8% AP на COCO val2017, 74 FPS на T4 GPU

Примеры использования

В этом примере приведены простые примеры обучения и вывода RT-DETRR. Полную документацию по этим и другим режимам можно найти на страницах Predict, Train, Val и Export docs.

Пример

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

Поддерживаемые задачи и режимы

В этой таблице представлены типы моделей, конкретные предварительно обученные веса, задачи, поддерживаемые каждой моделью, и различные режимы(Train, Val, Predict, Export), которые поддерживаются, обозначенные ✅ emojis.

Тип модели Предварительно обученные веса Поддерживаемые задачи Заключение Валидация Тренировка Экспорт
RT-DETR Большой rtdetr-l.pt Обнаружение объектов
RT-DETR Экстрабольшой rtdetr-x.pt Обнаружение объектов

Цитаты и благодарности

Если ты используешь сайт Baidu RT-DETR в своих исследованиях или разработках, пожалуйста, ссылайся на оригинальную статью:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Мы хотели бы выразить благодарность компании Baidu и ее PaddlePaddle за создание и поддержку этого ценного ресурса для сообщества компьютерного зрения. Их вклад в эту область, связанный с разработкой детектора объектов в реальном времени на основе Vision Transformers, RT-DETR, заслуживает огромной благодарности.

Ключевые слова: RT-DETR, Transformer, ViT, Vision Transformers, Baidu RT-DETR, PaddlePaddle, Paddle Paddle RT-DETR, обнаружение объектов в реальном времени, обнаружение объектов на основе Vision Transformers, предварительно обученные модели PaddlePaddle RT-DETR , использование Baidu RT-DETR , Ultralytics Python API.



Создано 2023-11-12, Обновлено 2024-01-16
Авторы: glenn-jocher (7)

Комментарии