Перейти к содержанию

Краткое руководство по началу работы: NVIDIA Jetson с Ultralytics YOLO11

Это подробное руководство содержит детальное описание процесса развертывания Ultralytics YOLO11 на устройствах NVIDIA Jetson. Кроме того, в нем представлены сравнительные тесты производительности, демонстрирующие возможности YOLO11 на этих компактных и мощных устройствах.

Новая поддержка продуктов

Мы обновили это руководство с помощью новейшего набораNVIDIA Jetson AGX Thor Developer Kit, который обеспечивает до 2070 FP4 TFLOPS вычислений ИИ и 128 ГБ памяти при мощности от 40 Вт до 130 Вт. Он обеспечивает более 7,5-кратное увеличение вычислений ИИ по сравнению с NVIDIA Jetson AGX Orin и 3,5-кратное повышение энергоэффективности для бесперебойной работы самых популярных моделей ИИ.



Смотреть: Как использовать Ultralytics YOLO11 на устройствах NVIDIA JETSON

Экосистема NVIDIA Jetson

Примечание

Данное руководство было протестировано с NVIDIA Jetson AGX Thor Developer Kit под управлением последней стабильной версии JetPack JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64 ГБ) под управлением JetPack JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit под управлением JetPack JP6.1, Seeed Studio reComputer J4012 на базе NVIDIA Jetson Orin NX 16GB под управлением JetPack релиза JP6.0/ JetPack релиза JP5.1.3 и Seeed Studio reComputer J1020 v2 на базе NVIDIA Jetson Nano 4GB под управлением JetPack релиза JP4.6.1. Ожидается, что он будет работать на всех аппаратных линейках NVIDIA Jetson, включая новейшие и устаревшие.

Что такое NVIDIA Jetson?

NVIDIA Jetson — это серия встраиваемых вычислительных плат, предназначенных для обеспечения ускоренных вычислений ИИ (искусственного интеллекта) на периферийных устройствах. Эти компактные и мощные устройства построены на базе архитектуры GPU NVIDIA и способны запускать сложные алгоритмы ИИ и модели глубокого обучения непосредственно на устройстве, без необходимости использования ресурсов облачных вычислений. Платы Jetson часто используются в робототехнике, автономных транспортных средствах, промышленной автоматизации и других приложениях, где вывод ИИ необходимо выполнять локально с низкой задержкой и высокой эффективностью. Кроме того, эти платы основаны на архитектуре ARM64 и потребляют меньше энергии по сравнению с традиционными вычислительными устройствами GPU.

Сравнение серий NVIDIA Jetson

NVIDIA Jetson AGX Thor - это последняя итерация семейства NVIDIA Jetson на базе архитектуры NVIDIA Blackwell, которая обеспечивает значительно более высокую производительность искусственного интеллекта по сравнению с предыдущими поколениями. В таблице ниже представлено сравнение нескольких устройств Jetson в экосистеме.

Jetson AGX ThorJetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
Производительность ИИ2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPU2560-ядерный GPU архитектуры NVIDIA Blackwell с 96 Tensor ядрамиGPU NVIDIA Ampere с 2048 ядрами и 64 тензорными ядрамиGPU NVIDIA Ampere с 1024 ядрами и 32 тензорными ядрамиGPU NVIDIA Ampere с 1024 ядрами и 32 тензорными ядрамиGPU NVIDIA Volta с 512 ядрами и 64 тензорными ядрамиGPU NVIDIA Volta™ с 384 ядрами и 48 тензорными ядрамиGPU NVIDIA Maxwell™ с 128 ядрами
Максимальная частота GPU1,57 ГГц1,3 ГГц918 МГц1020 MHz1377 МГц1100 МГц921 МГц
CPU14-ядерный 64-разрядный CPU Arm® Neoverse®-V3AE 1 МБ L2 + 16 МБ L312-ядерный NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 3MB L2 + 6MB L38-ядерный NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L36-ядерный Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L38-ядерный NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L36-ядерный NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3Четырехъядерный процессор Arm® Cortex®-A57 MPCore
Максимальная частота CPU2,6 ГГц2,2 ГГц2,0 ГГц1.7 GHz2,2 ГГц1,9 ГГц1,43 ГГц
Память128 ГБ 256-битной LPDDR5X 273 ГБ/с64 ГБ 256-bit LPDDR5 204.8 ГБ/с16 ГБ 128-bit LPDDR5 102.4 ГБ/с8GB 128-bit LPDDR5 102 GB/s32 ГБ 256-bit LPDDR4x 136.5 ГБ/с8 ГБ 128-bit LPDDR4x 59.7 ГБ/с4 ГБ 64-битной LPDDR4 25,6 ГБ/с

Более подробную сравнительную таблицу можно найти в разделе Сравнение спецификаций на официальной странице NVIDIA Jetson.

Что такое NVIDIA JetPack?

NVIDIA JetPack SDK, лежащий в основе модулей Jetson, является наиболее полным решением и предоставляет полноценную среду разработки для создания комплексных ускоренных AI-приложений и сокращает время выхода на рынок. JetPack включает Jetson Linux с загрузчиком, ядро Linux, среду рабочего стола Ubuntu и полный набор библиотек для ускорения GPU-вычислений, мультимедиа, графики и компьютерного зрения. Он также включает в себя примеры, документацию и инструменты разработчика как для хост-компьютера, так и для комплекта разработчика, и поддерживает SDK более высокого уровня, такие как DeepStream для потоковой аналитики видео, Isaac для робототехники и Riva для разговорного AI.

Прошивка JetPack на NVIDIA Jetson

Первый шаг после получения устройства NVIDIA Jetson — это прошить NVIDIA JetPack на устройство. Существует несколько различных способов прошивки устройств NVIDIA Jetson.

  1. Если у вас есть официальный комплект разработчика NVIDIA , например Jetson AGX Thor Developer Kit, вы можете загрузить образ и подготовить загрузочный USB-накопитель для прошивки JetPack на прилагаемый SSD.
  2. Если у вас есть официальный комплект разработчика NVIDIA, такой как Jetson Orin Nano Developer Kit, вы можете загрузить образ и подготовить SD-карту с JetPack для загрузки устройства.
  3. Если у вас есть какой-либо другой комплект разработчика NVIDIA, вы можете прошить JetPack на устройство с помощью SDK Manager.
  4. Если у вас есть устройство Seeed Studio reComputer J4012, вы можете прошить JetPack на прилагаемый SSD, а если у вас есть устройство Seeed Studio reComputer J1020 v2, вы можете прошить JetPack на eMMC/ SSD.
  5. Если у вас есть какое-либо другое стороннее устройство на базе модуля NVIDIA Jetson, рекомендуется использовать прошивку через командную строку.

Примечание

Для методов 1, 4 и 5, описанных выше, после прошивки системы и загрузки устройства введите "sudo apt update && sudo apt install nvidia-y" в терминале устройства, чтобы установить все остальные необходимые компоненты JetPack.

Поддержка JetPack в зависимости от устройства Jetson

В таблице ниже показаны версии NVIDIA JetPack, поддерживаемые различными устройствами NVIDIA Jetson.

JetPack 4JetPack 5JetPack 6JetPack 7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Thor

Быстрый старт с Docker

Самый быстрый способ начать работу с Ultralytics YOLO11 на NVIDIA Jetson — это запустить предварительно созданные docker-образы для Jetson. Обратитесь к таблице выше и выберите версию JetPack в соответствии с имеющимся у вас устройством Jetson.

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

Скоро будет! Следите за новостями!

После этого перейдите к разделу Использование TensorRT на NVIDIA Jetson.

Начало с собственной установки

Для нативной установки без Docker, пожалуйста, обратитесь к шагам ниже.

Запуск на JetPack 7.0

Установка пакета Ultralytics

Здесь мы установим пакет Ultralytics на Jetson с необязательными зависимостями, чтобы мы могли экспортировать модели PyTorch в другие различные форматы. Мы в основном сосредоточимся на экспорте NVIDIA TensorRT, потому что TensorRT позволит нам получить максимальную производительность от устройств Jetson.

  1. Обновите список пакетов, установите pip и обновите до последней версии

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. Установите ultralytics пакет pip с необязательными зависимостями

    pip install ultralytics[export]
    
  3. Перезагрузите устройство

    sudo reboot
    

Установка PyTorch и Torchvision

Приведенная выше установка ultralytics установит Torch и Torchvision. Однако эти два пакета, установленные через pip, не совместимы для работы на Jetson AGX Thor, который поставляется с JetPack 7.0 и CUDA 13. Поэтому нам нужно установить их вручную.

Установите torch и torchvision в соответствии с JP7.0

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

Установите onnxruntime-gpu

Параметр onnxruntime-gpu пакет, размещенный в PyPI, не имеет aarch64 бинарных файлов для Jetson. Поэтому нам нужно вручную установить этот пакет. Этот пакет необходим для некоторых экспортов.

Здесь мы загрузим и установим onnxruntime-gpu 1.24.0 с Python3.12 поддержкой.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

Запуск на JetPack 6.1

Установка пакета Ultralytics

Здесь мы установим пакет Ultralytics на Jetson с необязательными зависимостями, чтобы мы могли экспортировать модели PyTorch в другие различные форматы. Мы в основном сосредоточимся на экспорте NVIDIA TensorRT, потому что TensorRT позволит нам получить максимальную производительность от устройств Jetson.

  1. Обновите список пакетов, установите pip и обновите до последней версии

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. Установите ultralytics пакет pip с необязательными зависимостями

    pip install ultralytics[export]
    
  3. Перезагрузите устройство

    sudo reboot
    

Установка PyTorch и Torchvision

Приведенная выше установка ultralytics установит Torch и Torchvision. Однако эти два пакета, установленные с помощью pip, не совместимы с платформой Jetson, которая основана на архитектуре ARM64. Поэтому нам нужно вручную установить предварительно собранный PyTorch pip wheel и скомпилировать или установить Torchvision из исходников.

Установите torch 2.5.0 и torchvision 0.20 согласно JP6.1

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

Примечание

Посетите страницу PyTorch для Jetson, чтобы получить доступ ко всем различным версиям PyTorch для разных версий JetPack. Для получения более подробного списка совместимости PyTorch и Torchvision посетите страницу совместимости PyTorch и Torchvision.

Установите cuSPARSELt чтобы исправить проблему с зависимостями с torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

Установите onnxruntime-gpu

Параметр onnxruntime-gpu пакет, размещенный в PyPI, не имеет aarch64 бинарных файлов для Jetson. Поэтому нам нужно вручную установить этот пакет. Этот пакет необходим для некоторых экспортов.

Вы можете найти все доступные onnxruntime-gpu packages — с разбивкой по версии JetPack, версии Python и другим деталям совместимости — в Jetson Zoo ONNX Runtime compatibility matrixЗдесь мы загрузим и установим onnxruntime-gpu 1.20.0 с Python3.10 поддержкой.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

Примечание

onnxruntime-gpu автоматически вернет версию numpy к последней. Поэтому нам нужно переустановить numpy до 1.23.5 чтобы исправить проблему, выполнив:

pip install numpy==1.23.5

Запуск на JetPack 5.1.2

Установка пакета Ultralytics

Здесь мы установим пакет Ultralytics на Jetson с дополнительными зависимостями, чтобы мы могли экспортировать модели PyTorch в другие различные форматы. Мы сосредоточимся в основном на экспорте NVIDIA TensorRT, потому что TensorRT позволит нам получить максимальную производительность от устройств Jetson.

  1. Обновите список пакетов, установите pip и обновите до последней версии

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. Установите ultralytics пакет pip с необязательными зависимостями

    pip install ultralytics[export]
    
  3. Перезагрузите устройство

    sudo reboot
    

Установка PyTorch и Torchvision

Приведенная выше установка ultralytics установит Torch и Torchvision. Однако эти два пакета, установленные с помощью pip, не совместимы с платформой Jetson, которая основана на архитектуре ARM64. Поэтому нам нужно вручную установить предварительно собранный PyTorch pip wheel и скомпилировать или установить Torchvision из исходников.

  1. Удалите установленные в данный момент PyTorch и Torchvision

    pip uninstall torch torchvision
    
  2. Установите torch 2.2.0 и torchvision 0.17.2 согласно JP5.1.2

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
    

Примечание

Посетите страницу PyTorch для Jetson, чтобы получить доступ ко всем различным версиям PyTorch для разных версий JetPack. Для получения более подробного списка совместимости PyTorch и Torchvision посетите страницу совместимости PyTorch и Torchvision.

Установите onnxruntime-gpu

Параметр onnxruntime-gpu пакет, размещенный в PyPI, не имеет aarch64 бинарных файлов для Jetson. Поэтому нам нужно вручную установить этот пакет. Этот пакет необходим для некоторых экспортов.

Вы можете найти все доступные onnxruntime-gpu packages — с разбивкой по версии JetPack, версии Python и другим деталям совместимости — в Jetson Zoo ONNX Runtime compatibility matrixЗдесь мы загрузим и установим onnxruntime-gpu 1.17.0 с Python3.8 поддержкой.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

Примечание

onnxruntime-gpu автоматически вернет версию numpy к последней. Поэтому нам нужно переустановить numpy до 1.23.5 чтобы исправить проблему, выполнив:

pip install numpy==1.23.5

Использование TensorRT на NVIDIA Jetson

Среди всех форматов экспорта моделей, поддерживаемых Ultralytics, TensorRT предлагает самую высокую производительность вывода на устройствах NVIDIA Jetson, что делает его нашей главной рекомендацией для развертываний Jetson. Инструкции по настройке и расширенному использованию см. в нашем специальном руководстве по интеграции TensorRT.

Преобразование модели в TensorRT и запуск вывода

Модель YOLO11n в формате PyTorch преобразуется в TensorRT для запуска инференса с экспортированной моделью.

Пример

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

Примечание

Посетите страницу экспорта, чтобы получить доступ к дополнительным аргументам при экспорте моделей в различные форматы.

Использование NVIDIA Deep Learning Accelerator (DLA)

NVIDIA Deep Learning Accelerator (DLA) — это специализированный аппаратный компонент, встроенный в устройства NVIDIA Jetson, который оптимизирует вывод глубокого обучения для повышения энергоэффективности и производительности. Перенося задачи с GPU (освобождая его для более интенсивных процессов), DLA позволяет моделям работать с меньшим энергопотреблением, сохраняя при этом высокую пропускную способность, что идеально подходит для встроенных систем и приложений искусственного интеллекта в реальном времени.

Следующие устройства Jetson оснащены аппаратным обеспечением DLA:

Устройство JetsonЯдра DLAМаксимальная частота DLA
Серия Jetson AGX Orin21.6 GHz
Jetson Orin NX 16GB2614 МГц
Jetson Orin NX 8GB1614 МГц
Серия Jetson AGX Xavier21.4 GHz
Серия Jetson Xavier NX21.1 GHz

Пример

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

Примечание

При использовании экспорта DLA некоторые слои могут не поддерживаться для работы на DLA и будут переключаться на GPU для выполнения. Этот откат может привести к дополнительной задержке и повлиять на общую производительность логического вывода. Поэтому DLA в первую очередь предназначен не для уменьшения задержки логического вывода по сравнению с TensorRT, работающим полностью на GPU. Вместо этого его основная цель — увеличить пропускную способность и повысить энергоэффективность.

Бенчмарки NVIDIA Jetson YOLO11

Бенчмарки YOLO11 были выполнены командой Ultralytics на 11 различных форматах моделей, измеряющих скорость и точность: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch. Бенчмарки выполнялись на NVIDIA Jetson AGX Thor Developer Kit, NVIDIA Jetson AGX Orin Developer Kit (64 ГБ), NVIDIA Jetson Orin Nano Super Developer Kit и Seeed Studio reComputer J4012 на базе устройства Jetson Orin NX 16 ГБ с точностью FP32 и размером входного изображения по умолчанию 640.

Сравнительные графики

Несмотря на то, что все экспортированные модели работают с NVIDIA Jetson, мы включили в сравнительную таблицу ниже только PyTorch, TorchScript, TensorRT, поскольку они используют GPU на Jetson и гарантированно обеспечивают наилучшие результаты. Все остальные экспортированные модели используют только CPU, и производительность у них не такая высокая, как у вышеупомянутых трех. Вы можете найти бенчмарки для всех экспортированных моделей в разделе после этой таблицы.

Комплект разработчика NVIDIA Jetson AGX Thor

Бенчмарки Jetson AGX Thor
Бенчмаркинг с помощью Ultralytics 8.3.226

NVIDIA Jetson AGX Orin Developer Kit (64GB)

Jetson AGX Orin Benchmarks
Протестировано с Ultralytics 8.3.157

NVIDIA Jetson Orin Nano Super Developer Kit

Эталонные тесты Jetson Orin Nano Super
Протестировано с Ultralytics 8.3.157

NVIDIA Jetson Orin NX 16GB

Эталонные тесты Jetson Orin NX 16GB
Протестировано с Ultralytics 8.3.157

Подробные сравнительные таблицы

В таблице ниже представлены результаты бенчмарка для пяти различных моделей (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) в 11 различных форматахPyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch) с указанием статуса, размера, метрики mAP50-95(B) и времени вывода для каждой комбинации.

Комплект разработчика NVIDIA Jetson AGX Thor

Производительность

ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch5.40.50704.1
TorchScript10.50.50833.61
ONNX10.20.50764.8
OpenVINO10.40.505816.48
TensorRT (FP32)12.60.50771.70
TensorRT (FP16)7.70.50751.20
TensorRT (INT8)6.20.48581.29
TF SavedModel25.70.507640.35
TF GraphDef10.30.507640.55
TF Lite10.30.5075206.74
MNN10.10.507523.47
NCNN10.20.504122.05
ExecuTorch10.20.507534.28
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch18.40.57706.10
TorchScript36.60.57835.33
ONNX36.30.57837.01
OpenVINO36.40.580933.08
TensorRT (FP32)40.10.57842.57
TensorRT (FP16)20.80.57961.55
TensorRT (INT8)12.70.55141.50
TF SavedModel90.80.578280.55
TF GraphDef36.30.578280.82
TF Lite36.30.5782615.29
MNN36.20.579054.12
NCNN36.30.580640.76
ExecuTorch36.20.578267.21
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch38.80.625011.4
TorchScript77.30.630410.16
ONNX76.90.630412.35
OpenVINO77.10.628477.81
TensorRT (FP32)80.70.63055.29
TensorRT (FP16)41.30.62942.42
TensorRT (INT8)23.70.61332.20
TF SavedModel192.40.6306184.66
TF GraphDef76.90.6306187.91
TF Lite76.90.63061845.09
MNN76.80.6298143.52
NCNN76.90.630895.86
ExecuTorch76.90.6306167.94
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch49.00.637014.0
TorchScript97.60.640913.77
ONNX97.00.641016.37
OpenVINO97.30.637798.86
TensorRT (FP32)101.00.63966.71
TensorRT (FP16)51.50.63583.26
TensorRT (INT8)29.70.61903.21
TF SavedModel242.70.6409246.93
TF GraphDef97.00.6409251.84
TF Lite97.00.64092383.45
MNN96.90.6361176.53
NCNN97.00.6373118.05
ExecuTorch97.00.6409211.46
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch109.30.699021.70
TorchScript218.10.690020.99
ONNX217.50.690024.07
OpenVINO217.80.6872187.33
TensorRT (FP32)220.00.690211.70
TensorRT (FP16)114.60.68815.10
TensorRT (INT8)59.90.68574.53
TF SavedModel543.90.6900489.91
TF GraphDef217.50.6900503.21
TF Lite217.50.69005164.31
MNN217.30.6905350.37
NCNN217.50.6901230.63
ExecuTorch217.40.6900419.9

Бенчмаркинг с помощью Ultralytics 8.3.226

Примечание

Время логического вывода не включает предварительную/постобработку.

NVIDIA Jetson AGX Orin Developer Kit (64GB)

Производительность

ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch5.40.51019.40
TorchScript10.50.508311.00
ONNX10.20.507748.32
OpenVINO10.40.505827.24
TensorRT (FP32)12.10.50853.93
TensorRT (FP16)8.30.50632.55
TensorRT (INT8)5.40.47192.18
TF SavedModel25.90.507766.87
TF GraphDef10.30.507765.68
TF Lite10.30.5077272.92
MNN10.10.505936.33
NCNN10.20.503128.51
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch18.40.578312.10
TorchScript36.50.578211.01
ONNX36.30.5782107.54
OpenVINO36.40.581055.03
TensorRT (FP32)38.10.57816.52
TensorRT (FP16)21.40.58033.65
TensorRT (INT8)12.10.57352.81
TF SavedModel91.00.5782132.73
TF GraphDef36.40.5782134.96
TF Lite36.30.5782798.21
MNN36.20.577782.35
NCNN36.20.578456.07
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch38.80.626522.20
TorchScript77.30.630721.47
ONNX76.90.6307270.89
OpenVINO77.10.6284129.10
TensorRT (FP32)78.80.630612.53
TensorRT (FP16)41.90.63056.25
TensorRT (INT8)23.20.62914.69
TF SavedModel192.70.6307299.95
TF GraphDef77.10.6307310.58
TF Lite77.00.63072400.54
MNN76.80.6308213.56
NCNN76.80.6284141.18
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch49.00.636427.70
TorchScript97.60.639927.94
ONNX97.00.6409345.47
OpenVINO97.30.6378161.93
TensorRT (FP32)99.10.640616.11
TensorRT (FP16)52.60.63768.08
TensorRT (INT8)30.80.62086.12
TF SavedModel243.10.6409390.78
TF GraphDef97.20.6409398.76
TF Lite97.10.64093037.05
MNN96.90.6372265.46
NCNN96.90.6364179.68
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch109.30.700544.40
TorchScript218.10.689847.49
ONNX217.50.6900682.98
OpenVINO217.80.6876298.15
TensorRT (FP32)219.60.690428.50
TensorRT (FP16)112.20.688713.55
TensorRT (INT8)60.00.65749.40
TF SavedModel544.30.6900749.85
TF GraphDef217.70.6900753.86
TF Lite217.60.69006603.27
MNN217.30.6868519.77
NCNN217.30.6849298.58

Протестировано с Ultralytics 8.3.157

Примечание

Время логического вывода не включает предварительную/постобработку.

NVIDIA Jetson Orin Nano Super Developer Kit

Производительность

ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch5.40.510113.70
TorchScript10.50.508213.69
ONNX10.20.508114.47
OpenVINO10.40.505856.66
TensorRT (FP32)12.00.50817.44
TensorRT (FP16)8.20.50614.53
TensorRT (INT8)5.40.48253.70
TF SavedModel25.90.5077116.23
TF GraphDef10.30.5077114.92
TF Lite10.30.5077340.75
MNN10.10.505976.26
NCNN10.20.503145.03
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch18.40.579020.90
TorchScript36.50.578121.22
ONNX36.30.578125.07
OpenVINO36.40.5810122.98
TensorRT (FP32)37.90.578313.02
TensorRT (FP16)21.80.57796.93
TensorRT (INT8)12.20.57355.08
TF SavedModel91.00.5782250.65
TF GraphDef36.40.5782252.69
TF Lite36.30.5782998.68
MNN36.20.5781188.01
NCNN36.20.5784101.37
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch38.80.626646.50
TorchScript77.30.630747.95
ONNX76.90.630753.06
OpenVINO77.10.6284301.63
TensorRT (FP32)78.80.630527.86
TensorRT (FP16)41.70.630913.50
TensorRT (INT8)23.20.62919.12
TF SavedModel192.70.6307622.24
TF GraphDef77.10.6307628.74
TF Lite77.00.63072997.93
MNN76.80.6299509.96
NCNN76.80.6284292.99
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch49.00.636456.50
TorchScript97.60.640962.51
ONNX97.00.639968.35
OpenVINO97.30.6378376.03
TensorRT (FP32)99.20.639635.59
TensorRT (FP16)52.10.636117.48
TensorRT (INT8)30.90.620711.87
TF SavedModel243.10.6409807.47
TF GraphDef97.20.6409822.88
TF Lite97.10.64093792.23
MNN96.90.6372631.16
NCNN96.90.6364350.46
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch109.30.700590.00
TorchScript218.10.6901113.40
ONNX217.50.6901122.94
OpenVINO217.80.6876713.1
TensorRT (FP32)219.50.690466.93
TensorRT (FP16)112.20.689232.58
TensorRT (INT8)61.50.661219.90
TF SavedModel544.30.69001605.4
TF GraphDef217.80.69002961.8
TF Lite217.60.69008234.86
MNN217.30.68931254.18
NCNN217.30.6849725.50

Протестировано с Ultralytics 8.3.157

Примечание

Время логического вывода не включает предварительную/постобработку.

NVIDIA Jetson Orin NX 16GB

Производительность

ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch5.40.510112.90
TorchScript10.50.508213.17
ONNX10.20.508115.43
OpenVINO10.40.505839.80
TensorRT (FP32)11.80.50817.94
TensorRT (FP16)8.10.50854.73
TensorRT (INT8)5.40.47863.90
TF SavedModel25.90.507788.48
TF GraphDef10.30.507786.67
TF Lite10.30.5077302.55
MNN10.10.505952.73
NCNN10.20.503132.04
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch18.40.579021.70
TorchScript36.50.578122.71
ONNX36.30.578126.49
OpenVINO36.40.581084.73
TensorRT (FP32)37.80.578313.77
TensorRT (FP16)21.20.57967.31
TensorRT (INT8)12.00.57355.33
TF SavedModel91.00.5782185.06
TF GraphDef36.40.5782186.45
TF Lite36.30.5782882.58
MNN36.20.5775126.36
NCNN36.20.578466.73
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch38.80.626645.00
TorchScript77.30.630751.87
ONNX76.90.630756.00
OpenVINO77.10.6284202.69
TensorRT (FP32)78.70.630530.38
TensorRT (FP16)41.80.630214.48
TensorRT (INT8)23.20.62919.74
TF SavedModel192.70.6307445.58
TF GraphDef77.10.6307460.94
TF Lite77.00.63072653.65
MNN76.80.6308339.38
NCNN76.80.6284187.64
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch49.00.636456.60
TorchScript97.60.640966.72
ONNX97.00.639971.92
OpenVINO97.30.6378254.17
TensorRT (FP32)99.20.640638.89
TensorRT (FP16)51.90.636318.59
TensorRT (INT8)30.90.620712.60
TF SavedModel243.10.6409575.98
TF GraphDef97.20.6409583.79
TF Lite97.10.64093353.41
MNN96.90.6367421.33
NCNN96.90.6364228.26
ФорматСтатусРазмер на диске (МБ)mAP50-95(B)Время инференса (мс/изобр.)
PyTorch109.30.700598.50
TorchScript218.10.6901123.03
ONNX217.50.6901129.55
OpenVINO217.80.6876483.44
TensorRT (FP32)219.60.690475.92
TensorRT (FP16)112.10.688535.78
TensorRT (INT8)61.60.659221.60
TF SavedModel544.30.69001120.43
TF GraphDef217.70.69001172.35
TF Lite217.60.69007283.63
MNN217.30.6877840.16
NCNN217.30.6849474.41

Протестировано с Ultralytics 8.3.157

Примечание

Время логического вывода не включает предварительную/постобработку.

Ознакомьтесь с результатами других тестов от Seeed Studio, выполненных на различных версиях оборудования NVIDIA Jetson.

Воспроизведение наших результатов

Чтобы воспроизвести вышеуказанные тесты Ultralytics для всех форматов экспорта, запустите этот код:

Пример

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

Обратите внимание, что результаты тестов могут варьироваться в зависимости от конкретной конфигурации оборудования и программного обеспечения системы, а также от текущей нагрузки на систему во время проведения тестов. Для получения наиболее надежных результатов используйте набор данных с большим количеством изображений, например, data='coco.yaml' (5000 изображений для проверки).

Рекомендации по использованию NVIDIA Jetson

При использовании NVIDIA Jetson рекомендуется соблюдать несколько правил, чтобы обеспечить максимальную производительность YOLO11 на NVIDIA Jetson.

  1. Включите режим максимальной производительности (MAX Power Mode)

    Включение режима MAX Power Mode на Jetson гарантирует, что все ядра CPU и GPU будут включены.

    sudo nvpmodel -m 0
    
  2. Включите Jetson Clocks

    Включение Jetson Clocks обеспечит работу всех ядер CPU и GPU на их максимальной частоте.

    sudo jetson_clocks
    
  3. Установите приложение Jetson Stats

    Мы можем использовать приложение Jetson Stats для мониторинга температуры компонентов системы и проверки других системных данных, таких как использование CPU, GPU, RAM, изменение режимов питания, установка максимальной частоты, проверка информации о JetPack.

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
    

Jetson Stats

Следующие шаги

Поздравляем с успешной настройкой YOLO11 на вашем NVIDIA Jetson! Для дальнейшего обучения и поддержки посетите документацию Ultralytics YOLO11!

Часто задаваемые вопросы

Как развернуть Ultralytics YOLO11 на устройствах NVIDIA Jetson?

Развертывание Ultralytics YOLO11 на устройствах NVIDIA Jetson — это простой процесс. Сначала прошейте ваше устройство Jetson с помощью NVIDIA JetPack SDK. Затем используйте предварительно собранный образ Docker для быстрой настройки или вручную установите необходимые пакеты. Подробные инструкции для каждого подхода можно найти в разделах Быстрый старт с Docker и Начало с нативной установки.

Каковы ожидаемые показатели производительности моделей YOLO11 на устройствах NVIDIA Jetson?

Модели YOLO11 были протестированы на различных устройствах NVIDIA Jetson, демонстрируя значительное повышение производительности. Например, формат TensorRT обеспечивает наилучшую производительность инференса. В таблице в разделе «Подробные таблицы сравнения» представлен всесторонний обзор показателей производительности, таких как mAP50-95 и время инференса, для различных форматов моделей.

Зачем использовать TensorRT для развертывания YOLO11 на NVIDIA Jetson?

TensorRT настоятельно рекомендуется для развертывания моделей YOLO11 на NVIDIA Jetson из-за его оптимальной производительности. Он ускоряет вывод, используя возможности GPU Jetson, обеспечивая максимальную эффективность и скорость. Узнайте больше о том, как преобразовать в TensorRT и запустить вывод в разделе Использование TensorRT на NVIDIA Jetson.

Как установить PyTorch и Torchvision на NVIDIA Jetson?

Чтобы установить PyTorch и Torchvision на NVIDIA Jetson, сначала удалите все существующие версии, которые могли быть установлены через pip. Затем вручную установите совместимые версии PyTorch и Torchvision для архитектуры ARM64 Jetson. Подробные инструкции для этого процесса приведены в разделе Установка PyTorch и Torchvision.

Каковы лучшие практики для максимальной производительности на NVIDIA Jetson при использовании YOLO11?

Чтобы максимизировать производительность YOLO11 на NVIDIA Jetson, следуйте этим рекомендациям:

  1. Включите режим MAX Power Mode, чтобы использовать все ядра CPU и GPU.
  2. Включите Jetson Clocks, чтобы все ядра работали на максимальной частоте.
  3. Установите приложение Jetson Stats для мониторинга системных показателей.

Для получения команд и дополнительных сведений обратитесь к разделу Рекомендации по использованию NVIDIA Jetson.



📅 Создано 1 год назад ✏️ Обновлено 4 дня назад
glenn-jocherlakshanthadRizwanMunawarBurhan-QpicsalexY-T-GLaughing-qjustincdavisMatthewNoyceUltralyticsAssistantAhelsamahy

Комментарии