Schnellstart-Anleitung: NVIDIA Jetson mit Ultralytics YOLO11

Q: What are the best practices for maximizing performance on NVIDIA Jetson when using YOLO11?

Um die Leistung von NVIDIA Jetson mit YOLO11 zu maximieren, sollten Sie die folgenden Best Practices beachten: Befehle und weitere Details finden Sie im Abschnitt Bewährte Praktiken bei der Verwendung von NVIDIA Jetson.

Dieser umfassende Leitfaden bietet eine detaillierte Anleitung für den Einsatz von Ultralytics YOLO11 auf NVIDIA Jetson-Geräten. Darüber hinaus werden Leistungsbenchmarks vorgestellt, um die Fähigkeiten von YOLO11 auf diesen kleinen und leistungsstarken Geräten zu demonstrieren.

Unterstützung für neue Produkte

Wir haben diese Anleitung mit dem neuesten NVIDIA Jetson Orin Nano Super Developer Kit aktualisiert, das bis zu 67 TOPS an KI-Leistung liefert - eine 1,7-fache Verbesserung gegenüber seinem Vorgänger - um die beliebtesten KI-Modelle nahtlos auszuführen.

Beobachten: Wie verwendet man Ultralytics YOLO11 auf NVIDIA JETSON Geräten

NVIDIA Jetson Ökosystem

Hinweis

Diese Anleitung wurde mit dem NVIDIA Jetson Orin Nano Super Developer Kit mit der neuesten stabilen JetPack-Version JP6.1, dem Seeed Studio reComputer J4012, der auf NVIDIA Jetson Orin NX 16GB mit der JetPack-Version JP6.0/ JetPack-Version JP5.1.3 basiert, und dem Seeed Studio reComputer J1020 v2, der auf NVIDIA Jetson Nano 4GB mit der JetPack-Version JP4.6.1 basiert, getestet. Es wird erwartet, dass es mit der gesamten NVIDIA Jetson-Hardware-Produktpalette funktioniert, einschließlich der neuesten und der älteren Modelle.

Was ist NVIDIA Jetson?

NVIDIA Jetson ist eine Reihe von eingebetteten Computerplatinen, die beschleunigte KI (künstliche Intelligenz) auf Edge-Geräte bringen sollen. Diese kompakten und leistungsstarken Geräte basieren auf der GPU Architektur von NVIDIA und sind in der Lage, komplexe KI-Algorithmen und Deep-Learning-Modelle direkt auf dem Gerät auszuführen, ohne auf Cloud-Computing-Ressourcen zurückgreifen zu müssen. Jetson-Boards werden häufig in der Robotik, in autonomen Fahrzeugen, in der industriellen Automatisierung und in anderen Anwendungen eingesetzt, bei denen KI-Inferenzen lokal mit geringer Latenz und hoher Effizienz ausgeführt werden müssen. Außerdem basieren diese Boards auf der ARM64-Architektur und verbrauchen im Vergleich zu herkömmlichen GPU -Computing-Geräten weniger Strom.

NVIDIA Jetson-Serie im Vergleich

Jetson Orin ist die neueste Iteration der NVIDIA Jetson-Familie, die auf der NVIDIA Ampere-Architektur basiert und im Vergleich zu den vorherigen Generationen eine drastisch verbesserte KI-Leistung bietet. In der folgenden Tabelle werden einige der Jetson-Geräte im Ökosystem verglichen.

	Jetson AGX Orin 64GB	Jetson Orin NX 16GB	Jetson Orin Nano Super	Jetson AGX Xavier	Jetson Xavier NX	Jetson Nano
AI-Leistung	275 TOPS	100 TOPS	67 TOPs	32 TOPS	21 TOPS	472 GFLOPS
GPU	2048 Kerne NVIDIA Ampere-Architektur GPU mit 64 Tensor Kernen	1024 Kerne NVIDIA Ampere-Architektur GPU mit 32 Tensor Kernen	1024 Kerne NVIDIA Ampere-Architektur GPU mit 32 Tensor Kernen	512 Kerne NVIDIA Volta-Architektur GPU mit 64 Tensor Kernen	384 Kerne NVIDIA Volta™ Architektur GPU mit 48 Tensor Kernen	128 Kerne NVIDIA Maxwell™ Architektur GPU
GPU Maximale Frequenz	1,3 GHz	918 MHz	1020 MHz	1377 MHz	1100 MHz	921MHz
CPU	12 Kerne NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3	8 Kerne NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L3	6-Kern Arm® Cortex®-A78AE v8.2 64-bit CPU 1,5MB L2 + 4MB L3	8 Kerne NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L3	6 Kerne NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3	Quad-Core Arm® Cortex®-A57 MPCore Prozessor
CPU Maximale Frequenz	2,2 GHz	2,0 GHz	1,7 GHz	2,2 GHz	1,9 GHz	1.43GHz
Speicher	64 GB 256-Bit-LPDDR5 204,8 GB/s	16GB 128-bit LPDDR5 102,4GB/s	8GB 128-bit LPDDR5 102 GB/s	32GB 256-bit LPDDR4x 136,5GB/s	8GB 128-bit LPDDR4x 59,7GB/s	4GB 64-bit LPDDR4 25.6GB/s"

Eine detailliertere Vergleichstabelle finden Sie im Abschnitt Technische Daten auf der offiziellen NVIDIA Jetson-Seite.

Was ist NVIDIA JetPack?

Das NVIDIA JetPack SDK, das die Jetson-Module antreibt, ist die umfassendste Lösung und bietet eine vollständige Entwicklungsumgebung für die Erstellung von beschleunigten End-to-End-KI-Anwendungen und verkürzt die Markteinführungszeit. JetPack umfasst Jetson Linux mit Bootloader, Linux-Kernel, Ubuntu-Desktop-Umgebung und einem kompletten Satz von Bibliotheken für die Beschleunigung von GPU , Multimedia, Grafik und Computer Vision. Darüber hinaus enthält es Beispiele, Dokumentation und Entwickler-Tools für den Host-Computer und das Entwickler-Kit und unterstützt SDKs auf höherer Ebene wie DeepStream für Streaming-Videoanalyse, Isaac für Robotik und Riva für KI im Dialog.

Flash JetPack auf NVIDIA Jetson

Der erste Schritt, nachdem Sie ein NVIDIA Jetson-Gerät in die Hände bekommen haben, besteht darin, NVIDIA JetPack auf das Gerät zu flashen. Es gibt verschiedene Möglichkeiten, NVIDIA Jetson-Geräte zu flashen.

Wenn Sie ein offizielles NVIDIA Development Kit wie das Jetson Orin Nano Developer Kit besitzen, können Sie ein Image herunterladen und eine SD-Karte mit JetPack zum Booten des Geräts vorbereiten.
Wenn Sie ein anderes NVIDIA Development Kit besitzen, können Sie JetPack mit dem SDK Manager auf das Gerät flashen.
Wenn Sie ein Seeed Studio reComputer J4012-Gerät besitzen, können Sie JetPack auf die mitgelieferte SSD flashen und wenn Sie ein Seeed Studio reComputer J1020 v2-Gerät besitzen, können Sie JetPack auf die eMMC/SSD flashen.
Wenn Sie ein anderes Gerät eines Drittanbieters besitzen, das mit dem NVIDIA Jetson-Modul betrieben wird, wird empfohlen, die Befehlszeile zum Flashen zu verwenden.

Hinweis

Für die oben genannten Methoden 3 und 4 geben Sie nach dem Flashen des Systems und dem Booten des Geräts bitte "sudo apt update && sudo apt install nvidia-jetpack -y" auf dem Geräteterminal ein, um alle übrigen benötigten JetPack-Komponenten zu installieren.

JetPack-Unterstützung basierend auf dem Jetson-Gerät

Die folgende Tabelle zeigt NVIDIA JetPack-Versionen, die von verschiedenen NVIDIA Jetson-Geräten unterstützt werden.

	JetPack 4	JetPack 5	JetPack 6
Jetson Nano	✅	❌	❌
Jetson TX2	✅	❌	❌
Jetson Xavier NX	✅	✅	❌
Jetson AGX Xavier	✅	✅	❌
Jetson AGX Orin	❌	✅	✅
Jetson Orin NX	❌	✅	✅
Jetson Orin Nano	❌	✅	✅

Schnellstart mit Docker

Der schnellste Weg, um mit Ultralytics YOLO11 auf NVIDIA Jetson zu starten, ist die Verwendung von vorgefertigten Docker-Images für Jetson. Schauen Sie in der obigen Tabelle nach und wählen Sie die JetPack-Version entsprechend dem Jetson-Gerät, das Sie besitzen.

JetPack 4JetPack 5JetPack 6

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

Fahren Sie danach mit dem Abschnitt TensorRT auf NVIDIA Jetson verwenden fort.

Beginnen Sie mit der nativen Installation

Für eine native Installation ohne Docker führen Sie bitte die folgenden Schritte aus.

Laufen auf JetPack 6.1

Ultralytics Paket installieren

Hier werden wir das Paket Ultralytics mit optionalen Abhängigkeiten auf dem Jetson installieren, damit wir die Modelle in andere Formate exportieren können. PyTorch Modelle in andere Formate exportieren können. Wir werden uns hauptsächlich auf NVIDIA TensorRT Exporte konzentrieren, da TensorRT dafür sorgt, dass wir die maximale Leistung aus den Jetson-Geräten herausholen können.

Paketliste aktualisieren, pip installieren und auf den neuesten Stand bringen

sudo apt update
sudo apt install python3-pip -y
pip install -U pip

Installieren Sie ultralytics pip-Paket mit optionalen Abhängigkeiten
```
pip install ultralytics[export]
```
Neustart des Geräts
```
sudo reboot
```

PyTorch und Torchvision installieren

Die obige ultralytics Installation wird Torch und Torchvision installieren. Allerdings sind diese beiden Pakete, die über pip installiert werden, nicht kompatibel mit der Jetson-Plattform, die auf der ARM64-Architektur basiert. Daher müssen wir manuell PyTorch pip wheel installieren und Torchvision aus dem Quellcode kompilieren und installieren.

Installieren Sie torch 2.5.0 und torchvision 0.20 gemäß JP6.1

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

Hinweis

Besuchen Sie die SeitePyTorch für Jetson, um Zugang zu allen verschiedenen Versionen von PyTorch für verschiedene JetPack-Versionen zu erhalten. Für eine detailliertere Liste der PyTorch, Torchvision Kompatibilität, besuchen Sie die PyTorch und Torchvision Kompatibilität Seite.

Installieren Sie cuSPARSELt zur Behebung eines Abhängigkeitsproblems mit torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

Installieren Sie `onnxruntime-gpu`

Die onnxruntime-gpu Paket, das in PyPI gehostet wird, hat keine aarch64 Binärdateien für den Jetson. Daher müssen wir dieses Paket manuell installieren. Dieses Paket wird für einige der Exporte benötigt.

Alle unterschiedlich onnxruntime-gpu Pakete, die den verschiedenen JetPack- und Python -Versionen entsprechen, sind aufgelistet hier. Hier werden wir jedoch herunterladen und installieren onnxruntime-gpu 1.20.0 mit Python3.10 Unterstützung.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

Hinweis

onnxruntime-gpu wird automatisch die neueste Numpy-Version wiederhergestellt. Wir müssen also numpy neu installieren, um 1.23.5 um ein Problem durch Ausführen zu beheben:

pip install numpy==1.23.5

Laufen auf JetPack 5.1.2

Ultralytics Paket installieren

Hier werden wir das Ultralytics Paket auf dem Jetson mit optionalen Abhängigkeiten installieren, damit wir die PyTorch Modelle in andere Formate exportieren können. Wir werden uns hauptsächlich auf NVIDIA TensorRT Exporte konzentrieren, da TensorRT dafür sorgen wird, dass wir die maximale Leistung aus den Jetson-Geräten herausholen können.

Paketliste aktualisieren, pip installieren und auf den neuesten Stand bringen

sudo apt update
sudo apt install python3-pip -y
pip install -U pip

Installieren Sie ultralytics pip-Paket mit optionalen Abhängigkeiten
```
pip install ultralytics[export]
```
Neustart des Geräts
```
sudo reboot
```

PyTorch und Torchvision installieren

Die obige ultralytics Installation wird Torch und Torchvision installieren. Allerdings sind diese beiden Pakete, die über pip installiert werden, nicht kompatibel mit der Jetson-Plattform, die auf der ARM64-Architektur basiert. Daher müssen wir manuell PyTorch pip wheel installieren und Torchvision aus dem Quellcode kompilieren und installieren.

Deinstallieren Sie die derzeit installierten Programme PyTorch und Torchvision
```
pip uninstall torch torchvision
```

Installieren Sie torch 2.2.0 und torchvision 0.17.2 gemäß JP5.1.2

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl

Hinweis

Besuchen Sie die SeitePyTorch für Jetson, um Zugang zu allen verschiedenen Versionen von PyTorch für verschiedene JetPack-Versionen zu erhalten. Für eine detailliertere Liste der PyTorch, Torchvision Kompatibilität, besuchen Sie die PyTorch und Torchvision Kompatibilität Seite.

Installieren Sie `onnxruntime-gpu`

Die onnxruntime-gpu Paket, das in PyPI gehostet wird, hat keine aarch64 Binärdateien für den Jetson. Daher müssen wir dieses Paket manuell installieren. Dieses Paket wird für einige der Exporte benötigt.

Alle unterschiedlich onnxruntime-gpu Pakete, die den verschiedenen JetPack- und Python -Versionen entsprechen, sind aufgelistet hier. Hier werden wir jedoch herunterladen und installieren onnxruntime-gpu 1.17.0 mit Python3.8 Unterstützung.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

Hinweis

onnxruntime-gpu wird automatisch die neueste Numpy-Version wiederhergestellt. Wir müssen also numpy neu installieren, um 1.23.5 um ein Problem durch Ausführen zu beheben:

pip install numpy==1.23.5

Verwenden Sie TensorRT auf NVIDIA Jetson

Von allen Modellexportformaten, die von Ultralytics unterstützt werden, liefert TensorRT die beste Inferenzleistung bei der Arbeit mit NVIDIA Jetson-Geräten, und unsere Empfehlung ist, TensorRT mit Jetson zu verwenden. Wir haben auch ein detailliertes Dokument über TensorRT hier.

Modell in TensorRT umwandeln und Inferenz durchführen

Das YOLO11n-Modell im Format PyTorch wird in TensorRT konvertiert, um Inferenzen mit dem exportierten Modell durchzuführen.

Beispiel

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

Hinweis

Besuchen Sie die Seite Exportieren, um auf zusätzliche Argumente beim Exportieren von Modellen in verschiedene Modellformate zuzugreifen

Verwenden Sie NVIDIA Deep Learning Accelerator (DLA)

NVIDIA Der Deep Learning Accelerator (DLA) ist eine spezielle Hardwarekomponente, die in NVIDIA Jetson-Geräte integriert ist und Deep Learning-Inferenzen im Hinblick auf Energieeffizienz und Leistung optimiert. Durch die Auslagerung von Aufgaben von GPU (wodurch dieser für intensivere Prozesse frei wird) ermöglicht DLA die Ausführung von Modellen mit geringerem Stromverbrauch bei gleichbleibend hohem Durchsatz - ideal für eingebettete Systeme und Echtzeit-KI-Anwendungen.

Die folgenden Jetson-Geräte sind mit DLA-Hardware ausgestattet:

Jetson-Gerät	DLA Kerne	DLA Max Frequenz
Jetson AGX Orin-Serie	2	1,6 GHz
Jetson Orin NX 16GB	2	614 MHz
Jetson Orin NX 8GB	1	614 MHz
Jetson AGX Xavier Serie	2	1,4 GHz
Jetson Xavier NX-Serie	2	1,1 GHz

Beispiel

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

Hinweis

Bei der Verwendung von DLA-Exporten kann es vorkommen, dass einige Schichten nicht für die Ausführung auf DLA unterstützt werden und zur Ausführung auf GPU zurückgreifen. Dieser Rückgriff kann zu zusätzlichen Latenzzeiten führen und die Gesamtleistung der Inferenz beeinträchtigen. Daher ist DLA nicht in erster Linie dazu gedacht, die Latenzzeit bei Schlussfolgerungen im Vergleich zu TensorRT zu verringern, das vollständig auf GPU ausgeführt wird. Stattdessen besteht sein Hauptzweck darin, den Durchsatz zu erhöhen und die Energieeffizienz zu verbessern.

NVIDIA Jetson Orin YOLO11 Benchmarks

YOLO11 Benchmarks wurden vom Ultralytics Team auf 10 verschiedenen Modellformaten durchgeführt, um Geschwindigkeit und Genauigkeit zu messen: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel , TF GraphDef , TF Lite, PaddlePaddle, NCNN. Die Benchmarks wurden sowohl auf dem NVIDIA Jetson Orin Nano Super Developer Kit als auch auf dem Seeed Studio reComputer J4012 mit Jetson Orin NX 16GB bei FP32-Präzision und einer Standard-Eingabebildgröße von 640 durchgeführt.

Vergleichsdiagramme

Obwohl alle Modellexporte mit NVIDIA Jetson arbeiten, haben wir nur PyTorch, TorchScript, TensorRT in die untenstehende Vergleichstabelle aufgenommen, da sie die GPU auf dem Jetson nutzen und garantiert die besten Ergebnisse liefern. Alle anderen Exporte nutzen nur den CPU und die Leistung ist nicht so gut wie die der drei oben genannten. Benchmarks für alle Exporte finden Sie im Abschnitt nach diesem Diagramm.

NVIDIA Jetson Orin Nano Super Entwickler-Kit

Jetson Orin Nano Super Benchmarks — Benchmarking mit Ultralytics 8.3.51

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GB Benchmarks — Benchmarking mit Ultralytics 8.3.51

Detaillierte Vergleichstabellen

Die folgende Tabelle zeigt die Benchmark-Ergebnisse für fünf verschiedene Modelle (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) in zehn verschiedenen Formaten (PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel , TF GraphDef , TF Lite, PaddlePaddle, NCNN) und gibt den Status, die Größe, die mAP50-95(B) Metrik und die Inferenzzeit für jede Kombination an.

NVIDIA Jetson Orin Nano Super Entwickler-Kit

Leistung

YOLO11nYOLO11sYOLO11mYOLO11lYOLO11x

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	5.4	0.6176	21.3
TorchScript	✅	10.5	0.6100	13.40
ONNX	✅	10.2	0.6100	7.94
OpenVINO	✅	10.4	0.6091	57.36
TensorRT (FP32)	✅	11.9	0.6082	7.60
TensorRT (FP16)	✅	8.3	0.6096	4.91
TensorRT (INT8)	✅	5.6	0.3180	3.91
TF SavedModel	✅	25.8	0.6082	223.98
TF GraphDef	✅	10.3	0.6082	289.95
TF Lite	✅	10.3	0.6082	328.29
PaddlePaddle	✅	20.4	0.6082	530.46
MNN	✅	10.1	0.6120	74.75
NCNN	✅	10.2	0.6106	46.12

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	18.4	0.7526	22.00
TorchScript	✅	36.5	0.7400	21.35
ONNX	✅	36.3	0.7400	13.91
OpenVINO	✅	36.4	0.7391	126.95
TensorRT (FP32)	✅	38.0	0.7400	13.29
TensorRT (FP16)	✅	21.3	0.7431	7.30
TensorRT (INT8)	✅	12.2	0.3243	5.25
TF SavedModel	✅	91.1	0.7400	406.73
TF GraphDef	✅	36.4	0.7400	629.80
TF Lite	✅	36.4	0.7400	953.98
PaddlePaddle	✅	72.5	0.7400	1311.67
MNN	✅	36.2	0.7392	187.66
NCNN	✅	36.2	0.7403	122.02

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	38.8	0.7598	33.00
TorchScript	✅	77.3	0.7643	48.17
ONNX	✅	76.9	0.7641	29.31
OpenVINO	✅	77.1	0.7642	313.49
TensorRT (FP32)	✅	78.7	0.7641	28.21
TensorRT (FP16)	✅	41.8	0.7653	13.99
TensorRT (INT8)	✅	23.2	0.4194	9.58
TF SavedModel	✅	192.7	0.7643	802.30
TF GraphDef	✅	77.0	0.7643	1335.42
TF Lite	✅	77.0	0.7643	2842.42
PaddlePaddle	✅	153.8	0.7643	3644.29
MNN	✅	76.8	0.7648	503.90
NCNN	✅	76.8	0.7674	298.78

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	49.0	0.7475	43.00
TorchScript	✅	97.6	0.7250	62.94
ONNX	✅	97.0	0.7250	36.33
OpenVINO	✅	97.3	0.7226	387.72
TensorRT (FP32)	✅	99.1	0.7250	35.59
TensorRT (FP16)	✅	52.0	0.7265	17.57
TensorRT (INT8)	✅	31.0	0.4033	12.37
TF SavedModel	✅	243.3	0.7250	1116.20
TF GraphDef	✅	97.2	0.7250	1603.32
TF Lite	✅	97.2	0.7250	3607.51
PaddlePaddle	✅	193.9	0.7250	4890.90
MNN	✅	96.9	0.7222	619.04
NCNN	✅	96.9	0.7252	352.85

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	109.3	0.8288	81.00
TorchScript	✅	218.1	0.8308	113.49
ONNX	✅	217.5	0.8308	75.20
OpenVINO	✅	217.8	0.8285	508.12
TensorRT (FP32)	✅	219.5	0.8307	67.32
TensorRT (FP16)	✅	112.2	0.8248	32.94
TensorRT (INT8)	✅	61.7	0.4854	20.72
TF SavedModel	✅	545.0	0.8308	1048.8
TF GraphDef	✅	217.8	0.8308	2961.8
TF Lite	✅	217.8	0.8308	7898.8
PaddlePaddle	✅	434.8	0.8308	9903.68
MNN	✅	217.3	0.8308	1242.97
NCNN	✅	217.3	0.8304	850.05

Benchmarking mit Ultralytics 8.3.51

NVIDIA Jetson Orin NX 16GB

Leistung

YOLO11nYOLO11sYOLO11mYOLO11lYOLO11x

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	5.4	0.6176	19.50
TorchScript	✅	10.5	0.6100	13.03
ONNX	✅	10.2	0.6100	8.44
OpenVINO	✅	10.4	0.6091	40.83
TensorRT (FP32)	✅	11.9	0.6100	8.05
TensorRT (FP16)	✅	8.2	0.6096	4.85
TensorRT (INT8)	✅	5.5	0.3180	4.37
TF SavedModel	✅	25.8	0.6082	185.39
TF GraphDef	✅	10.3	0.6082	244.85
TF Lite	✅	10.3	0.6082	289.77
PaddlePaddle	✅	20.4	0.6082	476.52
MNN	✅	10.1	0.6120	53.37
NCNN	✅	10.2	0.6106	33.55

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	18.4	0.7526	19.00
TorchScript	✅	36.5	0.7400	22.90
ONNX	✅	36.3	0.7400	14.44
OpenVINO	✅	36.4	0.7391	88.70
TensorRT (FP32)	✅	37.9	0.7400	14.13
TensorRT (FP16)	✅	21.6	0.7406	7.55
TensorRT (INT8)	✅	12.2	0.3243	5.63
TF SavedModel	✅	91.1	0.7400	317.61
TF GraphDef	✅	36.4	0.7400	515.99
TF Lite	✅	36.4	0.7400	838.85
PaddlePaddle	✅	72.5	0.7400	1170.07
MNN	✅	36.2	0.7413	125.23
NCNN	✅	36.2	0.7403	68.13

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	38.8	0.7598	36.50
TorchScript	✅	77.3	0.7643	52.55
ONNX	✅	76.9	0.7640	31.16
OpenVINO	✅	77.1	0.7642	208.57
TensorRT (FP32)	✅	78.7	0.7640	30.72
TensorRT (FP16)	✅	41.5	0.7651	14.45
TensorRT (INT8)	✅	23.3	0.4194	10.19
TF SavedModel	✅	192.7	0.7643	590.11
TF GraphDef	✅	77.0	0.7643	998.57
TF Lite	✅	77.0	0.7643	2486.11
PaddlePaddle	✅	153.8	0.7643	3236.09
MNN	✅	76.8	0.7661	335.78
NCNN	✅	76.8	0.7674	188.43

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	49.0	0.7475	46.6
TorchScript	✅	97.6	0.7250	66.54
ONNX	✅	97.0	0.7250	39.55
OpenVINO	✅	97.3	0.7226	262.44
TensorRT (FP32)	✅	99.2	0.7250	38.68
TensorRT (FP16)	✅	51.9	0.7265	18.53
TensorRT (INT8)	✅	30.9	0.4033	13.36
TF SavedModel	✅	243.3	0.7250	850.25
TF GraphDef	✅	97.2	0.7250	1324.60
TF Lite	✅	97.2	0.7250	3191.24
PaddlePaddle	✅	193.9	0.7250	4204.97
MNN	✅	96.9	0.7225	414.41
NCNN	✅	96.9	0.7252	237.74

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/im)
PyTorch	✅	109.3	0.8288	86.00
TorchScript	✅	218.1	0.8308	122.43
ONNX	✅	217.5	0.8307	77.50
OpenVINO	✅	217.8	0.8285	508.12
TensorRT (FP32)	✅	219.5	0.8307	76.44
TensorRT (FP16)	✅	112.0	0.8309	35.99
TensorRT (INT8)	✅	61.6	0.4854	22.32
TF SavedModel	✅	545.0	0.8308	1470.06
TF GraphDef	✅	217.8	0.8308	2549.78
TF Lite	✅	217.8	0.8308	7025.44
PaddlePaddle	✅	434.8	0.8308	8364.89
MNN	✅	217.3	0.8289	827.13
NCNN	✅	217.3	0.8304	490.29

Benchmarking mit Ultralytics 8.3.51

Entdecken Sie weitere Benchmarking-Versuche von Seeed Studio auf verschiedenen Versionen der NVIDIA Jetson-Hardware.

Reproduzieren Sie unsere Ergebnisse

Um die oben genannten Ultralytics Benchmarks für alle Exportformate zu reproduzieren, führen Sie diesen Code aus:

Beispiel

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
results = model.benchmark(data="coco8.yaml", imgsz=640)

# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco8.yaml imgsz=640

Beachten Sie, dass die Benchmarking-Ergebnisse je nach der genauen Hardware- und Softwarekonfiguration eines Systems sowie der aktuellen Arbeitslast des Systems zum Zeitpunkt der Durchführung der Benchmarks variieren können. Die zuverlässigsten Ergebnisse erhalten Sie, wenn Sie einen Datensatz mit einer großen Anzahl von Bildern verwenden, d. h. data='coco8.yaml' (4 Val-Bilder), oder data='coco.yaml' (5000 val-Bilder).

Bewährte Praktiken bei der Verwendung von NVIDIA Jetson

Bei der Verwendung von NVIDIA Jetson gibt es eine Reihe von Best Practices, die befolgt werden sollten, um eine maximale Leistung auf dem NVIDIA Jetson mit YOLO11 zu ermöglichen.

Aktivieren des MAX-Power-Modus

Die Aktivierung des MAX Power Mode auf dem Jetson stellt sicher, dass alle CPU, GPU Kerne eingeschaltet sind.
```
sudo nvpmodel -m 0
```
Jetson-Uhren einschalten

Die Aktivierung von Jetson Clocks stellt sicher, dass alle CPU, GPU Kerne mit ihrer maximalen Frequenz getaktet sind.
```
sudo jetson_clocks
```
Jetson Stats Anwendung installieren

Mit der Anwendung jetson stats können wir die Temperaturen der Systemkomponenten überwachen und andere Systemdetails überprüfen, wie z. B. CPU, GPU, RAM-Auslastung, Stromsparmodi ändern, maximale Taktfrequenz einstellen, JetPack-Informationen überprüfen
```
sudo apt update
sudo pip install jetson-stats
sudo reboot
jtop
```

Jetson-Statistiken

Nächste Schritte

Herzlichen Glückwunsch zur erfolgreichen Einrichtung von YOLO11 auf Ihrem NVIDIA Jetson! Für weitere Informationen und Unterstützung besuchen Sie bitte Ultralytics YOLO11 Docs!

FAQ

Wie kann ich Ultralytics YOLO11 auf NVIDIA Jetson-Geräten einsetzen?

Die Bereitstellung von Ultralytics YOLO11 auf NVIDIA Jetson-Geräten ist ein unkomplizierter Prozess. Flashen Sie zunächst Ihr Jetson-Gerät mit dem NVIDIA JetPack SDK. Anschließend können Sie entweder ein vorgefertigtes Docker-Image für eine schnelle Einrichtung verwenden oder die erforderlichen Pakete manuell installieren. Detaillierte Schritte für jeden Ansatz finden Sie in den Abschnitten Quick Start with Docker und Start with Native Installation.

Welche Leistungsbenchmarks kann ich von YOLO11 Modellen auf NVIDIA Jetson-Geräten erwarten?

YOLO11 Modelle wurden auf verschiedenen NVIDIA Jetson-Geräten getestet und zeigten erhebliche Leistungsverbesserungen. Zum Beispiel liefert das TensorRT Format die beste Inferenzleistung. Die Tabelle im Abschnitt " Detaillierte Vergleichstabellen" bietet einen umfassenden Überblick über Leistungsmetriken wie mAP50-95 und Inferenzzeit für verschiedene Modellformate.

Warum sollte ich TensorRT für die Bereitstellung von YOLO11 auf NVIDIA Jetson verwenden?

TensorRT wird aufgrund seiner optimalen Leistung für den Einsatz von YOLO11 Modellen auf NVIDIA Jetson dringend empfohlen. Es beschleunigt die Inferenz, indem es die GPU Fähigkeiten des Jetson nutzt und so maximale Effizienz und Geschwindigkeit gewährleistet. Weitere Informationen zur Konvertierung in TensorRT und zur Durchführung von Inferenzen finden Sie im Abschnitt Verwendung von TensorRT auf NVIDIA Jetson.

Wie kann ich PyTorch und Torchvision auf NVIDIA Jetson installieren?

Um PyTorch und Torchvision auf NVIDIA Jetson zu installieren, deinstallieren Sie zunächst alle vorhandenen Versionen, die möglicherweise über pip installiert wurden. Dann installieren Sie manuell die kompatiblen Versionen von PyTorch und Torchvision für die ARM64-Architektur des Jetson. Detaillierte Anweisungen für diesen Prozess finden Sie im Abschnitt PyTorch und Torchvision installieren.

Was sind die besten Methoden zur Maximierung der Leistung auf NVIDIA Jetson, wenn Sie YOLO11 verwenden?

Um die Leistung auf NVIDIA Jetson mit YOLO11 zu maximieren, befolgen Sie diese Best Practices:

Aktivieren Sie den MAX Power Mode, um alle CPU und GPU Kerne zu nutzen.
Aktivieren Sie Jetson Clocks, um alle Kerne mit ihrer maximalen Frequenz zu betreiben.
Installieren Sie die Anwendung Jetson Stats zur Überwachung der Systemmetriken.

Befehle und weitere Einzelheiten finden Sie im Abschnitt Bewährte Praktiken bei der Verwendung von NVIDIA Jetson.

📅 Erstellt vor 11 Monaten ✏️ Aktualisiert vor 5 Tagen

Schnellstart-Anleitung: NVIDIA Jetson mit Ultralytics YOLO11

Was ist NVIDIA Jetson?

NVIDIA Jetson-Serie im Vergleich

Was ist NVIDIA JetPack?

Flash JetPack auf NVIDIA Jetson

JetPack-Unterstützung basierend auf dem Jetson-Gerät

Schnellstart mit Docker

Beginnen Sie mit der nativen Installation

Laufen auf JetPack 6.1

Ultralytics Paket installieren

PyTorch und Torchvision installieren

Installieren Sie onnxruntime-gpu

Laufen auf JetPack 5.1.2

Ultralytics Paket installieren

PyTorch und Torchvision installieren

Installieren Sie onnxruntime-gpu

Verwenden Sie TensorRT auf NVIDIA Jetson

Modell in TensorRT umwandeln und Inferenz durchführen

Verwenden Sie NVIDIA Deep Learning Accelerator (DLA)

NVIDIA Jetson Orin YOLO11 Benchmarks

Vergleichsdiagramme

NVIDIA Jetson Orin Nano Super Entwickler-Kit

NVIDIA Jetson Orin NX 16GB

Detaillierte Vergleichstabellen

NVIDIA Jetson Orin Nano Super Entwickler-Kit

NVIDIA Jetson Orin NX 16GB

Reproduzieren Sie unsere Ergebnisse

Bewährte Praktiken bei der Verwendung von NVIDIA Jetson

Nächste Schritte

FAQ

Wie kann ich Ultralytics YOLO11 auf NVIDIA Jetson-Geräten einsetzen?

Welche Leistungsbenchmarks kann ich von YOLO11 Modellen auf NVIDIA Jetson-Geräten erwarten?

Warum sollte ich TensorRT für die Bereitstellung von YOLO11 auf NVIDIA Jetson verwenden?

Wie kann ich PyTorch und Torchvision auf NVIDIA Jetson installieren?

Was sind die besten Methoden zur Maximierung der Leistung auf NVIDIA Jetson, wenn Sie YOLO11 verwenden?

Kommentare

Installieren Sie `onnxruntime-gpu`

Installieren Sie `onnxruntime-gpu`