Link to this sectionKurzanleitung: NVIDIA Jetson mit Ultralytics YOLO26#
Dieser umfassende Leitfaden bietet eine detaillierte Anleitung für den Einsatz von Ultralytics YOLO26 auf NVIDIA Jetson-Geräten. Zudem werden Leistungs-Benchmarks vorgestellt, um die Fähigkeiten von YOLO26 auf diesen kompakten und leistungsstarken Geräten zu demonstrieren.
Wir haben diesen Leitfaden mit dem neuesten NVIDIA Jetson AGX Thor Developer Kit aktualisiert, das bis zu 2070 FP4 TFLOPS an KI-Rechenleistung und 128 GB Arbeitsspeicher bei einer konfigurierbaren Leistung zwischen 40 W und 130 W bietet. Es liefert eine mehr als 7,5-mal höhere KI-Rechenleistung als das NVIDIA Jetson AGX Orin bei 3,5-mal besserer Energieeffizienz, um die gängigsten KI-Modelle nahtlos auszuführen.
Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices

Diese Anleitung wurde mit dem NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) unter der neuesten stabilen JetPack-Version JP7.0, dem NVIDIA Jetson AGX Orin Developer Kit (64GB) unter JetPack-Version JP6.2, dem NVIDIA Jetson Orin Nano Super Developer Kit unter JetPack-Version JP6.1, dem Seeed Studio reComputer J4012, welches auf dem NVIDIA Jetson Orin NX 16GB basiert und unter der JetPack-Version JP6.0 bzw. JP5.1.3 läuft, sowie dem Seeed Studio reComputer J1020 v2, welches auf dem NVIDIA Jetson Nano 4GB basiert und unter der JetPack-Version JP4.6.1 läuft, getestet. Es wird erwartet, dass dies über die gesamte NVIDIA Jetson Hardware-Reihe funktioniert, einschließlich neuester und älterer Geräte.
Link to this sectionWas ist NVIDIA Jetson?#
NVIDIA Jetson ist eine Reihe von eingebetteten Computing-Boards, die entwickelt wurden, um beschleunigte KI-Rechenleistung (künstliche Intelligenz) auf Edge-Geräte zu bringen. Diese kompakten und leistungsstarken Geräte basieren auf der GPU-Architektur von NVIDIA und können komplexe KI-Algorithmen sowie deep learning-Modelle direkt auf dem Gerät ausführen, ohne auf cloud computing-Ressourcen angewiesen zu sein. Jetson-Boards werden häufig in der Robotik, bei autonomen Fahrzeugen, in der industriellen Automatisierung und anderen Anwendungen eingesetzt, bei denen KI-Inferenz lokal mit geringer Latenz und hoher Effizienz durchgeführt werden muss. Zudem basieren diese Boards auf der ARM64-Architektur und verbrauchen weniger Strom im Vergleich zu herkömmlichen GPU-Computing-Geräten.
Link to this sectionVergleich der NVIDIA Jetson-Serie#
NVIDIA Jetson AGX Thor ist die neueste Iteration der NVIDIA Jetson-Familie, die auf der NVIDIA Blackwell-Architektur basiert und im Vergleich zu den Vorgängergenerationen eine drastisch verbesserte KI-Leistung bietet. Die folgende Tabelle vergleicht einige der Jetson-Geräte im Ökosystem.
| Jetson AGX Thor(T5000) | Jetson AGX Orin 64GB | Jetson Orin NX 16GB | Jetson Orin Nano Super | Jetson AGX Xavier | Jetson Xavier NX | Jetson Nano | |
|---|---|---|---|---|---|---|---|
| KI-Leistung | 2070 TFLOPS | 275 TOPS | 100 TOPS | 67 TOPS | 32 TOPS | 21 TOPS | 472 GFLOPS |
| GPU | 2560-Kern NVIDIA Blackwell Architektur GPU mit 96 Tensor Cores | 2048-Kern NVIDIA Ampere Architektur GPU mit 64 Tensor Cores | 1024-Kern NVIDIA Ampere Architektur GPU mit 32 Tensor Cores | 1024-Kern NVIDIA Ampere Architektur GPU mit 32 Tensor Cores | 512-Kern NVIDIA Volta Architektur GPU mit 64 Tensor Cores | 384-Kern NVIDIA Volta™ Architektur GPU mit 48 Tensor Cores | 128-Kern NVIDIA Maxwell™ Architektur GPU |
| GPU Max-Frequenz | 1,57 GHz | 1,3 GHz | 918 MHz | 1020 MHz | 1377 MHz | 1100 MHz | 921 MHz |
| CPU | 14-Kern Arm® Neoverse®-V3AE 64-Bit CPU 1MB L2 + 16MB L3 | 12-Kern NVIDIA Arm® Cortex A78AE v8.2 64-Bit CPU 3MB L2 + 6MB L3 | 8-Kern NVIDIA Arm® Cortex A78AE v8.2 64-Bit CPU 2MB L2 + 4MB L3 | 6-Kern Arm® Cortex®-A78AE v8.2 64-Bit CPU 1.5MB L2 + 4MB L3 | 8-Kern NVIDIA Carmel Arm®v8.2 64-Bit CPU 8MB L2 + 4MB L3 | 6-Kern NVIDIA Carmel Arm®v8.2 64-Bit CPU 6MB L2 + 4MB L3 | Quad-Core Arm® Cortex®-A57 MPCore Prozessor |
| CPU Max-Frequenz | 2,6 GHz | 2,2 GHz | 2,0 GHz | 1,7 GHz | 2,2 GHz | 1,9 GHz | 1,43 GHz |
| Speicher | 128GB 256-Bit LPDDR5X 273GB/s | 64GB 256-Bit LPDDR5 204,8GB/s | 16GB 128-Bit LPDDR5 102,4GB/s | 8GB 128-Bit LPDDR5 102 GB/s | 32GB 256-Bit LPDDR4x 136,5GB/s | 8GB 128-Bit LPDDR4x 59,7GB/s | 4GB 64-Bit LPDDR4 25,6GB/s |
Für eine detailliertere Vergleichstabelle besuche bitte den Abschnitt Technische Daten vergleichen auf der offiziellen NVIDIA Jetson-Seite.
Link to this sectionWas ist NVIDIA JetPack?#
Das NVIDIA JetPack SDK, das die Jetson-Module antreibt, ist die umfassendste Lösung und bietet eine vollständige Entwicklungsumgebung für den Aufbau von durchgängigen, beschleunigten KI-Anwendungen und verkürzt die Markteinführungszeit. JetPack umfasst Jetson Linux mit Bootloader, Linux-Kernel, Ubuntu-Desktop-Umgebung und einen kompletten Satz an Bibliotheken zur Beschleunigung von GPU-Computing, Multimedia, Grafik und computer vision. Es enthält zudem Beispiele, Dokumentationen und Entwicklertools sowohl für den Host-Computer als auch für das Developer Kit und unterstützt übergeordnete SDKs wie DeepStream für Videoanalyse-Streaming, Isaac für Robotik und Riva für konversationsbasierte KI.
Link to this sectionJetPack auf NVIDIA Jetson flashen#
Der erste Schritt, nachdem du ein NVIDIA Jetson-Gerät erhalten hast, ist das Flashen von NVIDIA JetPack auf das Gerät. Es gibt verschiedene Möglichkeiten, NVIDIA Jetson-Geräte zu flashen.
- Wenn du ein offizielles NVIDIA Development Kit wie das Jetson AGX Thor Developer Kit besitzt, kannst du ein Image herunterladen und einen bootfähigen USB-Stick vorbereiten, um JetPack auf die enthaltene SSD zu flashen.
- Wenn du ein offizielles NVIDIA Development Kit wie das Jetson Orin Nano Developer Kit besitzt, kannst du ein Image herunterladen und eine SD-Karte mit JetPack vorbereiten, um das Gerät zu starten.
- Wenn du ein anderes NVIDIA Development Kit besitzt, kannst du JetPack mithilfe des SDK Managers auf das Gerät flashen.
- Wenn du ein Seeed Studio reComputer J4012-Gerät besitzt, kannst du JetPack auf die enthaltene SSD flashen, und wenn du ein Seeed Studio reComputer J1020 v2-Gerät besitzt, kannst du JetPack auf den eMMC/SSD flashen.
- Wenn du ein anderes Gerät eines Drittanbieters besitzt, das von einem NVIDIA Jetson-Modul angetrieben wird, wird empfohlen, dem Befehlszeilen-Flashen zu folgen.
Für die oben genannten Methoden 1, 4 und 5 gib bitte nach dem Flashen des Systems und dem Starten des Geräts "sudo apt update && sudo apt install nvidia-jetpack -y" im Geräteterminal ein, um alle benötigten verbleibenden JetPack-Komponenten zu installieren.
Link to this sectionJetPack-Unterstützung basierend auf Jetson-Gerät#
Die folgende Tabelle hebt die NVIDIA JetPack-Versionen hervor, die von verschiedenen NVIDIA Jetson-Geräten unterstützt werden.
| JetPack 4 | JetPack 5 | JetPack 6 | JetPack 7 | |
|---|---|---|---|---|
| Jetson Nano | ✅ | ❌ | ❌ | ❌ |
| Jetson TX2 | ✅ | ❌ | ❌ | ❌ |
| Jetson Xavier NX | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Xavier | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Orin | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin NX | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin Nano | ❌ | ✅ | ✅ | ❌ |
| Jetson AGX Thor | ❌ | ❌ | ❌ | ✅ |
Link to this sectionSchnellstart mit Docker#
Der schnellste Weg, mit Ultralytics YOLO26 auf NVIDIA Jetson zu beginnen, ist die Nutzung vorgefertigter Docker-Images für Jetson. Siehe die obige Tabelle und wähle die JetPack-Version entsprechend dem Jetson-Gerät, das du besitzt.
t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $tSobald dies erledigt ist, fahre mit dem Abschnitt Verwendung von TensorRT auf NVIDIA Jetson fort.
Link to this sectionStart mit nativer Installation#
Für eine native Installation ohne Docker befolge bitte die folgenden Schritte.
Link to this sectionAuf JetPack 7.0 ausführen#
Link to this sectionUltralytics-Paket installieren#
Hier installieren wir das Ultralytics-Paket auf dem Jetson mit optionalen Abhängigkeiten, damit wir die PyTorch-Modelle in andere verschiedene Formate exportieren können. Wir konzentrieren uns hauptsächlich auf NVIDIA TensorRT-Exporte, da TensorRT sicherstellt, dass wir die maximale Leistung aus den Jetson-Geräten herausholen.
-
Paketliste aktualisieren, pip installieren und auf die neueste Version aktualisieren
sudo apt update sudo apt install python3-pip -y pip install -U pip -
ultralyticspip-Paket mit optionalen Abhängigkeiten installierenpip install ultralytics[export] -
Gerät neu starten
sudo reboot
Link to this sectionPyTorch und Torchvision installieren#
Die oben genannte Ultralytics-Installation installiert Torch und Torchvision. Diese beiden per pip installierten Pakete sind jedoch nicht kompatibel für die Ausführung auf dem Jetson AGX Thor, der mit JetPack 7.0 und CUDA 13 geliefert wird. Daher müssen wir sie manuell installieren.
torch und torchvision gemäß JP7.0 installieren
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130Link to this sectiononnxruntime-gpu installieren#
Das in PyPI gehostete onnxruntime-gpu-Paket verfügt nicht über aarch64-Binärdateien für den Jetson. Daher müssen wir dieses Paket manuell installieren. Dieses Paket wird für einige der Exporte benötigt.
Hier werden wir onnxruntime-gpu 1.24.0 mit Python3.12-Unterstützung herunterladen und installieren.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whlLink to this sectionAusführen unter JetPack 6.1#
Link to this sectionUltralytics-Paket installieren#
Hier installieren wir das Ultralytics-Paket auf dem Jetson mit optionalen Abhängigkeiten, damit wir die PyTorch-Modelle in andere verschiedene Formate exportieren können. Wir konzentrieren uns hauptsächlich auf NVIDIA TensorRT-Exporte, da TensorRT sicherstellt, dass wir die maximale Leistung aus den Jetson-Geräten herausholen.
-
Paketliste aktualisieren, pip installieren und auf die neueste Version aktualisieren
sudo apt update sudo apt install python3-pip -y pip install -U pip -
ultralyticspip-Paket mit optionalen Abhängigkeiten installierenpip install ultralytics[export] -
Gerät neu starten
sudo reboot
Link to this sectionPyTorch und Torchvision installieren#
Die obige Ultralytics-Installation installiert Torch und Torchvision. Da diese beiden Pakete jedoch über pip installiert werden, sind sie nicht mit der Jetson-Plattform kompatibel, die auf der ARM64-Architektur basiert. Daher müssen wir manuell ein vorkompiliertes PyTorch-Pip-Wheel installieren und Torchvision aus dem Quellcode kompilieren oder installieren.
Installiere torch 2.10.0 und torchvision 0.25.0 gemäß JP6.1
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whlBesuche die PyTorch für Jetson-Seite, um auf alle verschiedenen PyTorch-Versionen für unterschiedliche JetPack-Versionen zuzugreifen. Für eine detailliertere Liste zur PyTorch- und Torchvision-Kompatibilität besuche die PyTorch- und Torchvision-Kompatibilitätsseite.
Installiere cuDSS, um ein Abhängigkeitsproblem mit torch 2.10.0 zu beheben.
wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudssLink to this sectiononnxruntime-gpu installieren#
Das in PyPI gehostete onnxruntime-gpu-Paket verfügt nicht über aarch64-Binärdateien für den Jetson. Daher müssen wir dieses Paket manuell installieren. Dieses Paket wird für einige der Exporte benötigt.
Du findest alle verfügbaren onnxruntime-gpu-Pakete – sortiert nach JetPack-Version, Python-Version und weiteren Kompatibilitätsdetails – in der Jetson Zoo ONNX Runtime-Kompatibilitätsmatrix.
Für JetPack 6 mit Python 3.10-Unterstützung kannst du onnxruntime-gpu 1.23.0 installieren:
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whlAlternativ für onnxruntime-gpu 1.20.0:
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whlLink to this sectionAusführen unter JetPack 5.1.2#
Link to this sectionUltralytics-Paket installieren#
Hier installieren wir das Ultralytics-Paket auf dem Jetson mit optionalen Abhängigkeiten, damit wir die PyTorch-Modelle in andere Formate exportieren können. Wir konzentrieren uns hauptsächlich auf NVIDIA TensorRT-Exporte, da TensorRT sicherstellt, dass wir die maximale Leistung aus den Jetson-Geräten herausholen.
-
Paketliste aktualisieren, pip installieren und auf die neueste Version aktualisieren
sudo apt update sudo apt install python3-pip -y pip install -U pip -
ultralyticspip-Paket mit optionalen Abhängigkeiten installierenpip install ultralytics[export] -
Gerät neu starten
sudo reboot
Link to this sectionPyTorch und Torchvision installieren#
Die obige Ultralytics-Installation installiert Torch und Torchvision. Da diese beiden Pakete jedoch über pip installiert werden, sind sie nicht mit der Jetson-Plattform kompatibel, die auf der ARM64-Architektur basiert. Daher müssen wir manuell ein vorkompiliertes PyTorch-Pip-Wheel installieren und Torchvision aus dem Quellcode kompilieren oder installieren.
-
Deinstalliere das aktuell installierte PyTorch und Torchvision
pip uninstall torch torchvision -
Installiere
torch 2.1.0undtorchvision 0.16.2gemäß JP5.1.2pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
Besuche die PyTorch für Jetson-Seite, um auf alle verschiedenen PyTorch-Versionen für unterschiedliche JetPack-Versionen zuzugreifen. Für eine detailliertere Liste zur PyTorch- und Torchvision-Kompatibilität besuche die PyTorch- und Torchvision-Kompatibilitätsseite.
Link to this sectiononnxruntime-gpu installieren#
Das in PyPI gehostete onnxruntime-gpu-Paket verfügt nicht über aarch64-Binärdateien für den Jetson. Daher müssen wir dieses Paket manuell installieren. Dieses Paket wird für einige der Exporte benötigt.
Du findest alle verfügbaren onnxruntime-gpu-Pakete – sortiert nach JetPack-Version, Python-Version und weiteren Kompatibilitätsdetails – in der Jetson Zoo ONNX Runtime-Kompatibilitätsmatrix. Hier werden wir onnxruntime-gpu 1.17.0 mit Python3.8-Unterstützung herunterladen und installieren.
wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whlonnxruntime-gpu setzt die NumPy-Version automatisch auf die neueste zurück. Daher müssen wir NumPy zur Fehlerbehebung durch Ausführen des folgenden Befehls auf 1.23.5 neu installieren:
pip install numpy==1.23.5
Link to this sectionTensorRT auf NVIDIA Jetson nutzen#
Unter allen von Ultralytics unterstützten Modellexportformaten bietet TensorRT die höchste Inferenzleistung auf NVIDIA Jetson-Geräten, was es zu unserer Top-Empfehlung für Jetson-Bereitstellungen macht. Für Einrichtungsanweisungen und fortgeschrittene Nutzung, siehe unseren speziellen TensorRT-Integrationsleitfaden.
Link to this sectionModell in TensorRT konvertieren und Inferenz ausführen#
Das YOLO26n-Modell im PyTorch-Format wird in TensorRT konvertiert, um die Inferenz mit dem exportierten Modell auszuführen.
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo26n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")Besuche die Export-Seite, um auf zusätzliche Argumente beim Exportieren von Modellen in verschiedene Modellformate zuzugreifen
Link to this sectionNVIDIA Deep Learning Accelerator (DLA) nutzen#
NVIDIA Deep Learning Accelerator (DLA) ist eine spezialisierte Hardwarekomponente, die in NVIDIA Jetson-Geräte integriert ist und die Deep-Learning-Inferenz auf Energieeffizienz und Leistung optimiert. Durch das Auslagern von Aufgaben von der GPU (wodurch diese für intensivere Prozesse frei wird), ermöglicht DLA den Betrieb von Modellen mit geringerem Stromverbrauch bei gleichzeitig hohem Durchsatz, was ideal für eingebettete Systeme und Echtzeit-KI-Anwendungen ist.
DLA wird in TensorRT 11.0 nicht unterstützt, eine Rückkehr ist für ein späteres Release geplant. Daher erfordert der DLA-Export TensorRT 10.x. Exportiere auf JetPack 6.x/7.x mit einem TensorRT 10.x-Build, um DLA zu nutzen, oder verwende die GPU für TensorRT 11.0-Engines.
Die folgenden Jetson-Geräte sind mit DLA-Hardware ausgestattet:
| Jetson-Gerät | DLA-Kerne | DLA-Maximalfrequenz |
|---|---|---|
| Jetson AGX Orin-Serie | 2 | 1,6 GHz |
| Jetson Orin NX 16GB | 2 | 614 MHz |
| Jetson Orin NX 8GB | 1 | 614 MHz |
| Jetson AGX Xavier-Serie | 2 | 1,4 GHz |
| Jetson Xavier NX-Serie | 2 | 1,1 GHz |
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True) # dla:0 or dla:1 corresponds to the DLA cores
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")Bei der Verwendung von DLA-Exporten werden einige Schichten möglicherweise nicht für die Ausführung auf dem DLA unterstützt und greifen zur Ausführung auf die GPU zurück. Dieser Fallback kann zusätzliche Latenz verursachen und die gesamte Inferenzleistung beeinträchtigen. Daher ist DLA nicht primär darauf ausgelegt, die Inferenzlatenz im Vergleich zu TensorRT, das vollständig auf der GPU läuft, zu reduzieren. Sein Hauptzweck besteht stattdessen darin, den Durchsatz zu erhöhen und die Energieeffizienz zu verbessern.
Link to this sectionNVIDIA Jetson YOLO11/ YOLO26 Benchmarks#
YOLO11/ YOLO26 Benchmarks wurden vom Ultralytics-Team mit 11 verschiedenen Modellformaten durchgeführt, wobei Geschwindigkeit und Genauigkeit gemessen wurden: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch. Die Benchmarks wurden auf dem NVIDIA Jetson AGX Thor Developer Kit, NVIDIA Jetson AGX Orin Developer Kit (64GB), NVIDIA Jetson Orin Nano Super Developer Kit und dem Seeed Studio reComputer J4012, betrieben durch ein Jetson Orin NX 16GB-Gerät, bei FP32-Präzision mit einer Standard-Eingabebildgröße von 640 ausgeführt.
Link to this sectionVergleichsdiagramme#
Obwohl alle Modellexporte auf NVIDIA Jetson funktionieren, haben wir für die untenstehende Vergleichstabelle nur PyTorch, TorchScript, TensorRT aufgenommen, da diese die GPU des Jetson nutzen und garantiert die besten Ergebnisse liefern. Alle anderen Exporte nutzen nur die CPU, und die Leistung ist nicht so gut wie bei den obigen drei. Du findest Benchmarks für alle Exporte im Abschnitt nach dieser Tabelle.
Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#
Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#
Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#
Link to this sectionNVIDIA Jetson Orin NX 16GB#
Link to this sectionDetaillierte Vergleichstabellen#
Die folgende Tabelle stellt die Benchmark-Ergebnisse für fünf verschiedene Modelle (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) über 11 verschiedene Formate (PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch) dar und zeigt Status, Größe, mAP50-95(B)-Metrik und Inferenzzeit für jede Kombination.
Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#
| Format | Status | Größe auf dem Datenträger (MB) | mAP50-95(B) | Inferenzzeit (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0,4798 | 7,39 |
| TorchScript | ✅ | 9,8 | 0,4789 | 4,21 |
| ONNX | ✅ | 9,5 | 0,4767 | 6,58 |
| OpenVINO | ✅ | 10.1 | 0,4794 | 17,50 |
| TensorRT (FP32) | ✅ | 13,9 | 0,4791 | 1,90 |
| TensorRT (FP16) | ✅ | 7.6 | 0,4797 | 1,39 |
| TensorRT (INT8) | ✅ | 6.5 | 0,4273 | 1,52 |
| TF SavedModel | ✅ | 25.7 | 0,4764 | 47,24 |
| TF GraphDef | ✅ | 9,5 | 0,4764 | 45,98 |
| TF Lite | ✅ | 9,9 | 0,4764 | 182,04 |
| MNN | ✅ | 9.4 | 0,4784 | 21,83 |
Getestet mit Ultralytics 8.4.7
Die Inferenzzeit beinhaltet keine Vor-/Nachbearbeitung.
Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#
| Format | Status | Größe auf dem Datenträger (MB) | mAP50-95(B) | Inferenzzeit (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4790 | 11.58 |
| TorchScript | ✅ | 9,8 | 0.4770 | 4.60 |
| ONNX | ✅ | 9,5 | 0.4770 | 9.87 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 28.80 |
| TensorRT (FP32) | ✅ | 11.5 | 0.0450 | 4.18 |
| TensorRT (FP16) | ✅ | 7.9 | 0.0450 | 2.62 |
| TensorRT (INT8) | ✅ | 5,4 | 0.4640 | 2.30 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 71.10 |
| TF GraphDef | ✅ | 9,5 | 0.4760 | 70.02 |
| TF Lite | ✅ | 9,9 | 0.4760 | 227.94 |
| MNN | ✅ | 9.4 | 0.4760 | 32.46 |
| NCNN | ✅ | 9.3 | 0.4810 | 29.93 |
Benchmarked mit Ultralytics 8.4.32
Die Inferenzzeit beinhaltet keine Vor-/Nachbearbeitung.
Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#
| Format | Status | Größe auf dem Datenträger (MB) | mAP50-95(B) | Inferenzzeit (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4790 | 15.60 |
| TorchScript | ✅ | 9,8 | 0.4770 | 12.60 |
| ONNX | ✅ | 9,5 | 0.4760 | 15.76 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 56.23 |
| TensorRT (FP32) | ✅ | 11.3 | 0.4770 | 7.53 |
| TensorRT (FP16) | ✅ | 8.1 | 0.4800 | 4.57 |
| TensorRT (INT8) | ✅ | 5.3 | 0.4490 | 3.80 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 118.33 |
| TF GraphDef | ✅ | 9,5 | 0.4760 | 116.30 |
| TF Lite | ✅ | 9,9 | 0.4760 | 286.00 |
| MNN | ✅ | 9.4 | 0.4760 | 68.77 |
| NCNN | ✅ | 9.3 | 0.4810 | 47.50 |
Getestet mit Ultralytics 8.4.33
Die Inferenzzeit beinhaltet keine Vor-/Nachbearbeitung.
Link to this sectionNVIDIA Jetson Orin NX 16GB#
| Format | Status | Größe auf dem Datenträger (MB) | mAP50-95(B) | Inferenzzeit (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4799 | 13.90 |
| TorchScript | ✅ | 9,8 | 0.4787 | 11.60 |
| ONNX | ✅ | 9,5 | 0.4763 | 14.18 |
| OpenVINO | ✅ | 9.6 | 0.4819 | 40.19 |
| TensorRT (FP32) | ✅ | 11.4 | 0.4770 | 7.01 |
| TensorRT (FP16) | ✅ | 8.0 | 0,4789 | 4.13 |
| TensorRT (INT8) | ✅ | 5.5 | 0.4489 | 3.49 |
| TF SavedModel | ✅ | 24.6 | 0,4764 | 92.34 |
| TF GraphDef | ✅ | 9,5 | 0,4764 | 92.06 |
| TF Lite | ✅ | 9,9 | 0,4764 | 254.43 |
| MNN | ✅ | 9.4 | 0.4760 | 48.55 |
| NCNN | ✅ | 9.3 | 0.4805 | 34.31 |
Getestet mit Ultralytics 8.4.33
Die Inferenzzeit beinhaltet keine Vor-/Nachbearbeitung.
Entdecke weitere Benchmarking-Ergebnisse von Seeed Studio, die auf verschiedenen Versionen der NVIDIA Jetson-Hardware ausgeführt wurden.
Link to this sectionUnsere Ergebnisse reproduzieren#
Um die oben genannten Ultralytics-Benchmarks für alle Export-Formate zu reproduzieren, führe diesen Code aus:
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)Beachte, dass Benchmarking-Ergebnisse je nach exakter Hardware- und Softwarekonfiguration eines Systems sowie der aktuellen Systemauslastung zum Zeitpunkt der Benchmark-Ausführung variieren können. Für die zuverlässigsten Ergebnisse verwende einen Datensatz mit einer großen Anzahl von Bildern, z. B. data='coco.yaml' (5000 Validierungsbilder).
Link to this sectionBest Practices bei der Verwendung von NVIDIA Jetson#
Wenn du NVIDIA Jetson verwendest, gibt es ein paar Best Practices, die du befolgen solltest, um die maximale Leistung auf dem NVIDIA Jetson mit YOLO26 zu erzielen.
-
MAX Power Mode aktivieren
Die Aktivierung des MAX Power Mode auf dem Jetson stellt sicher, dass alle CPU- und GPU-Kerne eingeschaltet sind.
sudo nvpmodel -m 0 -
Jetson Clocks aktivieren
Die Aktivierung von Jetson Clocks stellt sicher, dass alle CPU- und GPU-Kerne mit ihrer maximalen Frequenz getaktet werden.
sudo jetson_clocks -
Jetson Stats-Anwendung installieren
Wir können die jetson stats-Anwendung verwenden, um die Temperaturen der Systemkomponenten zu überwachen und andere Systemdetails zu prüfen, wie z. B. die CPU-, GPU- und RAM-Auslastung anzeigen, Leistungsmodi ändern, maximale Taktfrequenzen einstellen und JetPack-Informationen abrufen.
sudo apt update sudo pip install jetson-stats sudo reboot jtop
Link to this sectionTipps zur Speicheroptimierung für NVIDIA Jetson#
Der verfügbare Arbeitsspeicher ist auf Jetson-Geräten oft der limitierende Faktor, insbesondere bei Varianten mit weniger Speicher wie dem Jetson Orin Nano (8 GB) oder Orin NX 8 GB. Die folgenden Tipps sind praktische, risikoarme Änderungen, die zusammen mehrere hundert Megabyte freigeben können, damit du größere YOLO-Modelle ausführen oder zusätzliche parallele Workloads unterstützen kannst. Eine umfassende Behandlung findest du im NVIDIA-Blog zur Maximierung der Speichereffizienz auf Jetson.
Link to this sectionWechsel zum Headless-Boot (ohne GUI)#
Wenn dein Jetson über SSH verbunden ist oder als Produktionsgerät ohne angeschlossenes Display läuft, kann das Entfernen der Desktop-Umgebung und des Display-Servers bis zu 865 MB RAM einsparen:
sudo systemctl set-default multi-user.target
sudo rebootUm den Desktop später wiederherzustellen:
sudo systemctl set-default graphical.target
sudo rebootLink to this sectionUngenutzte Systemdienste deaktivieren#
Nicht unbedingt erforderliche Hintergrunddienste (Bluetooth, Konnektivitätsmanager, ungenutzte Hardware-Daemons) verbrauchen zusammen etwa 32 MB. Liste die aktiven Dienste auf und deaktiviere alles, was für deinen Einsatzbereich nicht erforderlich ist:
# List running services
systemctl list-units --type=service --state=running
# Disable a service
sudo systemctl disable SERVICE_NAMELink to this sectionSpeichernutzung analysieren#
Identifiziere vor der Optimierung, welche Prozesse tatsächlich Arbeitsspeicher verbrauchen. procrank sortiert Prozesse nach PSS (Proportional Set Size), was den tatsächlichen Speicherbedarf pro Prozess genauer widerspiegelt als RSS (Resident Set Size, der gesamte physische RAM, der einem Prozess zugeordnet ist, einschließlich gemeinsam genutzter Seiten):
git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrankUm GPU- und NvMap-Zuweisungen (CUDA/Video-Pipeline) pro Prozess zu sehen:
sudo cat /sys/kernel/debug/nvmap/iovmm/clientsLink to this sectionInferenz in der Produktion ohne Display ausführen#
Bei Inferenz-Pipelines ohne Live-Vorschau-Anforderung können durch das Deaktivieren von anzeigebezogenen Komponenten (Tiler, OSD, DisplaySink) allein 200+ MB eingespart werden. Unterdrücke bei Ultralytics YOLO die Anzeige und schreibe die Ergebnisse stattdessen auf die Festplatte:
from ultralytics import YOLO
model = YOLO("yolo11n.engine")
# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)Link to this sectionKumulative Auswirkung#
| Optimierung | Ca. eingesparter Speicher |
|---|---|
| Desktop-GUI deaktivieren | ~865 MB |
| Ungenutzte OS-Dienste deaktivieren | ~32 MB |
| Headless-Inferenz-Pipeline (kein Display) | ~200+ MB |
| Gesamt (einfache Erfolge) | ~1 GB+ |
Die Kombination dieser Änderungen ist besonders wertvoll, wenn du TensorRT INT8-Modelle auf speicherbegrenzten Geräten einsetzt – es kann den Unterschied ausmachen, ob eine größere Modellvariante in den Speicher passt oder nicht.
Link to this sectionNächste Schritte#
Für weitere Lerninhalte und Unterstützung, siehe die Ultralytics YOLO26 Dokumentation.
Link to this sectionFAQ#
Link to this sectionWie stelle ich Ultralytics YOLO26 auf NVIDIA Jetson Geräten bereit?#
Die Bereitstellung von Ultralytics YOLO26 auf NVIDIA Jetson Geräten ist ein unkomplizierter Prozess. Flashe zuerst dein Jetson Gerät mit dem NVIDIA JetPack SDK. Nutze dann entweder ein vorgefertigtes Docker Image für eine schnelle Einrichtung oder installiere die benötigten Pakete manuell. Detaillierte Schritte für jeden Ansatz findest du in den Abschnitten Schnellstart mit Docker und Start mit nativer Installation.
Link to this sectionWelche Leistungsbenchmarks kann ich von YOLO11 Modellen auf NVIDIA Jetson Geräten erwarten?#
YOLO11 Modelle wurden auf verschiedenen NVIDIA Jetson Geräten getestet und zeigen signifikante Leistungsverbesserungen. Zum Beispiel liefert das TensorRT Format die beste Inferenzleistung. Die Tabelle im Abschnitt Detaillierte Vergleichstabellen bietet einen umfassenden Überblick über Leistungsmetriken wie mAP50-95 und Inferenzzeit über verschiedene Modellformate hinweg.
Link to this sectionWarum sollte ich TensorRT für die Bereitstellung von YOLO26 auf NVIDIA Jetson verwenden?#
TensorRT wird für die Bereitstellung von YOLO26 Modellen auf NVIDIA Jetson aufgrund seiner optimalen Leistung sehr empfohlen. Es beschleunigt die Inferenz durch Nutzung der GPU-Fähigkeiten des Jetson und sorgt für maximale Effizienz und Geschwindigkeit. Erfahre mehr darüber, wie du in TensorRT konvertierst und Inferenz ausführst, im Abschnitt TensorRT auf NVIDIA Jetson verwenden.
Link to this sectionWie kann ich PyTorch und Torchvision auf NVIDIA Jetson installieren?#
Um PyTorch und Torchvision auf NVIDIA Jetson zu installieren, deinstalliere zuerst alle bestehenden Versionen, die möglicherweise via pip installiert wurden. Installiere dann manuell die kompatiblen PyTorch und Torchvision Versionen für die ARM64 Architektur des Jetson. Detaillierte Anweisungen für diesen Prozess werden im Abschnitt PyTorch und Torchvision installieren bereitgestellt.
Link to this sectionWas sind die besten Vorgehensweisen, um die Leistung auf NVIDIA Jetson bei Verwendung von YOLO26 zu maximieren?#
Um die Leistung auf NVIDIA Jetson mit YOLO26 zu maximieren, befolge diese Best Practices:
- Aktiviere den MAX Power Mode, um alle CPU und GPU Kerne zu nutzen.
- Aktiviere Jetson Clocks, um alle Kerne mit ihrer maximalen Frequenz zu betreiben.
- Installiere die Jetson Stats Anwendung zur Überwachung der Systemmetriken.
Für Befehle und zusätzliche Details, beziehe dich auf den Abschnitt Best Practices bei der Verwendung von NVIDIA Jetson.
Link to this sectionWie mache ich Arbeitsspeicher auf NVIDIA Jetson frei, um größere YOLO Modelle auszuführen?#
Verfügbarer RAM ist oft der Engpass bei Jetson Geräten mit weniger Arbeitsspeicher. Drei einfache Maßnahmen, die zusammen über 1 GB freigeben können:
- Wechsle zum Headless Boot (
sudo systemctl set-default multi-user.target), um die Desktop-GUI zu eliminieren (~865 MB gespart). - Deaktiviere ungenutzte Dienste wie Bluetooth oder Verbindungsmanager (~32 MB gespart).
- Führe Inferenz ohne Display aus, indem du
show=Falsein deinem YOLOpredictAufruf setzt, was die Zuweisung von Display-Pipeline-Speicher vermeidet (~200+ MB gespart).
Verwende procrank, um die RAM-Nutzung pro Prozess zu profilieren, und sudo cat /sys/kernel/debug/nvmap/iovmm/clients, um GPU-Zuweisungen zu untersuchen. Siehe den Abschnitt Speicheroptimierungstipps für vollständige Details.
Link to this sectionWarum deaktiviert mein TensorRT INT8 Export end2end auf JetPack 6?#
TensorRT 10.3.0, das mit JetPack 6 ausgeliefert wurde, hat ein bekanntes Problem, das INT8 Engine-Builds verhindert, wenn end2end=True aktiviert ist. Wenn Ultralytics diese Kombination erkennt, deaktiviert es automatisch den end2end-Zweig, um sicherzustellen, dass der Export erfolgreich ist.
Um end2end INT8 Exporte wiederherzustellen, aktualisiere TensorRT auf eine neuere Version (z. B. 10.7.0+):
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrtNach dem Upgrade führe deinen Export erneut aus. Für weitere Details siehe GitHub issue #23841.