Schnellstartanleitung: NVIDIA DGX Spark mit Ultralytics YOLO26

Q: Can I use the same Docker image for DGX Spark and Jetson AGX Thor?

Ja! Das Docker-Image ultralytics/ultralytics:latest-nvidia-arm64 unterstützt sowohl NVIDIA DGX Spark (mit DGX OS) als auch Jetson AGX Thor (mit JetPack 7.0), da beide die ARM64-Architektur mit CUDA 13 und ähnliche Software-Stacks verwenden.

Dieser umfassende Leitfaden bietet eine detaillierte Anleitung zur Bereitstellung von Ultralytics YOLO26 auf NVIDIA DGX Spark, NVIDIAs kompaktem Desktop-KI-Supercomputer. Zusätzlich werden Leistungs-Benchmarks vorgestellt, um die Fähigkeiten von YOLO26 auf diesem leistungsstarken System zu demonstrieren.

Übersicht über die NVIDIA Spark KI-Workstation

Hinweis

Dieser Leitfaden wurde mit der NVIDIA DGX Spark Founders Edition getestet, die DGX OS basierend auf Ubuntu ausführt. Es wird erwartet, dass er mit den neuesten DGX OS-Versionen funktioniert.

Was ist NVIDIA DGX Spark?

NVIDIA DGX Spark ist ein kompakter Desktop-KI-Supercomputer, der vom NVIDIA GB10 Grace Blackwell Superchip angetrieben wird. Er liefert bis zu 1 PetaFLOP KI-Rechenleistung mit FP4-Präzision, was ihn ideal für Entwickler, Forscher und Datenwissenschaftler macht, die leistungsstarke KI-Funktionen in einem Desktop-Formfaktor benötigen.

Wichtige Spezifikationen

Spezifikation	Details
KI-Leistung	Bis zu 1 PFLOP (FP4)
GPU	NVIDIA Blackwell Architektur mit Tensor Cores der 5. Generation, RT Cores der 4. Generation
CPU	20-Kern Arm-Prozessor (10 Cortex-X925 + 10 Cortex-A725)
Arbeitsspeicher	128 GB LPDDR5x vereinheitlichter Systemspeicher, 256-Bit-Schnittstelle, 4266 MHz, 273 GB/s Bandbreite
Speicher	1 TB oder 4 TB NVMe M.2 mit Selbstverschlüsselung
Netzwerk	1x RJ-45 (10 GbE), ConnectX-7 Smart NIC, Wi-Fi 7, Bluetooth 5.4
Konnektivität	4x USB Type-C, 1x HDMI 2.1a, HDMI Mehrkanal-Audio
Videoverarbeitung	1x NVENC, 1x NVDEC

DGX OS

NVIDIA DGX OS ist eine angepasste Linux-Distribution, die eine stabile, getestete und unterstützte Betriebssystemgrundlage zum Ausführen von KI-, Machine-Learning- und Analyseanwendungen auf DGX-Systemen bietet. Es umfasst:

Eine robuste Linux-Grundlage, optimiert für KI-Workloads
Vorkonfigurierte Treiber und Systemeinstellungen für NVIDIA-Hardware
Sicherheitsupdates und Systemwartungsfunktionen
Kompatibilität mit dem breiteren NVIDIA-Software-Ökosystem

DGX OS folgt einem regelmäßigen Release-Zeitplan, wobei Updates typischerweise zweimal pro Jahr (etwa im Februar und August) bereitgestellt werden und zusätzliche Sicherheitspatches zwischen den Haupt-Releases zur Verfügung gestellt werden.

DGX Dashboard

DGX Spark verfügt über ein integriertes DGX Dashboard, das Folgendes bietet:

Echtzeit-Systemüberwachung: Übersicht über die aktuellen Betriebsmetriken des Systems
System-Updates: Möglichkeit, Updates direkt über das Dashboard anzuwenden
Systemeinstellungen: Gerätenamen und andere Konfigurationen ändern
Integriertes JupyterLab: Zugriff auf lokale Jupyter Notebooks für die Entwicklung

NVIDIA DGX-Verwaltungs-Dashboard-Schnittstelle

Zugriff auf das Dashboard

LokalRemote via SSHRemote via NVIDIA Sync

Klicken Sie auf die Schaltfläche „Anwendungen anzeigen“ in der unteren linken Ecke des Ubuntu-Desktops und wählen Sie dann „DGX Dashboard“ aus, um es in Ihrem Browser zu öffnen.

# Open an SSH tunnel
ssh -L 11000:localhost:11000 username@spark-abcd.local

# Then open in browser
# http://localhost:11000

Nach der Verbindung mit NVIDIA Sync klicken Sie auf die Schaltfläche „DGX Dashboard“, um das Dashboard unter zu öffnen http://localhost:11000.

Integriertes JupyterLab

Das Dashboard enthält eine integrierte JupyterLab-Instanz, die beim Start automatisch eine virtuelle Umgebung erstellt und empfohlene Pakete installiert. Jedem Benutzerkonto wird ein dedizierter Port für den JupyterLab-Zugriff zugewiesen.

Schnellstart mit Docker

Der schnellste Weg, um mit Ultralytics YOLO26 auf NVIDIA DGX Spark zu beginnen, ist die Verwendung vorgefertigter Docker-Images. Das gleiche Docker-Image, das Jetson AGX Thor (JetPack 7.0) unterstützt, funktioniert auf DGX Spark mit DGX OS.

t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $t

Danach fahren Sie fort mit dem Abschnitt „TensorRT auf NVIDIA DGX Spark verwenden“.

Starten Sie mit der nativen Installation

Für eine native Installation ohne Docker befolgen Sie diese Schritte.

Ultralytics-Paket installieren

Hier installieren wir das Ultralytics-Paket auf DGX Spark mit optionalen Abhängigkeiten, damit wir die PyTorch-Modelle in verschiedene andere Formate exportieren können. Wir werden uns hauptsächlich auf NVIDIA TensorRT-Exporte konzentrieren, da TensorRT sicherstellt, dass wir die maximale Leistung aus dem DGX Spark herausholen können.

Paketliste aktualisieren, pip installieren und auf die neueste Version aktualisieren
```
sudo apt update
sudo apt install python3-pip -y
pip install -U pip
```
Installieren ultralytics pip-Paket mit optionalen Abhängigkeiten
```
pip install ultralytics[export]
```
Gerät neu starten
```
sudo reboot
```

PyTorch und Torchvision installieren

Die oben genannte Ultralytics-Installation wird Torch und Torchvision installieren. Diese über pip installierten Pakete sind jedoch möglicherweise nicht vollständig für die ARM64-Architektur des DGX Spark mit CUDA 13 optimiert. Daher empfehlen wir die Installation der CUDA 13-kompatiblen Versionen:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

Info

Beim Ausführen von PyTorch 2.9.1 auf NVIDIA DGX Spark kann Folgendes auftreten: UserWarning bei der Initialisierung von CUDA (z. B. beim Ausführen von yolo checks, yolo predict, usw.):

UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)

Diese Warnung kann bedenkenlos ignoriert werden. Um dies dauerhaft zu beheben, wurde ein Fix im PyTorch PR #164590 eingereicht, der in der PyTorch 2.10-Version enthalten sein wird.

Installieren `onnxruntime-gpu`

Die onnxruntime-gpu Das in PyPI gehostete Paket hat keine aarch64 Binärdateien für ARM64-Systeme. Daher müssen wir dieses Paket manuell installieren. Dieses Paket wird für einige der Exporte benötigt.

Hier werden wir herunterladen und installieren onnxruntime-gpu 1.24.0 mit Python3.12 Unterstützung.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

TensorRT auf NVIDIA DGX Spark verwenden

Unter allen von Ultralytics unterstützten Modell-Exportformaten bietet TensorRT die höchste Inferenzleistung auf NVIDIA DGX Spark, was es zu unserer Top-Empfehlung für Bereitstellungen macht. Installationsanweisungen und fortgeschrittene Nutzung finden Sie in unserem dedizierten TensorRT-Integrationsleitfaden.

Modell in TensorRT konvertieren und Inferenz ausführen

Das YOLO26n-Modell im PyTorch-Format wird in TensorRT konvertiert, um die Inferenz mit dem exportierten Modell auszuführen.

Beispiel

PythonCLI

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO26n PyTorch model to TensorRT format
yolo export model=yolo26n.pt format=engine # creates 'yolo26n.engine'

# Run inference with the exported model
yolo predict model=yolo26n.engine source='https://ultralytics.com/images/bus.jpg'

Hinweis

Besuchen Sie die Export-Seite, um auf zusätzliche Argumente beim Exportieren von Modellen in verschiedene Modellformate zuzugreifen.

NVIDIA DGX Spark YOLO11 Benchmarks

YOLO11-Benchmarks wurden vom Ultralytics-Team für mehrere Modellformate durchgeführt, um Geschwindigkeit und Genauigkeit zu messen: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch. Die Benchmarks wurden auf NVIDIA DGX Spark mit FP32-Präzision und einer Standardeingabebildgröße von 640 durchgeführt.

Detaillierte Vergleichstabelle

Die folgende Tabelle zeigt die Benchmark-Ergebnisse für fünf verschiedene Modelle (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) über mehrere Formate hinweg, einschließlich Status, Größe, mAP50-95(B)-Metrik und Inferenzzeit für jede Kombination.

Performance

YOLO11nYOLO11sYOLO11mYOLO11lYOLO11x

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/Bild)
PyTorch	✅	5.4	0.5071	2.67
TorchScript	✅	10.5	0.5083	2.62
ONNX	✅	10.2	0.5074	5.92
OpenVINO	✅	10.4	0.5058	14.95
TensorRT (FP32)	✅	12.8	0.5085	1.95
TensorRT (FP16)	✅	7.0	0.5068	1.01
TensorRT (INT8)	✅	18.6	0.4880	1.62
TF SavedModel	✅	25.7	0.5076	36.39
TF GraphDef	✅	10.3	0.5076	41.06
TF Lite	✅	10.3	0.5075	64.36
MNN	✅	10.1	0.5075	12.14
NCNN	✅	10.2	0.5041	12.31
ExecuTorch	✅	10.2	0.5075	27.61

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/Bild)
PyTorch	✅	18.4	0.5767	5.38
TorchScript	✅	36.5	0.5781	5.48
ONNX	✅	36.3	0.5784	8.17
OpenVINO	✅	36.4	0.5809	27.12
TensorRT (FP32)	✅	39.8	0.5783	3.59
TensorRT (FP16)	✅	20.1	0.5800	1.85
TensorRT (INT8)	✅	17.5	0.5664	1.88
TF SavedModel	✅	90.8	0.5782	66.63
TF GraphDef	✅	36.3	0.5782	71.67
TF Lite	✅	36.3	0.5782	187.36
MNN	✅	36.2	0.5775	27.05
NCNN	✅	36.2	0.5806	26.26
ExecuTorch	✅	36.2	0.5782	54.73

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/Bild)
PyTorch	✅	38.8	0.6254	11.14
TorchScript	✅	77.3	0.6304	12.00
ONNX	✅	76.9	0.6304	13.83
OpenVINO	✅	77.1	0.6284	62.44
TensorRT (FP32)	✅	79.9	0.6305	6.96
TensorRT (FP16)	✅	40.6	0.6313	3.14
TensorRT (INT8)	✅	26.6	0.6204	3.30
TF SavedModel	✅	192.4	0.6306	139.85
TF GraphDef	✅	76.9	0.6306	146.76
TF Lite	✅	76.9	0.6306	568.18
MNN	✅	76.8	0.6306	67.67
NCNN	✅	76.8	0.6308	60.49
ExecuTorch	✅	76.9	0.6306	120.37

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/Bild)
PyTorch	✅	49.0	0.6366	13.95
TorchScript	✅	97.6	0.6399	15.67
ONNX	✅	97.0	0.6399	16.62
OpenVINO	✅	97.3	0.6377	78.80
TensorRT (FP32)	✅	99.2	0.6407	8.86
TensorRT (FP16)	✅	50.8	0.6350	3.85
TensorRT (INT8)	✅	32.5	0.6224	4.52
TF SavedModel	✅	242.7	0.6409	187.45
TF GraphDef	✅	97.0	0.6409	193.92
TF Lite	✅	97.0	0.6409	728.61
MNN	✅	96.9	0.6369	85.21
NCNN	✅	96.9	0.6373	77.62
ExecuTorch	✅	97.0	0.6409	153.56

Format	Status	Größe auf der Festplatte (MB)	mAP50-95(B)	Inferenzzeit (ms/Bild)
PyTorch	✅	109.3	0.6992	23.19
TorchScript	✅	218.1	0.6900	25.75
ONNX	✅	217.5	0.6900	27.43
OpenVINO	✅	217.8	0.6872	149.44
TensorRT (FP32)	✅	222.7	0.6902	13.87
TensorRT (FP16)	✅	111.1	0.6883	6.19
TensorRT (INT8)	✅	62.9	0.6793	6.62
TF SavedModel	✅	543.9	0.6900	335.10
TF GraphDef	✅	217.5	0.6900	348.86
TF Lite	✅	217.5	0.6900	1578.66
MNN	✅	217.3	0.6874	168.95
NCNN	✅	217.4	0.6901	132.13
ExecuTorch	✅	217.4	0.6900	297.17

Benchmarked mit Ultralytics 8.3.249

Unsere Ergebnisse reproduzieren

Um die oben genannten Ultralytics-Benchmarks auf allen Export-Formaten zu reproduzieren, führen Sie diesen Code aus:

Beispiel

PythonCLI

from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
yolo benchmark model=yolo26n.pt data=coco128.yaml imgsz=640

Beachten Sie, dass die Benchmarking-Ergebnisse je nach genauer Hardware- und Softwarekonfiguration eines Systems sowie der aktuellen Systemauslastung zum Zeitpunkt der Benchmark-Ausführung variieren können. Für die zuverlässigsten Ergebnisse verwenden Sie einen Datensatz mit einer großen Anzahl von Bildern, z. B. data='coco.yaml' (5000 Validierungsbilder).

Best Practices für NVIDIA DGX Spark

Bei der Verwendung von NVIDIA DGX Spark gibt es einige Best Practices, die befolgt werden sollten, um die maximale Leistung beim Ausführen von YOLO26 zu erzielen.

Systemleistung überwachen
Verwenden Sie die Überwachungstools von NVIDIA, um die GPU- und CPU-Auslastung zu tracken:
```
nvidia-smi
```
Speichernutzung optimieren
Mit 128 GB Unified Memory kann DGX Spark große Batch-Größen und Modelle verarbeiten. Erwägen Sie eine Erhöhung der Batch-Größe für einen verbesserten Durchsatz:
```
from ultralytics import YOLO

model = YOLO("yolo26n.engine")
results = model.predict(source="path/to/images", batch=16)
```

TensorRT mit FP16 oder INT8 verwenden

Für beste Leistung exportieren Sie Modelle mit FP16- oder INT8-Präzision:

yolo export model=yolo26n.pt format=engine half=True # FP16
yolo export model=yolo26n.pt format=engine int8=True # INT8

System-Updates (Founders Edition)

Die Aktualisierung Ihrer DGX Spark Founders Edition ist entscheidend für Leistung und Sicherheit. NVIDIA bietet zwei primäre Methoden zur Aktualisierung des System-Betriebssystems, der Treiber und der Firmware.

Verwendung des DGX Dashboards (Empfohlen)

Das DGX Dashboard ist der empfohlene Weg, Systemaktualisierungen durchzuführen und die Kompatibilität sicherzustellen. Es ermöglicht Ihnen:

Verfügbare Systemaktualisierungen anzeigen
Sicherheitspatches und Systemaktualisierungen installieren
NVIDIA-Treiber- und Firmware-Updates verwalten

Manuelle System-Updates

Für fortgeschrittene Benutzer können Updates manuell über das Terminal durchgeführt werden:

sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo reboot

Warnung

Stellen Sie sicher, dass Ihr System an eine stabile Stromquelle angeschlossen ist und Sie wichtige Daten gesichert haben, bevor Sie Updates durchführen.

Nächste Schritte

Für weitere Informationen und Unterstützung siehe die Ultralytics YOLO26 Docs.

FAQ

Wie stelle ich Ultralytics YOLO26 auf NVIDIA DGX Spark bereit?

Die Bereitstellung von Ultralytics YOLO26 auf NVIDIA DGX Spark ist unkompliziert. Sie können das vorgefertigte Docker-Image für eine schnelle Einrichtung verwenden oder die erforderlichen Pakete manuell installieren. Detaillierte Schritte für jeden Ansatz finden Sie in den Abschnitten Quick Start with Docker und Start with Native Installation.

Welche Leistung kann ich von YOLO26 auf NVIDIA DGX Spark erwarten?

YOLO26-Modelle liefern dank des GB10 Grace Blackwell Superchips eine hervorragende Leistung auf DGX Spark. Das TensorRT-Format bietet die beste Inferenzleistung. Spezifische Benchmark-Ergebnisse für verschiedene Modellgrößen und -formate finden Sie im Abschnitt Detailed Comparison Table.

Warum sollte ich TensorRT für YOLO26 auf DGX Spark verwenden?

TensorRT wird für die Bereitstellung von YOLO26-Modellen auf DGX Spark aufgrund seiner optimalen Leistung dringend empfohlen. Es beschleunigt die Inferenz, indem es die Blackwell GPU-Fähigkeiten nutzt und so maximale Effizienz und Geschwindigkeit gewährleistet. Erfahren Sie mehr im Abschnitt Use TensorRT on NVIDIA DGX Spark.

Wie schneidet DGX Spark im Vergleich zu Jetson-Geräten für YOLO26 ab?

DGX Spark bietet deutlich mehr Rechenleistung als Jetson-Geräte mit bis zu 1 PFLOP KI-Leistung und 128 GB vereinheitlichtem Speicher, im Vergleich zu Jetson AGX Thors 2070 TFLOPS und 128 GB Speicher. DGX Spark ist als Desktop-KI-Supercomputer konzipiert, während Jetson-Geräte eingebettete Systeme sind, die für Edge-Deployments optimiert sind.

Kann ich dasselbe Docker-Image für DGX Spark und Jetson AGX Thor verwenden?

Ja! Das ultralytics/ultralytics:latest-nvidia-arm64 Docker-Image unterstützt sowohl NVIDIA DGX Spark (mit DGX OS) als auch Jetson AGX Thor (mit JetPack 7.0), da beide die ARM64-Architektur mit CUDA 13 und ähnlichen Software-Stacks verwenden.

📅 Erstellt vor 1 Monat ✏️ Aktualisiert vor 1 Monat