Link to this sectionSchnellstartanleitung: NVIDIA DGX Spark mit Ultralytics YOLO26#
Dieser umfassende Leitfaden bietet eine detaillierte Anleitung für die Bereitstellung von Ultralytics YOLO26 auf NVIDIA DGX Spark, dem kompakten Desktop-KI-Supercomputer von NVIDIA. Zusätzlich werden Leistungsbenchmarks vorgestellt, um die Fähigkeiten von YOLO26 auf diesem leistungsstarken System zu demonstrieren.
Dieser Leitfaden wurde mit der NVIDIA DGX Spark Founders Edition unter Verwendung von DGX OS auf Ubuntu-Basis getestet. Es wird erwartet, dass er mit den neuesten DGX OS-Versionen funktioniert.
Link to this sectionWas ist NVIDIA DGX Spark?#
NVIDIA DGX Spark ist ein kompakter Desktop-KI-Supercomputer, der vom NVIDIA GB10 Grace Blackwell Superchip angetrieben wird. Er liefert bis zu 1 PetaFLOP KI-Rechenleistung bei FP4-Präzision und ist damit ideal für Entwickler, Forscher und Datenwissenschaftler, die leistungsstarke KI-Funktionen im Desktop-Format benötigen.
Watch: How to Get up to 1000 FPS with Ultralytics YOLO26 on NVIDIA DGX Spark | TensorRT & Batch Inference
Link to this sectionWichtige Spezifikationen#
| Spezifikation | Details |
|---|---|
| KI-Leistung | Bis zu 1 PFLOP (FP4) |
| GPU | NVIDIA Blackwell-Architektur mit Tensor Cores der 5. Generation, RT Cores der 4. Generation |
| CPU | 20-Kern Arm-Prozessor (10 Cortex-X925 + 10 Cortex-A725) |
| Speicher | 128 GB LPDDR5x vereinheitlichter Systemspeicher, 256-Bit-Schnittstelle, 4266 MHz, 273 GB/s Bandbreite |
| Speicherkapazität | 1 TB oder 4 TB NVMe M.2 mit Selbstverschlüsselung |
| Netzwerk | 1x RJ-45 (10 GbE), ConnectX-7 Smart NIC, Wi-Fi 7, Bluetooth 5.4 |
| Konnektivität | 4x USB Type-C, 1x HDMI 2.1a, HDMI-Mehrkanal-Audio |
| Videoverarbeitung | 1x NVENC, 1x NVDEC |
Link to this sectionDGX OS#
NVIDIA DGX OS ist eine angepasste Linux-Distribution, die eine stabile, getestete und unterstützte Betriebssystemgrundlage für die Ausführung von KI-, Machine-Learning- und Analyseanwendungen auf DGX-Systemen bietet. Es umfasst:
- Eine robuste Linux-Grundlage, optimiert für KI-Workloads
- Vorkonfigurierte Treiber und Systemeinstellungen für NVIDIA-Hardware
- Sicherheitsupdates und Funktionen für die Systemwartung
- Kompatibilität mit dem breiteren NVIDIA-Software-Ökosystem
DGX OS folgt einem regelmäßigen Veröffentlichungszyklus, wobei Updates typischerweise zweimal pro Jahr (etwa Februar und August) bereitgestellt werden, ergänzt durch zusätzliche Sicherheits-Patches zwischen den Hauptversionen.
Link to this sectionDGX Dashboard#
DGX Spark verfügt über ein integriertes DGX Dashboard, das Folgendes bietet:
- Echtzeit-Systemüberwachung: Überblick über die aktuellen Betriebskennzahlen des Systems
- Systemupdates: Möglichkeit, Updates direkt über das Dashboard anzuwenden
- Systemeinstellungen: Ändern des Gerätenamens und anderer Konfigurationen
- Integriertes JupyterLab: Zugriff auf lokale Jupyter Notebooks für die Entwicklung
Link to this sectionZugriff auf das Dashboard#
Klicke auf die Schaltfläche "Anwendungen anzeigen" in der unteren linken Ecke des Ubuntu-Desktops und wähle dann "DGX Dashboard", um es in deinem Browser zu öffnen.
Das Dashboard enthält eine integrierte JupyterLab-Instanz, die beim Start automatisch eine virtuelle Umgebung erstellt und empfohlene Pakete installiert. Jedem Benutzerkonto wird ein dedizierter Port für den JupyterLab-Zugriff zugewiesen.
Link to this sectionSchnellstart mit Docker#
Der schnellste Weg, mit Ultralytics YOLO26 auf NVIDIA DGX Spark zu starten, ist die Verwendung von vorgefertigten Docker-Images. Dasselbe Docker-Image, das Jetson AGX Thor (JetPack 7.0) unterstützt, funktioniert auch auf DGX Spark mit DGX OS.
t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $tSobald dies erledigt ist, fahre mit dem Abschnitt TensorRT auf NVIDIA DGX Spark verwenden fort.
Link to this sectionStart mit nativer Installation#
Für eine native Installation ohne Docker befolge diese Schritte.
Link to this sectionUltralytics-Paket installieren#
Hier installieren wir das Ultralytics-Paket auf DGX Spark mit optionalen Abhängigkeiten, damit wir die PyTorch-Modelle in andere Formate exportieren können. Wir konzentrieren uns hauptsächlich auf NVIDIA TensorRT-Exporte, da TensorRT sicherstellt, dass wir die maximale Leistung aus dem DGX Spark herausholen.
-
Paketliste aktualisieren, pip installieren und auf die neueste Version aktualisieren
sudo apt update sudo apt install python3-pip -y pip install -U pip -
Installiere das
ultralyticspip-Paket mit optionalen Abhängigkeitenpip install ultralytics[export] -
Gerät neu starten
sudo reboot
Link to this sectionPyTorch und Torchvision installieren#
Die oben genannte Ultralytics-Installation installiert Torch und Torchvision. Diese via pip installierten Pakete sind jedoch möglicherweise nicht vollständig für die ARM64-Architektur des DGX Spark mit CUDA 13 optimiert. Daher empfehlen wir die Installation der CUDA 13-kompatiblen Versionen:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130Wenn du PyTorch 2.9.1 auf NVIDIA DGX Spark ausführst, stößt du möglicherweise auf die folgende UserWarning bei der Initialisierung von CUDA (z. B. beim Ausführen von yolo checks, yolo predict usw.):
UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)Diese Warnung kann sicher ignoriert werden. Um dies dauerhaft zu beheben, wurde ein Fix im PyTorch PR #164590 eingereicht, der in der PyTorch 2.10-Version enthalten sein wird.
Link to this sectionInstalliere onnxruntime-gpu#
Das in PyPI gehostete onnxruntime-gpu-Paket enthält keine aarch64-Binärdateien für ARM64-Systeme. Daher müssen wir dieses Paket manuell installieren. Dieses Paket wird für einige der Exporte benötigt.
Hier werden wir onnxruntime-gpu 1.24.0 mit Python3.12-Unterstützung herunterladen und installieren.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whlLink to this sectionVerwendung von TensorRT auf NVIDIA DGX Spark#
Unter allen von Ultralytics unterstützten Modellexportformaten bietet TensorRT die höchste Inferenzleistung auf NVIDIA DGX Spark, was es zu unserer Top-Empfehlung für Bereitstellungen macht. Für Einrichtungsanweisungen und fortgeschrittene Nutzung siehe unseren speziellen TensorRT-Integrationsleitfaden.
Link to this sectionModell in TensorRT konvertieren und Inferenz ausführen#
Das YOLO26n-Modell im PyTorch-Format wird in TensorRT konvertiert, um die Inferenz mit dem exportierten Modell auszuführen.
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo26n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")Besuche die Export-Seite, um auf zusätzliche Argumente beim Exportieren von Modellen in verschiedene Modellformate zuzugreifen
Link to this sectionNVIDIA DGX Spark YOLO11 Benchmarks#
YOLO11-Benchmarks wurden vom Ultralytics-Team für mehrere Modellformate durchgeführt, wobei Geschwindigkeit und Genauigkeit gemessen wurden: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch. Die Benchmarks wurden auf NVIDIA DGX Spark bei FP32-Präzision mit einer Standard-Eingabebildgröße von 640 durchgeführt.
Link to this sectionDetaillierte Vergleichstabelle#
Die folgende Tabelle zeigt die Benchmark-Ergebnisse für fünf verschiedene Modelle (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) über mehrere Formate hinweg und liefert uns Status, Größe, mAP50-95(B)-Metrik und Inferenzzeit für jede Kombination.
| Format | Status | Größe auf dem Datenträger (MB) | mAP50-95(B) | Inferenzzeit (ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5,4 | 0.5071 | 2.67 |
| TorchScript | ✅ | 10.5 | 0.5083 | 2.62 |
| ONNX | ✅ | 10.2 | 0.5074 | 5.92 |
| OpenVINO | ✅ | 10.4 | 0.5058 | 14.95 |
| TensorRT (FP32) | ✅ | 12.8 | 0.5085 | 1.95 |
| TensorRT (FP16) | ✅ | 7.0 | 0.5068 | 1.01 |
| TensorRT (INT8) | ✅ | 18.6 | 0.4880 | 1.62 |
| TF SavedModel | ✅ | 25.7 | 0.5076 | 36.39 |
| TF GraphDef | ✅ | 10.3 | 0.5076 | 41.06 |
| TF Lite | ✅ | 10.3 | 0.5075 | 64.36 |
| MNN | ✅ | 10.1 | 0.5075 | 12.14 |
| NCNN | ✅ | 10.2 | 0.5041 | 12.31 |
| ExecuTorch | ✅ | 10.2 | 0.5075 | 27,61 |
Getestet mit Ultralytics 8.3.249
Link to this sectionUnsere Ergebnisse reproduzieren#
Um die oben genannten Ultralytics-Benchmarks für alle Export-Formate zu reproduzieren, führe diesen Code aus:
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)Beachte, dass Benchmarking-Ergebnisse je nach der genauen Hardware- und Softwarekonfiguration eines Systems sowie der aktuellen Systemauslastung zum Zeitpunkt der Benchmark-Ausführung variieren können. Für verlässlichste Ergebnisse verwende einen Datensatz mit einer großen Anzahl an Bildern, z. B. data='coco.yaml' (5000 Val-Bilder).
Link to this sectionBest Practices für NVIDIA DGX Spark#
Bei der Verwendung von NVIDIA DGX Spark gibt es einige Best Practices, die du befolgen solltest, um die maximale Leistung beim Ausführen von YOLO26 zu erzielen.
-
Systemleistung überwachen
Nutze die Monitoring-Tools von NVIDIA, um die GPU- und CPU-Auslastung zu verfolgen:
nvidia-smi -
Speicherausnutzung optimieren
Mit 128GB Unified Memory kann DGX Spark große Batch-Größen und Modelle verarbeiten. Erwäge, die Batch-Größe für einen verbesserten Durchsatz zu erhöhen:
from ultralytics import YOLO model = YOLO("yolo26n.engine") results = model.predict(source="path/to/images", batch=16) -
Verwende TensorRT mit FP16 oder INT8
Für die beste Leistung exportiere Modelle mit FP16- oder INT8-Präzision:
yolo export model=yolo26n.pt format=engine half=True # FP16 yolo export model=yolo26n.pt format=engine int8=True # INT8
Link to this sectionSystem-Updates (Founders Edition)#
Dein DGX Spark Founders Edition auf dem neuesten Stand zu halten, ist entscheidend für Leistung und Sicherheit. NVIDIA bietet zwei primäre Methoden zum Aktualisieren von System-OS, Treibern und Firmware an.
Link to this sectionVerwendung des DGX Dashboard (Empfohlen)#
Das DGX Dashboard ist die empfohlene Methode, um System-Updates durchzuführen und die Kompatibilität sicherzustellen. Es ermöglicht dir:
- Verfügbare System-Updates anzuzeigen
- Sicherheitspatches und System-Updates zu installieren
- NVIDIA-Treiber- und Firmware-Updates zu verwalten
Link to this sectionManuelle System-Updates#
Für fortgeschrittene Benutzer können Updates manuell über das Terminal durchgeführt werden:
sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo rebootStelle sicher, dass dein System an eine stabile Stromquelle angeschlossen ist und du kritische Daten gesichert hast, bevor du Updates durchführst.
Link to this sectionNächste Schritte#
Für weiteres Lernen und Support, siehe die Ultralytics YOLO26 Dokumentation.
Link to this sectionFAQ#
Link to this sectionWie stelle ich Ultralytics YOLO26 auf NVIDIA DGX Spark bereit?#
Die Bereitstellung von Ultralytics YOLO26 auf NVIDIA DGX Spark ist unkompliziert. Du kannst das vorgefertigte Docker-Image für eine schnelle Einrichtung verwenden oder die benötigten Pakete manuell installieren. Detaillierte Schritte für jeden Ansatz findest du in den Abschnitten Quick Start mit Docker und Start mit nativer Installation.
Link to this sectionWelche Leistung kann ich von YOLO26 auf NVIDIA DGX Spark erwarten?#
YOLO26-Modelle liefern eine exzellente Leistung auf DGX Spark dank des GB10 Grace Blackwell Superchips. Das TensorRT-Format bietet die beste Inferenz-Leistung. Überprüfe den Abschnitt Detaillierte Vergleichstabelle für spezifische Benchmark-Ergebnisse über verschiedene Modellgrößen und Formate hinweg.
Link to this sectionWarum sollte ich TensorRT für YOLO26 auf DGX Spark verwenden?#
TensorRT wird für die Bereitstellung von YOLO26-Modellen auf DGX Spark aufgrund seiner optimalen Leistung dringend empfohlen. Es beschleunigt die Inferenz durch die Nutzung der Blackwell GPU-Fähigkeiten und sorgt so für maximale Effizienz und Geschwindigkeit. Erfahre mehr im Abschnitt Verwende TensorRT auf NVIDIA DGX Spark.
Link to this sectionWie schneidet DGX Spark im Vergleich zu Jetson-Geräten für YOLO26 ab?#
DGX Spark bietet bis zu 1 PFLOP an KI-Leistung und 128GB Unified Memory, verglichen mit 2070 TFLOPS und 128GB Speicher des Jetson AGX Thor. DGX Spark ist als Desktop-KI-Supercomputer konzipiert, während Jetson-Geräte eingebettete Systeme sind, die für den Edge-Einsatz optimiert wurden.
Link to this sectionKann ich dasselbe Docker-Image für DGX Spark und Jetson AGX Thor verwenden?#
Ja! Das ultralytics/ultralytics:latest-nvidia-arm64 Docker-Image unterstützt sowohl NVIDIA DGX Spark (mit DGX OS) als auch Jetson AGX Thor (mit JetPack 7.0), da beide die ARM64-Architektur mit CUDA 13 und ähnliche Software-Stacks verwenden.