Intel OpenVINO Export

OpenVINO Intel AI inference toolkit

In dieser Anleitung behandeln wir den Export von YOLO26-Modellen in das OpenVINO-Format, was eine bis zu 3-fache CPU-Beschleunigung bieten sowie die YOLO-Inferenz auf Intel GPU- und NPU-Hardware beschleunigen kann.

OpenVINO, kurz für Open Visual Inference & Neural Network Optimization Toolkit, ist ein umfassendes Toolkit zur Optimierung und Bereitstellung von KI-Inferenzmodellen. Obwohl der Name „Visual“ enthält, unterstützt OpenVINO auch diverse weitere Aufgaben wie Sprache, Audio, Zeitreihen usw.



Watch: How to Export Ultralytics YOLO26 to Intel OpenVINO Format for Faster Inference 🚀

Anwendungsbeispiele

Exportiere ein YOLO26n-Modell in das OpenVINO-Format und führe eine Inferenz mit dem exportierten Modell durch.

Beispiel
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model
model.export(format="openvino")  # creates 'yolo26n_openvino_model/'

# Load the exported OpenVINO model
ov_model = YOLO("yolo26n_openvino_model/")

# Run inference
results = ov_model("https://ultralytics.com/images/bus.jpg")

# Run inference with specified device, available devices: ["intel:gpu", "intel:npu", "intel:cpu"]
results = ov_model("https://ultralytics.com/images/bus.jpg", device="intel:gpu")

Export-Argumente

ArgumentTypStandardBeschreibung
formatstr'openvino'Zielformat für das exportierte Modell, das die Kompatibilität mit verschiedenen Bereitstellungsumgebungen definiert.
imgszint oder tuple640Gewünschte Bildgröße für den Modelleingang. Kann eine Ganzzahl für quadratische Bilder oder ein Tupel (height, width) für spezifische Dimensionen sein.
halfboolFalseAktiviert FP16 (Halbpräzisions-) Quantisierung, was die Modellgröße reduziert und die Inferenz auf unterstützter Hardware potenziell beschleunigt.
int8boolFalseAktiviert INT8-Quantisierung, um das Modell weiter zu komprimieren und die Inferenz bei minimalem accuracy-Verlust zu beschleunigen, primär für Edge-Geräte.
dynamicboolFalseErmöglicht dynamische Eingabegrößen und verbessert die Flexibilität bei der Handhabung variierender Bilddimensionen.
nmsboolFalseFügt Non-Maximum Suppression (NMS) hinzu, was für eine genaue und effiziente Nachbearbeitung der Erkennung unerlässlich ist.
batchint1Gibt die Batch-Inferenzgröße des exportierten Modells an bzw. die maximale Anzahl an Bildern, die das Modell gleichzeitig im predict-Modus verarbeitet.
datastr'coco8.yaml'Pfad zur dataset-Konfigurationsdatei (Standard: coco8.yaml), essenziell für die Quantisierung.
fractionfloat1.0Gibt den Teil des Datensatzes an, der für die INT8-Quantisierungskalibrierung verwendet werden soll. Ermöglicht die Kalibrierung an einer Teilmenge des vollständigen Datensatzes, nützlich für Experimente oder bei begrenzten Ressourcen. Wenn bei aktiviertem INT8 nicht angegeben, wird der gesamte Datensatz verwendet.

Weitere Details zum Exportprozess findest du auf der Ultralytics-Dokumentationsseite zum Export.

Warnung

OpenVINO™ ist mit den meisten Intel®-Prozessoren kompatibel, aber um eine optimale Leistung zu gewährleisten:

  1. OpenVINO™-Unterstützung überprüfen Prüfe anhand der Kompatibilitätsliste von Intel, ob dein Intel®-Chip offiziell von OpenVINO™ unterstützt wird.

  2. Beschleuniger identifizieren Bestimme, ob dein Prozessor über eine integrierte NPU (Neural Processing Unit) oder GPU (integrierte GPU) verfügt, indem du den Hardware-Leitfaden von Intel konsultierst.

  3. Die neuesten Treiber installieren Wenn dein Chip eine NPU oder GPU unterstützt, OpenVINO™ diese aber nicht erkennt, musst du möglicherweise die zugehörigen Treiber installieren oder aktualisieren. Befolge die Anweisungen zur Treiberinstallation, um die volle Beschleunigung zu aktivieren.

Indem du diese drei Schritte befolgst, stellst du sicher, dass OpenVINO™ optimal auf deiner Intel®-Hardware läuft.

Vorteile von OpenVINO

  1. Leistung: OpenVINO liefert hochperformante Inferenz durch Nutzung der Leistung von Intel-CPUs, integrierten und dedizierten GPUs sowie FPGAs.
  2. Unterstützung für heterogene Ausführung: OpenVINO bietet eine API, um einmal zu schreiben und auf jeder unterstützten Intel-Hardware (CPU, GPU, FPGA, VPU usw.) bereitzustellen.
  3. Modell-Optimierer: OpenVINO bietet einen Modell-Optimierer, der Modelle aus populären deep learning-Frameworks wie PyTorch, TensorFlow, TensorFlow Lite, Keras, ONNX, PaddlePaddle und Caffe importiert, konvertiert und optimiert.
  4. Benutzerfreundlichkeit: Das Toolkit enthält mehr als 80 Tutorial-Notebooks (einschließlich YOLO26-Optimierung), die verschiedene Aspekte des Toolkits vermitteln.

OpenVINO-Exportstruktur

Wenn du ein Modell in das OpenVINO-Format exportierst, führt dies zu einem Verzeichnis, das Folgendes enthält:

  1. XML-Datei: Beschreibt die Netzwerktopologie.
  2. BIN-Datei: Enthält die Binärdaten der Gewichte und Biases.
  3. Mapping-Datei: Enthält das Mapping der ursprünglichen Modellausgabe-Tensoren zu den OpenVINO-Tensor-Namen.

Du kannst diese Dateien verwenden, um die Inferenz mit der OpenVINO Inference Engine durchzuführen.

Verwendung des OpenVINO-Exports in der Bereitstellung

Sobald dein Modell erfolgreich in das OpenVINO-Format exportiert wurde, hast du zwei primäre Optionen für die Durchführung der Inferenz:

  1. Verwende das ultralytics-Paket, das eine High-Level-API bereitstellt und die OpenVINO Runtime einbindet.

  2. Verwende das native openvino-Paket für fortgeschrittenere oder maßgeschneiderte Kontrolle über das Inferenzverhalten.

Inferenz mit Ultralytics

Das ultralytics-Paket ermöglicht es dir, einfach Inferenz mit dem exportierten OpenVINO-Modell über die predict-Methode auszuführen. Du kannst auch das Zielgerät (z. B. intel:gpu, intel:npu, intel:cpu) über das device-Argument angeben.

from ultralytics import YOLO

# Load the exported OpenVINO model
ov_model = YOLO("yolo26n_openvino_model/")  # the path of your exported OpenVINO model
# Run inference with the exported model
ov_model.predict(device="intel:gpu")  # specify the device you want to run inference on

Dieser Ansatz ist ideal für schnelles Prototyping oder die Bereitstellung, wenn du keine vollständige Kontrolle über die Inferenz-Pipeline benötigst.

Inferenz mit OpenVINO Runtime

Die OpenVINO Runtime bietet eine einheitliche API für die Inferenz auf aller unterstützten Intel-Hardware. Sie bietet zudem erweiterte Funktionen wie Lastverteilung über Intel-Hardware hinweg und asynchrone Ausführung. Weitere Informationen zur Durchführung der Inferenz findest du in den YOLO26-Notebooks.

Denk daran, dass du die XML- und BIN-Dateien sowie alle anwendungsspezifischen Einstellungen wie Eingabegröße, Skalierungsfaktor für die Normalisierung usw. benötigst, um das Modell mit der Runtime korrekt einzurichten und zu verwenden.

In deiner Bereitstellungsanwendung würdest du typischerweise die folgenden Schritte durchführen:

  1. Initialisiere OpenVINO durch das Erstellen von core = Core().
  2. Lade das Modell über die Methode core.read_model().
  3. Kompiliere das Modell über die Funktion core.compile_model().
  4. Bereite den Eingang vor (Bild, Text, Audio usw.).
  5. Führe die Inferenz über compiled_model(input_data) aus.

Für detailliertere Schritte und Code-Snippets beachte die OpenVINO-Dokumentation oder das API-Tutorial.

OpenVINO YOLO26 Benchmarks

Das Ultralytics-Team hat YOLO26 über verschiedene Modellformate und precision hinweg gebenchmarkt und Geschwindigkeit sowie Genauigkeit auf verschiedenen Intel-Geräten evaluiert, die mit OpenVINO kompatibel sind.

Hinweis
  • Die unten aufgeführten Benchmark-Ergebnisse dienen als Referenz und können basierend auf der genauen Hardware- und Softwarekonfiguration eines Systems sowie der aktuellen Systemauslastung zum Zeitpunkt der Benchmark-Ausführung variieren.

  • Alle Benchmarks wurden mit der openvino Python-Paketversion 2026.2.0.dev20260501 ausgeführt. Wir werden die Benchmarks mit einem stabilen Build aktualisieren, sobald Version 2026.2.0 veröffentlicht wurde.

  • YOLO26-Modelle auf der NPU werden nur auf Intel® Core™ Ultra™-Systemen mit der 2xxV-Serie und der 3xx-Serie und höher unterstützt.

Intel® Core™ Ultra

Die Intel® Core™ Ultra™-Serie stellt einen neuen Maßstab im High-Performance-Computing dar, entwickelt, um den wachsenden Anforderungen moderner Nutzer gerecht zu werden – von Gamern und Creatorn bis hin zu Fachleuten, die KI nutzen. Diese Hardware der nächsten Generation ist mehr als eine traditionelle CPU-Serie; sie kombiniert leistungsstarke CPU-Kerne, integrierte High-Performance-GPU-Fähigkeiten und eine dedizierte Neural Processing Unit (NPU) in einem einzigen Chip und bietet eine einheitliche Lösung für vielfältige und intensive Computing-Workloads.

Im Herzen der Intel® Core Ultra™-Architektur steckt ein hybrides Design, das eine außergewöhnliche Leistung über traditionelle Verarbeitungsaufgaben, GPU-beschleunigte Workloads und KI-gesteuerte Operationen hinweg ermöglicht. Die Einbindung der NPU verbessert die On-Device-KI-Inferenz und ermöglicht schnelleres, effizienteres Machine Learning und Datenverarbeitung über eine breite Palette von Anwendungen.

Die Core Ultra™-Familie umfasst verschiedene Modelle, die auf unterschiedliche Leistungsanforderungen zugeschnitten sind, mit Optionen, die von energieeffizienten Designs bis hin zu leistungsstarken Varianten mit der „H“-Bezeichnung reichen – ideal für Laptops und kompakte Formfaktoren, die ernsthafte Rechenleistung erfordern. Über das gesamte Lineup hinweg profitieren Nutzer von der Synergie aus CPU-, GPU- und NPU-Integration, die bemerkenswerte Effizienz, Reaktionsfähigkeit und Multitasking-Fähigkeiten liefert.

Als Teil von Intels kontinuierlicher Innovation setzt die Core Ultra™-Serie einen neuen Standard für zukunftsbereites Computing. Mit mehreren verfügbaren Modellen und weiteren in der Pipeline unterstreicht diese Serie Intels Engagement, modernste Lösungen für die nächste Generation intelligenter, KI-gestärkter Geräte zu liefern.

Die unten stehenden Benchmarks wurden auf Intel® Core™ Ultra™ X7 358H, Intel® Core™ Ultra™ 7 258V und Intel® Core™ Ultra™ 7 155H bei FP32-, FP16- und INT8-Präzision ausgeführt.

Intel® Core™ Ultra™ X7 358H

Benchmarks
Intel Core Ultra GPU benchmarks
Detaillierte Benchmark-Ergebnisse
ModellFormatPräzisionStatusGröße (MB)metrics/mAP50-95(B)Inferenzzeit (ms/im)
YOLO26nPyTorch (CPU)FP325.30.476525.18
YOLO26nOpenVINOFP329.60.47632.67
YOLO26nOpenVINOFP165.10.47632.64
YOLO26nOpenVINOINT83.20.46252.73
YOLO26sPyTorch (CPU)FP3219.50.570350.09
YOLO26sOpenVINOFP3236.70.56153.57
YOLO26sOpenVINOFP1618.60.56153.55
YOLO26sOpenVINOINT810.00.5473.09
YOLO26mPyTorch (CPU)FP3242.20.6196135.1
YOLO26mOpenVINOFP3278.30.61685.64
YOLO26mOpenVINOFP1639.50.61685.85
YOLO26mOpenVINOINT820.50.59944.14
YOLO26lPyTorch (CPU)FP3250.70.6215169.75
YOLO26lOpenVINOFP3295.30.62068.14
YOLO26lOpenVINOFP1648.10.62068.18
YOLO26lOpenVINOINT825.20.59994.67
YOLO26xPyTorch (CPU)FP32113.20.6512407.56
YOLO26xOpenVINOFP32213.20.656913.11
YOLO26xOpenVINOFP16107.10.656913.15
YOLO26xOpenVINOINT854.80.63749.24

Intel® Core™ Ultra™ 7 258V

Benchmarks
Intel Core Ultra GPU benchmarks
Detaillierte Benchmark-Ergebnisse
ModellFormatPräzisionStatusGröße (MB)metrics/mAP50-95(B)Inferenzzeit (ms/im)
YOLO26nPyTorch (CPU)FP325.30.476531.43
YOLO26nOpenVINOFP329.60.47623.57
YOLO26nOpenVINOFP165.10.47623.53
YOLO26nOpenVINOINT83.20.46253.65
YOLO26sPyTorch (CPU)FP3219.50.570360.4
YOLO26sOpenVINOFP3236.70.56165.02
YOLO26sOpenVINOFP1618.60.56165.01
YOLO26sOpenVINOINT810.00.5474.31
YOLO26mPyTorch (CPU)FP3242.20.6196173.31
YOLO26mOpenVINOFP3278.30.61919.48
YOLO26mOpenVINOFP1639.50.61689.6
YOLO26mOpenVINOINT820.50.59946.03
YOLO26lPyTorch (CPU)FP3250.70.6173224.52
YOLO26lOpenVINOFP3295.30.372511.88
YOLO26lOpenVINOFP1648.10.620112.0
YOLO26lOpenVINOINT825.20.59998.47
YOLO26xPyTorch (CPU)FP32113.20.6512595.72
YOLO26xOpenVINOFP32213.20.656720.26
YOLO26xOpenVINOFP16107.10.645420.25
YOLO26xOpenVINOINT854.80.637414.77

Intel® Core™ Ultra™ 7 155H

Benchmarks
Intel Core Ultra GPU benchmarks
Detaillierte Benchmark-Ergebnisse
ModellFormatPräzisionStatusGröße (MB)metrics/mAP50-95(B)Inferenzzeit (ms/im)
YOLO26nPyTorch (CPU)FP325.30.476538.77
YOLO26nOpenVINOFP329.60.47749.87
YOLO26nOpenVINOFP165.10.47749.84
YOLO26nOpenVINOINT83.20.47055.86
YOLO26sPyTorch (CPU)FP3219.50.570369.54
YOLO26sOpenVINOFP3236.70.561617.29
YOLO26sOpenVINOFP1618.60.561617.06
YOLO26sOpenVINOINT810.00.545210.33
YOLO26mPyTorch (CPU)FP3242.20.6196192.22
YOLO26mOpenVINOFP3278.30.618734.64
YOLO26mOpenVINOFP1639.50.618734.75
YOLO26mOpenVINOINT820.50.607315.99
YOLO26lPyTorch (CPU)FP3250.70.6215245.62
YOLO26lOpenVINOFP3295.30.620243.7
YOLO26lOpenVINOFP1648.10.620244.65
YOLO26lOpenVINOINT825.20.604820.31
YOLO26xPyTorch (CPU)FP32113.20.6512513.06
YOLO26xOpenVINOFP32213.20.654480.19
YOLO26xOpenVINOFP16107.10.654479.83
YOLO26xOpenVINOINT854.80.639335.16

Unsere Ergebnisse reproduzieren

Um die oben genannten Ultralytics-Benchmarks für alle Export-formate zu reproduzieren, führe diesen Code aus:

Beispiel
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Benchmark YOLO26n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml")

Beachte, dass die Benchmark-Ergebnisse je nach der genauen Hardware- und Softwarekonfiguration eines Systems sowie der aktuellen Systemauslastung zum Zeitpunkt der Benchmark-Ausführung variieren können. Für die zuverlässigsten Ergebnisse verwende einen Datensatz mit einer großen Anzahl von Bildern, d. h. data='coco.yaml' (5000 Val-Bilder).

Fazit

Die Benchmark-Ergebnisse demonstrieren deutlich die Vorteile des Exports des YOLO26-Modells in das OpenVINO-Format. Über verschiedene Modelle und Hardwareplattformen hinweg übertrifft das OpenVINO-Format bei der Inferenzgeschwindigkeit konsistent andere Formate, während es eine vergleichbare Genauigkeit beibehält.

Die Benchmarks unterstreichen die Effektivität von OpenVINO als Werkzeug für die Bereitstellung von Deep-Learning-Modellen. Durch die Konvertierung von Modellen in das OpenVINO-Format können Entwickler signifikante Leistungssteigerungen erzielen, was die Bereitstellung dieser Modelle in realen Anwendungen erleichtert.

Weitere detaillierte Informationen und Anweisungen zur Verwendung von OpenVINO findest du in der offiziellen OpenVINO-Dokumentation.

FAQ

Wie exportiere ich YOLO26-Modelle in das OpenVINO-Format?

Der Export von YOLO26-Modellen in das OpenVINO-Format kann die CPU-Geschwindigkeit erheblich steigern und GPU- sowie NPU-Beschleunigungen auf Intel-Hardware ermöglichen. Zum Exportieren kannst du entweder Python oder die CLI verwenden, wie unten gezeigt:

Beispiel
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model
model.export(format="openvino")  # creates 'yolo26n_openvino_model/'

Weitere Informationen findest du in der Dokumentation zu Exportformaten.

Was sind die Vorteile der Verwendung von OpenVINO mit YOLO26-Modellen?

Die Verwendung des Intel OpenVINO-Toolkits mit YOLO26-Modellen bietet mehrere Vorteile:

  1. Leistung: Erziele eine bis zu 3-fache Beschleunigung bei der CPU-Inferenz und nutze Intel GPUs und NPUs zur Beschleunigung.
  2. Modell-Optimierer: Konvertiere, optimiere und führe Modelle aus gängigen Frameworks wie PyTorch, TensorFlow und ONNX aus.
  3. Benutzerfreundlichkeit: Es stehen über 80 Tutorial-Notebooks zur Verfügung, um den Einstieg zu erleichtern, einschließlich solcher für YOLO26.
  4. Heterogene Ausführung: Stelle Modelle auf verschiedener Intel-Hardware mit einer einheitlichen API bereit.

Für detaillierte Leistungsvergleiche besuche unseren Benchmark-Abschnitt.

Wie kann ich die Inferenz mit einem in OpenVINO exportierten YOLO26-Modell ausführen?

Nachdem du ein YOLO26n-Modell in das OpenVINO-Format exportiert hast, kannst du die Inferenz mit Python oder CLI ausführen:

Beispiel
from ultralytics import YOLO

# Load the exported OpenVINO model
ov_model = YOLO("yolo26n_openvino_model/")

# Run inference
results = ov_model("https://ultralytics.com/images/bus.jpg")

Weitere Details findest du in unserer Dokumentation zum Vorhersagemodus.

Warum sollte ich mich für Ultralytics YOLO26 gegenüber anderen Modellen für den OpenVINO-Export entscheiden?

Ultralytics YOLO26 ist für die Objekterkennung in Echtzeit mit hoher Genauigkeit und Geschwindigkeit optimiert. Insbesondere in Kombination mit OpenVINO bietet YOLO26:

  • Bis zu 3-fache Beschleunigung auf Intel CPUs
  • Nahtlose Bereitstellung auf Intel GPUs und NPUs
  • Konsistente und vergleichbare Genauigkeit über verschiedene Exportformate hinweg

Für eine tiefgehende Leistungsanalyse sieh dir unsere detaillierten YOLO26-Benchmarks auf verschiedener Hardware an.

Kann ich YOLO26-Modelle auf verschiedenen Formaten wie PyTorch, ONNX und OpenVINO vergleichen?

Ja, du kannst YOLO26-Modelle in verschiedenen Formaten vergleichen, einschließlich PyTorch, TorchScript, ONNX und OpenVINO. Verwende den folgenden Code-Schnipsel, um Benchmarks für den Datensatz deiner Wahl auszuführen:

Beispiel
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Benchmark YOLO26n speed and [accuracy](https://www.ultralytics.com/glossary/accuracy) on the COCO8 dataset for all export formats
results = model.benchmark(data="coco8.yaml")

Für detaillierte Benchmark-Ergebnisse siehe unseren Benchmark-Abschnitt und die Dokumentation zu Exportformaten.

Kommentare