Meet YOLO26: next-gen vision AI.

Link to this sectionVergleichende Analyse der YOLO26-Bereitstellungsoptionen#

YOLO26 unterstützt mehr als 20 Bereitstellungsoptionen, die jeweils auf eine andere Laufzeitumgebung, ein anderes Hardware-Ziel oder eine andere Plattform abgestimmt sind – von PyTorch und ONNX bis hin zu TensorRT, OpenVINO, CoreML und dedizierten Edge-NPU-Formaten. Die richtige Wahl bringt Inferenzgeschwindigkeit, Hardware-Einschränkungen und Integrationsaufwand ins Gleichgewicht. Dieser Leitfaden vergleicht jede Option, damit du die beste für deine Anwendung auswählen kannst, und geht dann zu den Best Practices für die Modellbereitstellung über, um sie zuverlässig bereitzustellen.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

Die Bereitstellung ist die Phase im Workflow von Computer-Vision-Projekten, in der ein trainiertes Modell beginnt, echte Arbeit zu leisten, daher hat das Exportformat einen direkten Einfluss auf Geschwindigkeit, Kosten und Portabilität.

Link to this sectionSo wählst du die richtige Bereitstellungsoption für dein YOLO26-Modell aus#

Wenn es an der Zeit ist, dein YOLO26 Modell bereitzustellen, ist die Auswahl eines geeigneten Exportformats sehr wichtig. Wie in der Ultralytics YOLO26 Export-Dokumentation beschrieben, konvertiert die Funktion model.export() dein trainiertes Modell in eine Vielzahl von Formaten, die auf unterschiedliche Umgebungen und Leistungsanforderungen zugeschnitten sind.

Das ideale Format hängt vom beabsichtigten Einsatzkontext deines Modells und der Hardware ab.

Überspringe den manuellen Export

Für verwaltete Bereitstellungen ohne manuellen Export bietet die Ultralytics Platform gebrauchsfertige Inferenz-Endpunkte mit automatischer Skalierung über 43 globale Regionen hinweg.

Link to this sectionDie Bereitstellungsoptionen von YOLO26#

Hier ist eine kurze Beschreibung jedes Formats und wann du es verwenden solltest. Für den vollständigen Walkthrough zum Export siehe die Export-Dokumentation; für die Kriterien im direkten Vergleich springe zur Vergleichstabelle.

  • PyTorch (.pt): Das native Trainings- und Inferenzformat, das maximale Flexibilität und CUDA GPU-Beschleunigung bietet – ideal für Forschung und Prototyping, ohne dass ein Export-Schritt erforderlich ist.
  • TorchScript (torchscript): Serialisiert das Modell für eine Python-freie C++ Laufzeitumgebung, geeignet für Produktionssysteme, in denen Python nicht verfügbar ist.
  • ONNX (onnx): Ein framework-unabhängiges Austauschformat mit breiter plattform- und hardwareübergreifender Unterstützung durch ONNX Runtime.
  • OpenVINO (openvino): Intels Toolkit für optimierte Inferenz auf Intel CPUs, integrierten GPUs und NPUs, häufig verwendet in IoT und Edge Computing.
  • TensorRT (engine): NVIDIAs Hochleistungs-Laufzeitumgebung für erstklassige GPU-Inferenz mit FP16- und INT8-Optimierung.
  • CoreML (coreml): Apples On-Device-Format für iOS, macOS, watchOS und tvOS, das die Apple Neural Engine nutzt.
  • TF SavedModel (saved_model): TensorFlows Standardformat für skalierbare serverbasierte Bereitstellungen mit TensorFlow Serving.
  • TF GraphDef (pb): Ein eingefrorenes TensorFlow-Format mit statischem Graphen für Umgebungen, die einen festen Berechnungsgraphen benötigen.
  • TF Edge TPU (edgetpu): Kompiliert .tflite Modelle für Google Coral Edge TPU Beschleuniger.
  • LiteRT (litert): Googles On-Device-Runtime (ehemals TensorFlow Lite) für Inferenz auf Mobilgeräten, eingebetteten Systemen und im Browser mittels eines einzigen .tflite Modells, mit Unterstützung für FP32 und INT8 sowie Browser-Ausführung via LiteRT.js.
  • PaddlePaddle (paddle): Baidus Deep Learning Framework, beliebt in China, mit breiter Hardware-Unterstützung.
  • MNN (mnn): Eine leichtgewichtige Hochleistungs-Inferenz-Engine, optimiert für mobile und eingebettete ARM- und x86-64-Systeme.
  • NCNN (ncnn): Ein leistungsstarkes, leichtgewichtiges Inferenz-Framework, das für mobile ARM-Geräte optimiert ist.
  • Sony IMX500 (imx): Exporte für Sonys intelligenten IMX500 Bildsensor mit On-Chip-Verarbeitung, wie beispielsweise die Raspberry Pi AI Camera.
  • Rockchip RKNN (rknn): Zielt auf Rockchip NPUs auf eingebetteten Boards mit FP16- und INT8-Quantisierung ab.
  • ExecuTorch (executorch): PyTorchs native On-Device-Laufzeitumgebung für mobile Geräte (iOS und Android) und eingebettete Systeme mittels XNNPACK.
  • Axelera AI (axelera): Kompiliert für Axeleras Metis AIPU (bis zu 856 TOPS) über PCIe oder M.2 für Edge-Inferenz mit hohem Durchsatz.
  • DEEPX (deepx): Zielt auf DEEPX NPU-Hardware mit INT8-Quantisierung für eingebettete Edge-Inferenz ab.
  • Qualcomm QNN (qnn): On-Device-Inferenz auf Snapdragon Hexagon NPU, Adreno GPU und CPU über den Qualcomm AI Stack.

Für ein zusätzliches Edge-Ziel kompiliert die Hailo-Integration YOLO-Erkennungsmodelle in Hailo HEF. Dies ist kein direktes model.export()-Ziel: Erkennungsmodelle werden zuerst nach ONNX exportiert und dann mit dem externen Hailo Dataflow Compiler für Hailo-8, Hailo-8L und Hailo-15 Beschleuniger in HEF kompiliert.

Link to this sectionVergleich der Bereitstellungsoptionen#

Die folgende Tabelle fasst die Bereitstellungsoptionen für YOLO26-Modelle anhand der Kriterien zusammen, die normalerweise die Wahl bestimmen. Für einen detaillierten Blick auf jedes Format siehe die Dokumentation zu Exportformaten.

BereitstellungsoptionPerformance-BenchmarksKompatibilität und IntegrationCommunity-Support und ÖkosystemFallstudienWartung und UpdatesSicherheitsaspekteHardwarebeschleunigung
PyTorchGute Flexibilität; kann auf Kosten der reinen Leistung gehenExzellent mit Python-BibliothekenUmfangreiche Ressourcen und CommunityForschung und PrototypenRegelmäßige, aktive EntwicklungAbhängig von der BereitstellungsumgebungCUDA-Unterstützung für GPU-Beschleunigung
TorchScriptBesser für die Produktion geeignet als PyTorchReibungsloser Übergang von PyTorch zu C++Spezialisiert, aber begrenzter als PyTorchIndustrie, in der Python ein Flaschenhals istKonsistente Updates mit PyTorchVerbesserte Sicherheit ohne vollständiges PythonErbt CUDA-Unterstützung von PyTorch
ONNXVariabel je nach RuntimeHoch über verschiedene Frameworks hinwegBreites Ökosystem, von vielen Organisationen unterstütztFlexibilität über ML-Frameworks hinwegRegelmäßige Updates für neue OperationenStelle sichere Konvertierungs- und Bereitstellungspraktiken sicherVerschiedene Hardware-Optimierungen
OpenVINOOptimiert für Intel-HardwareAm besten innerhalb des Intel-ÖkosystemsSolide im Bereich Computer VisionIoT und Edge mit Intel-HardwareRegelmäßige Updates für Intel-HardwareRobuste Funktionen für sensible AnwendungenMaßgeschneidert für Intel-Hardware
TensorRTSpitzenklasse auf NVIDIA-GPUsAm besten für NVIDIA-HardwareStarkes Netzwerk durch NVIDIAEchtzeit-Video- und BildinferenzHäufige Updates für neue GPUsBetonung auf SicherheitEntwickelt für NVIDIA-GPUs
CoreMLOptimiert für Apple-Hardware auf dem GerätExklusiv für das Apple-ÖkosystemStarker Apple- und Entwickler-SupportML auf Apple-Produkten direkt auf dem GerätRegelmäßige Apple-UpdatesFokus auf Datenschutz und SicherheitApple Neural Engine und GPU
TF SavedModelSkalierbar in ServerumgebungenBreite Kompatibilität im TensorFlow-ÖkosystemGroße Unterstützung aufgrund der Popularität von TensorFlowModellbereitstellung in großem MaßstabRegelmäßige Updates durch Google und die CommunityRobuste Funktionen für UnternehmenVerschiedene Hardwarebeschleunigungen
TF GraphDefStabil für statische BerechnungsgraphenIntegriert sich gut in die TensorFlow-InfrastrukturRessourcen zur Optimierung statischer GraphenSzenarien, die statische Graphen erfordernUpdates zusammen mit TensorFlow CoreEtablierte TensorFlow-SicherheitspraktikenTensorFlow-Beschleunigungsoptionen
TF Edge TPUOptimiert für Googles Edge TPU-HardwareExklusiv für Edge TPU-GeräteWächst mit Google und Ressourcen von DrittanbieternIoT-Geräte, die Echtzeitverarbeitung erfordernVerbesserungen für neue Edge TPU-HardwareGoogles robuste IoT-SicherheitSpeziell entwickelt für Google Coral
LiteRTGeschwindigkeit und Effizienz auf Mobilgeräten, eingebetteten Systemen und im WebUnterstützung für Mobilgeräte, eingebettete Systeme, Edge und BrowserRobuste Community, unterstützt durch GoogleOn-Device-Apps für Android, iOS und WebNeueste On-Device-Runtime-FunktionenSichere Inferenz auf dem Gerät und im BrowserGPU-, DSP- und WebGPU-Beschleunigung
PaddlePaddleWettbewerbsfähig, einfach zu bedienen und skalierbarBaidu-Ökosystem, breite AnwendungsunterstützungSchnell wachsend, besonders in ChinaChinesischer Markt und SprachverarbeitungFokus auf chinesische KI-AnwendungenBetont Datenschutz und SicherheitEinschließlich der Kunlun-Chips von Baidu
MNNHohe Leistung für mobile GeräteMobile und eingebettete ARM-Systeme sowie X86-64 CPUMobile/Embedded ML-CommunityEffizienz mobiler SystemeWartung hoher Leistung auf mobilen GerätenVorteile der Sicherheit auf dem GerätOptimierungen für ARM-CPUs und GPUs
NCNNOptimiert für mobile ARM-basierte GeräteMobile und eingebettete ARM-SystemeNischenorientierte, aber aktive Mobile/Embedded ML-CommunityEffizienz von Android- und ARM-SystemenHochleistungswartung auf ARMVorteile der Sicherheit auf dem GerätOptimierungen für ARM-CPUs und GPUs
Sony IMX500On-Sensor-Inferenz bei sehr niedrigem StromverbrauchSony IMX500 Sensor, Raspberry Pi AI CameraSony AITRIOS ÖkosystemOn-Camera Edge AIUpdates für Sony SDK und MCT ToolchainDaten verbleiben auf dem SensorSony IMX500 On-Chip-Beschleuniger
Rockchip RKNNOptimiert für Rockchip NPUsRockchip SoC Boards (z.B. RK3588)Rockchip Entwickler-CommunityEingebettete SBC- und Edge-GeräteUpdates für Rockchip RKNN-ToolkitLokale On-Device-InferenzRockchip NPU
ExecuTorchEffiziente On-Device PyTorch LaufzeitumgebungiOS, Android, eingebettet via XNNPACKUnterstützt durch das PyTorch ProjektMobile und eingebettete AppsWird zusammen mit PyTorch gewartetInferenz auf dem Gerät hält Daten lokalXNNPACK und mobile CPU/GPU Backends
Axelera AISehr hoher Durchsatz (bis zu 856 TOPS)Metis AIPU über PCIe oder M.2Axelera Voyager SDKEdge-Inferenz mit hohem DurchsatzUpdates für Axelera SDKOn-Premises Edge-InferenzAxelera Metis AIPU
DEEPXINT8-optimierte NPU-InferenzDEEPX NPU-HardwareDEEPX Entwicklertools (dx_com, dx_engine)Eingebettete Edge-InferenzUpdates für DEEPX SDK und LaufzeitumgebungLokale On-Device-InferenzDEEPX NPU
Qualcomm QNNSchnelle On-Device Snapdragon InferenzSnapdragon Hexagon NPU, Adreno GPU, CPUQualcomm AI Hub ÖkosystemMobile und Edge Snapdragon GeräteUpdates für Qualcomm AI Stack (QAIRT)Inferenz auf dem Gerät hält Daten lokalSnapdragon Hexagon NPU

Dieser Vergleich gibt dir einen Überblick auf hoher Ebene. Wäge bei der Bereitstellung die spezifischen Anforderungen und Einschränkungen deines Projekts gegen jede Option ab und ziehe den verlinkten Integrationsleitfaden für das von dir gewählte Format zu Rate.

Link to this sectionFazit#

Die große Auswahl an Exportformaten von YOLO26 ermöglicht es dir, ein Modell für nahezu jede Umgebung anzupassen, von einem Cloud-GPU-Server bis hin zu einer On-Sensor-Edge-Kamera. Sobald du ein Format gewählt hast, folge den Best Practices für die Modellbereitstellung für Optimierung, Fehlerbehebung und Sicherheit, und wende dich an die Ultralytics Community, wenn du auf ein Problem stößt.

Link to this sectionFAQ#

Link to this sectionWelche Bereitstellungsoptionen stehen für YOLO26 auf verschiedenen Hardwareplattformen zur Verfügung?#

Ultralytics YOLO26 unterstützt verschiedene Bereitstellungsformate, die jeweils für spezifische Umgebungen und Hardwareplattformen konzipiert sind. Zu den wichtigsten Formaten gehören:

  • PyTorch für Forschung und Prototyping, mit hervorragender Python-Integration.
  • TorchScript für Produktionsumgebungen, in denen Python nicht verfügbar ist.
  • ONNX für plattformübergreifende Kompatibilität und Hardwarebeschleunigung.
  • OpenVINO für optimierte Leistung auf Intel-Hardware.
  • TensorRT für Hochgeschwindigkeits-Inferenz auf NVIDIA-GPUs.

Jedes Format hat seine einzigartigen Vorteile. Eine detaillierte Anleitung findest du in unserer Dokumentation zum Exportprozess.

Link to this sectionWie kann ich die Inferenzgeschwindigkeit meines YOLO26-Modells auf einer Intel-CPU verbessern?#

Um die Inferenzgeschwindigkeit auf Intel-CPUs zu verbessern, kannst du dein YOLO26-Modell mit dem Intel OpenVINO-Toolkit bereitstellen. OpenVINO bietet signifikante Leistungssteigerungen durch die Optimierung von Modellen zur effizienten Nutzung von Intel-Hardware.

  1. Konvertiere dein YOLO26-Modell mit der Funktion model.export() in das OpenVINO-Format.
  2. Befolge die detaillierte Einrichtungsanleitung in der Intel OpenVINO Export-Dokumentation.

Für weitere Einblicke lies unseren Blogbeitrag.

Link to this sectionKann ich YOLO26-Modelle auf Mobilgeräten bereitstellen?#

Ja, YOLO26 Modelle können auf Mobilgeräten mit LiteRT (ehemals TensorFlow Lite) und NCNN für Android sowie CoreML oder LiteRT für iOS bereitgestellt werden. LiteRT ist die On-Device-Runtime von Google für Mobil- und Embedded-Geräte, die dasselbe Modell auf Android, iOS und im Browser ausführt und so eine effiziente On-Device-Inferenz ermöglicht.

Beispiel
# Export command for NCNN format
model.export(format="ncnn")

Weitere Details zur Bereitstellung von Modellen auf Mobilgeräten findest du in unserem LiteRT Integrationsleitfaden.

Link to this sectionWelche Faktoren sollte ich bei der Wahl eines Bereitstellungsformats für mein YOLO26-Modell berücksichtigen?#

Bei der Wahl eines Bereitstellungsformats für YOLO26 solltest du folgende Faktoren berücksichtigen:

  • Leistung: Einige Formate wie TensorRT bieten außergewöhnliche Geschwindigkeiten auf NVIDIA-GPUs, während OpenVINO für Intel-Hardware optimiert ist.
  • Kompatibilität: ONNX bietet eine breite Kompatibilität über verschiedene Plattformen hinweg.
  • Einfache Integration: Formate wie CoreML oder LiteRT sind speziell auf die jeweiligen Ökosysteme wie iOS bzw. Android zugeschnitten.
  • Community-Support: Formate wie PyTorch und TensorFlow verfügen über umfangreiche Community-Ressourcen und Support.

Für eine vergleichende Analyse siehe unsere Dokumentation zu Exportformaten.

Link to this sectionWie kann ich YOLO26-Modelle in einer Webanwendung bereitstellen?#

Um YOLO26 Modelle in einer Webanwendung bereitzustellen, kannst du LiteRT.js, die Web-Runtime von LiteRT, verwenden, mit der du machine learning Modelle direkt im Browser und in Node.js ausführen kannst. Dieser Ansatz macht Backend-Infrastruktur überflüssig und sorgt für Echtzeit-Leistung.

  1. Exportiere das YOLO26 Modell in das LiteRT Format.
  2. Integriere das exportierte Modell mit LiteRT.js in deine Webanwendung.

Für eine Schritt-für-Schritt-Anleitung lies unseren LiteRT Integrationsleitfaden.

Kommentare