Link to this sectionVergleichende Analyse der YOLO26-Bereitstellungsoptionen#
YOLO26 unterstützt mehr als 20 Bereitstellungsoptionen, die jeweils auf eine andere Laufzeitumgebung, ein anderes Hardware-Ziel oder eine andere Plattform abgestimmt sind – von PyTorch und ONNX bis hin zu TensorRT, OpenVINO, CoreML und dedizierten Edge-NPU-Formaten. Die richtige Wahl bringt Inferenzgeschwindigkeit, Hardware-Einschränkungen und Integrationsaufwand ins Gleichgewicht. Dieser Leitfaden vergleicht jede Option, damit du die beste für deine Anwendung auswählen kannst, und geht dann zu den Best Practices für die Modellbereitstellung über, um sie zuverlässig bereitzustellen.
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
Die Bereitstellung ist die Phase im Workflow von Computer-Vision-Projekten, in der ein trainiertes Modell beginnt, echte Arbeit zu leisten, daher hat das Exportformat einen direkten Einfluss auf Geschwindigkeit, Kosten und Portabilität.
Link to this sectionSo wählst du die richtige Bereitstellungsoption für dein YOLO26-Modell aus#
Wenn es an der Zeit ist, dein YOLO26 Modell bereitzustellen, ist die Auswahl eines geeigneten Exportformats sehr wichtig. Wie in der Ultralytics YOLO26 Export-Dokumentation beschrieben, konvertiert die Funktion model.export() dein trainiertes Modell in eine Vielzahl von Formaten, die auf unterschiedliche Umgebungen und Leistungsanforderungen zugeschnitten sind.
Das ideale Format hängt vom beabsichtigten Einsatzkontext deines Modells und der Hardware ab.
Für verwaltete Bereitstellungen ohne manuellen Export bietet die Ultralytics Platform gebrauchsfertige Inferenz-Endpunkte mit automatischer Skalierung über 43 globale Regionen hinweg.
Link to this sectionDie Bereitstellungsoptionen von YOLO26#
Hier ist eine kurze Beschreibung jedes Formats und wann du es verwenden solltest. Für den vollständigen Walkthrough zum Export siehe die Export-Dokumentation; für die Kriterien im direkten Vergleich springe zur Vergleichstabelle.
- PyTorch (
.pt): Das native Trainings- und Inferenzformat, das maximale Flexibilität und CUDA GPU-Beschleunigung bietet – ideal für Forschung und Prototyping, ohne dass ein Export-Schritt erforderlich ist. - TorchScript (
torchscript): Serialisiert das Modell für eine Python-freie C++ Laufzeitumgebung, geeignet für Produktionssysteme, in denen Python nicht verfügbar ist. - ONNX (
onnx): Ein framework-unabhängiges Austauschformat mit breiter plattform- und hardwareübergreifender Unterstützung durch ONNX Runtime. - OpenVINO (
openvino): Intels Toolkit für optimierte Inferenz auf Intel CPUs, integrierten GPUs und NPUs, häufig verwendet in IoT und Edge Computing. - TensorRT (
engine): NVIDIAs Hochleistungs-Laufzeitumgebung für erstklassige GPU-Inferenz mit FP16- und INT8-Optimierung. - CoreML (
coreml): Apples On-Device-Format für iOS, macOS, watchOS und tvOS, das die Apple Neural Engine nutzt. - TF SavedModel (
saved_model): TensorFlows Standardformat für skalierbare serverbasierte Bereitstellungen mit TensorFlow Serving. - TF GraphDef (
pb): Ein eingefrorenes TensorFlow-Format mit statischem Graphen für Umgebungen, die einen festen Berechnungsgraphen benötigen. - TF Edge TPU (
edgetpu): Kompiliert.tfliteModelle für Google Coral Edge TPU Beschleuniger. - LiteRT (
litert): Googles On-Device-Runtime (ehemals TensorFlow Lite) für Inferenz auf Mobilgeräten, eingebetteten Systemen und im Browser mittels eines einzigen.tfliteModells, mit Unterstützung für FP32 und INT8 sowie Browser-Ausführung via LiteRT.js. - PaddlePaddle (
paddle): Baidus Deep Learning Framework, beliebt in China, mit breiter Hardware-Unterstützung. - MNN (
mnn): Eine leichtgewichtige Hochleistungs-Inferenz-Engine, optimiert für mobile und eingebettete ARM- und x86-64-Systeme. - NCNN (
ncnn): Ein leistungsstarkes, leichtgewichtiges Inferenz-Framework, das für mobile ARM-Geräte optimiert ist. - Sony IMX500 (
imx): Exporte für Sonys intelligenten IMX500 Bildsensor mit On-Chip-Verarbeitung, wie beispielsweise die Raspberry Pi AI Camera. - Rockchip RKNN (
rknn): Zielt auf Rockchip NPUs auf eingebetteten Boards mit FP16- und INT8-Quantisierung ab. - ExecuTorch (
executorch): PyTorchs native On-Device-Laufzeitumgebung für mobile Geräte (iOS und Android) und eingebettete Systeme mittels XNNPACK. - Axelera AI (
axelera): Kompiliert für Axeleras Metis AIPU (bis zu 856 TOPS) über PCIe oder M.2 für Edge-Inferenz mit hohem Durchsatz. - DEEPX (
deepx): Zielt auf DEEPX NPU-Hardware mit INT8-Quantisierung für eingebettete Edge-Inferenz ab. - Qualcomm QNN (
qnn): On-Device-Inferenz auf Snapdragon Hexagon NPU, Adreno GPU und CPU über den Qualcomm AI Stack.
Für ein zusätzliches Edge-Ziel kompiliert die Hailo-Integration YOLO-Erkennungsmodelle in Hailo HEF. Dies ist kein direktes model.export()-Ziel: Erkennungsmodelle werden zuerst nach ONNX exportiert und dann mit dem externen Hailo Dataflow Compiler für Hailo-8, Hailo-8L und Hailo-15 Beschleuniger in HEF kompiliert.
Link to this sectionVergleich der Bereitstellungsoptionen#
Die folgende Tabelle fasst die Bereitstellungsoptionen für YOLO26-Modelle anhand der Kriterien zusammen, die normalerweise die Wahl bestimmen. Für einen detaillierten Blick auf jedes Format siehe die Dokumentation zu Exportformaten.
| Bereitstellungsoption | Performance-Benchmarks | Kompatibilität und Integration | Community-Support und Ökosystem | Fallstudien | Wartung und Updates | Sicherheitsaspekte | Hardwarebeschleunigung |
|---|---|---|---|---|---|---|---|
| PyTorch | Gute Flexibilität; kann auf Kosten der reinen Leistung gehen | Exzellent mit Python-Bibliotheken | Umfangreiche Ressourcen und Community | Forschung und Prototypen | Regelmäßige, aktive Entwicklung | Abhängig von der Bereitstellungsumgebung | CUDA-Unterstützung für GPU-Beschleunigung |
| TorchScript | Besser für die Produktion geeignet als PyTorch | Reibungsloser Übergang von PyTorch zu C++ | Spezialisiert, aber begrenzter als PyTorch | Industrie, in der Python ein Flaschenhals ist | Konsistente Updates mit PyTorch | Verbesserte Sicherheit ohne vollständiges Python | Erbt CUDA-Unterstützung von PyTorch |
| ONNX | Variabel je nach Runtime | Hoch über verschiedene Frameworks hinweg | Breites Ökosystem, von vielen Organisationen unterstützt | Flexibilität über ML-Frameworks hinweg | Regelmäßige Updates für neue Operationen | Stelle sichere Konvertierungs- und Bereitstellungspraktiken sicher | Verschiedene Hardware-Optimierungen |
| OpenVINO | Optimiert für Intel-Hardware | Am besten innerhalb des Intel-Ökosystems | Solide im Bereich Computer Vision | IoT und Edge mit Intel-Hardware | Regelmäßige Updates für Intel-Hardware | Robuste Funktionen für sensible Anwendungen | Maßgeschneidert für Intel-Hardware |
| TensorRT | Spitzenklasse auf NVIDIA-GPUs | Am besten für NVIDIA-Hardware | Starkes Netzwerk durch NVIDIA | Echtzeit-Video- und Bildinferenz | Häufige Updates für neue GPUs | Betonung auf Sicherheit | Entwickelt für NVIDIA-GPUs |
| CoreML | Optimiert für Apple-Hardware auf dem Gerät | Exklusiv für das Apple-Ökosystem | Starker Apple- und Entwickler-Support | ML auf Apple-Produkten direkt auf dem Gerät | Regelmäßige Apple-Updates | Fokus auf Datenschutz und Sicherheit | Apple Neural Engine und GPU |
| TF SavedModel | Skalierbar in Serverumgebungen | Breite Kompatibilität im TensorFlow-Ökosystem | Große Unterstützung aufgrund der Popularität von TensorFlow | Modellbereitstellung in großem Maßstab | Regelmäßige Updates durch Google und die Community | Robuste Funktionen für Unternehmen | Verschiedene Hardwarebeschleunigungen |
| TF GraphDef | Stabil für statische Berechnungsgraphen | Integriert sich gut in die TensorFlow-Infrastruktur | Ressourcen zur Optimierung statischer Graphen | Szenarien, die statische Graphen erfordern | Updates zusammen mit TensorFlow Core | Etablierte TensorFlow-Sicherheitspraktiken | TensorFlow-Beschleunigungsoptionen |
| TF Edge TPU | Optimiert für Googles Edge TPU-Hardware | Exklusiv für Edge TPU-Geräte | Wächst mit Google und Ressourcen von Drittanbietern | IoT-Geräte, die Echtzeitverarbeitung erfordern | Verbesserungen für neue Edge TPU-Hardware | Googles robuste IoT-Sicherheit | Speziell entwickelt für Google Coral |
| LiteRT | Geschwindigkeit und Effizienz auf Mobilgeräten, eingebetteten Systemen und im Web | Unterstützung für Mobilgeräte, eingebettete Systeme, Edge und Browser | Robuste Community, unterstützt durch Google | On-Device-Apps für Android, iOS und Web | Neueste On-Device-Runtime-Funktionen | Sichere Inferenz auf dem Gerät und im Browser | GPU-, DSP- und WebGPU-Beschleunigung |
| PaddlePaddle | Wettbewerbsfähig, einfach zu bedienen und skalierbar | Baidu-Ökosystem, breite Anwendungsunterstützung | Schnell wachsend, besonders in China | Chinesischer Markt und Sprachverarbeitung | Fokus auf chinesische KI-Anwendungen | Betont Datenschutz und Sicherheit | Einschließlich der Kunlun-Chips von Baidu |
| MNN | Hohe Leistung für mobile Geräte | Mobile und eingebettete ARM-Systeme sowie X86-64 CPU | Mobile/Embedded ML-Community | Effizienz mobiler Systeme | Wartung hoher Leistung auf mobilen Geräten | Vorteile der Sicherheit auf dem Gerät | Optimierungen für ARM-CPUs und GPUs |
| NCNN | Optimiert für mobile ARM-basierte Geräte | Mobile und eingebettete ARM-Systeme | Nischenorientierte, aber aktive Mobile/Embedded ML-Community | Effizienz von Android- und ARM-Systemen | Hochleistungswartung auf ARM | Vorteile der Sicherheit auf dem Gerät | Optimierungen für ARM-CPUs und GPUs |
| Sony IMX500 | On-Sensor-Inferenz bei sehr niedrigem Stromverbrauch | Sony IMX500 Sensor, Raspberry Pi AI Camera | Sony AITRIOS Ökosystem | On-Camera Edge AI | Updates für Sony SDK und MCT Toolchain | Daten verbleiben auf dem Sensor | Sony IMX500 On-Chip-Beschleuniger |
| Rockchip RKNN | Optimiert für Rockchip NPUs | Rockchip SoC Boards (z.B. RK3588) | Rockchip Entwickler-Community | Eingebettete SBC- und Edge-Geräte | Updates für Rockchip RKNN-Toolkit | Lokale On-Device-Inferenz | Rockchip NPU |
| ExecuTorch | Effiziente On-Device PyTorch Laufzeitumgebung | iOS, Android, eingebettet via XNNPACK | Unterstützt durch das PyTorch Projekt | Mobile und eingebettete Apps | Wird zusammen mit PyTorch gewartet | Inferenz auf dem Gerät hält Daten lokal | XNNPACK und mobile CPU/GPU Backends |
| Axelera AI | Sehr hoher Durchsatz (bis zu 856 TOPS) | Metis AIPU über PCIe oder M.2 | Axelera Voyager SDK | Edge-Inferenz mit hohem Durchsatz | Updates für Axelera SDK | On-Premises Edge-Inferenz | Axelera Metis AIPU |
| DEEPX | INT8-optimierte NPU-Inferenz | DEEPX NPU-Hardware | DEEPX Entwicklertools (dx_com, dx_engine) | Eingebettete Edge-Inferenz | Updates für DEEPX SDK und Laufzeitumgebung | Lokale On-Device-Inferenz | DEEPX NPU |
| Qualcomm QNN | Schnelle On-Device Snapdragon Inferenz | Snapdragon Hexagon NPU, Adreno GPU, CPU | Qualcomm AI Hub Ökosystem | Mobile und Edge Snapdragon Geräte | Updates für Qualcomm AI Stack (QAIRT) | Inferenz auf dem Gerät hält Daten lokal | Snapdragon Hexagon NPU |
Dieser Vergleich gibt dir einen Überblick auf hoher Ebene. Wäge bei der Bereitstellung die spezifischen Anforderungen und Einschränkungen deines Projekts gegen jede Option ab und ziehe den verlinkten Integrationsleitfaden für das von dir gewählte Format zu Rate.
Link to this sectionFazit#
Die große Auswahl an Exportformaten von YOLO26 ermöglicht es dir, ein Modell für nahezu jede Umgebung anzupassen, von einem Cloud-GPU-Server bis hin zu einer On-Sensor-Edge-Kamera. Sobald du ein Format gewählt hast, folge den Best Practices für die Modellbereitstellung für Optimierung, Fehlerbehebung und Sicherheit, und wende dich an die Ultralytics Community, wenn du auf ein Problem stößt.
Link to this sectionFAQ#
Link to this sectionWelche Bereitstellungsoptionen stehen für YOLO26 auf verschiedenen Hardwareplattformen zur Verfügung?#
Ultralytics YOLO26 unterstützt verschiedene Bereitstellungsformate, die jeweils für spezifische Umgebungen und Hardwareplattformen konzipiert sind. Zu den wichtigsten Formaten gehören:
- PyTorch für Forschung und Prototyping, mit hervorragender Python-Integration.
- TorchScript für Produktionsumgebungen, in denen Python nicht verfügbar ist.
- ONNX für plattformübergreifende Kompatibilität und Hardwarebeschleunigung.
- OpenVINO für optimierte Leistung auf Intel-Hardware.
- TensorRT für Hochgeschwindigkeits-Inferenz auf NVIDIA-GPUs.
Jedes Format hat seine einzigartigen Vorteile. Eine detaillierte Anleitung findest du in unserer Dokumentation zum Exportprozess.
Link to this sectionWie kann ich die Inferenzgeschwindigkeit meines YOLO26-Modells auf einer Intel-CPU verbessern?#
Um die Inferenzgeschwindigkeit auf Intel-CPUs zu verbessern, kannst du dein YOLO26-Modell mit dem Intel OpenVINO-Toolkit bereitstellen. OpenVINO bietet signifikante Leistungssteigerungen durch die Optimierung von Modellen zur effizienten Nutzung von Intel-Hardware.
- Konvertiere dein YOLO26-Modell mit der Funktion
model.export()in das OpenVINO-Format. - Befolge die detaillierte Einrichtungsanleitung in der Intel OpenVINO Export-Dokumentation.
Für weitere Einblicke lies unseren Blogbeitrag.
Link to this sectionKann ich YOLO26-Modelle auf Mobilgeräten bereitstellen?#
Ja, YOLO26 Modelle können auf Mobilgeräten mit LiteRT (ehemals TensorFlow Lite) und NCNN für Android sowie CoreML oder LiteRT für iOS bereitgestellt werden. LiteRT ist die On-Device-Runtime von Google für Mobil- und Embedded-Geräte, die dasselbe Modell auf Android, iOS und im Browser ausführt und so eine effiziente On-Device-Inferenz ermöglicht.
# Export command for NCNN format
model.export(format="ncnn")Weitere Details zur Bereitstellung von Modellen auf Mobilgeräten findest du in unserem LiteRT Integrationsleitfaden.
Link to this sectionWelche Faktoren sollte ich bei der Wahl eines Bereitstellungsformats für mein YOLO26-Modell berücksichtigen?#
Bei der Wahl eines Bereitstellungsformats für YOLO26 solltest du folgende Faktoren berücksichtigen:
- Leistung: Einige Formate wie TensorRT bieten außergewöhnliche Geschwindigkeiten auf NVIDIA-GPUs, während OpenVINO für Intel-Hardware optimiert ist.
- Kompatibilität: ONNX bietet eine breite Kompatibilität über verschiedene Plattformen hinweg.
- Einfache Integration: Formate wie CoreML oder LiteRT sind speziell auf die jeweiligen Ökosysteme wie iOS bzw. Android zugeschnitten.
- Community-Support: Formate wie PyTorch und TensorFlow verfügen über umfangreiche Community-Ressourcen und Support.
Für eine vergleichende Analyse siehe unsere Dokumentation zu Exportformaten.
Link to this sectionWie kann ich YOLO26-Modelle in einer Webanwendung bereitstellen?#
Um YOLO26 Modelle in einer Webanwendung bereitzustellen, kannst du LiteRT.js, die Web-Runtime von LiteRT, verwenden, mit der du machine learning Modelle direkt im Browser und in Node.js ausführen kannst. Dieser Ansatz macht Backend-Infrastruktur überflüssig und sorgt für Echtzeit-Leistung.
- Exportiere das YOLO26 Modell in das LiteRT Format.
- Integriere das exportierte Modell mit LiteRT.js in deine Webanwendung.
Für eine Schritt-für-Schritt-Anleitung lies unseren LiteRT Integrationsleitfaden.