Link to this sectionAnalisi comparativa delle opzioni di distribuzione di YOLO26#
YOLO26 supporta più di 20 opzioni di distribuzione, ognuna ottimizzata per un runtime, un target hardware o una piattaforma diversa: da PyTorch e ONNX a TensorRT, OpenVINO, CoreML e formati dedicati per NPU edge. Scegliere quella giusta ti permette di bilanciare velocità di inferenza, vincoli hardware e facilità di integrazione. Questa guida confronta ogni opzione affinché tu possa scegliere quella più adatta alla tua applicazione, per poi passare alle best practice per la distribuzione dei modelli per distribuirlo in modo affidabile.
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
La distribuzione è la fase del flusso di lavoro del progetto di computer vision in cui un modello addestrato inizia a svolgere un lavoro reale, quindi il formato verso cui esporti ha un impatto diretto su velocità, costi e portabilità.
Link to this sectionCome selezionare l'opzione di distribuzione giusta per il tuo modello YOLO26#
Quando arriva il momento di distribuire il tuo modello YOLO26, selezionare un formato di esportazione adatto è molto importante. Come descritto nella documentazione di esportazione di Ultralytics YOLO26, la funzione model.export() converte il tuo modello addestrato in una varietà di formati su misura per diversi ambienti e requisiti di prestazioni.
Il formato ideale dipende dal contesto operativo previsto per il tuo modello e dall'hardware.
Per una distribuzione gestita senza esportazione manuale, Ultralytics Platform fornisce endpoint di inferenza pronti all'uso con scalabilità automatica in 43 regioni globali.
Link to this sectionOpzioni di distribuzione di YOLO26#
Ecco una breve descrizione di ogni formato e quando sceglierlo. Per la procedura di esportazione completa, consulta la documentazione sull'esportazione; per i criteri di confronto affiancati, vai alla tabella di confronto.
- PyTorch (
.pt): Il formato nativo per l'addestramento e l'inferenza, che offre la massima flessibilità e l'accelerazione CUDA GPU: ideale per la ricerca e la prototipazione senza necessità di passaggi di esportazione. - TorchScript (
torchscript): Serializza il modello per un runtime C++ senza Python, adatto a sistemi di produzione in cui Python non è disponibile. - ONNX (
onnx): Un formato di scambio indipendente dal framework con ampio supporto multipiattaforma e hardware tramite ONNX Runtime. - OpenVINO (
openvino): Il toolkit di Intel per un'inferenza ottimizzata su CPU Intel, GPU integrate e NPU, comune nell'IoT e nell'edge computing. - TensorRT (
engine): Il runtime ad alte prestazioni di NVIDIA che offre un'inferenza GPU di alto livello con ottimizzazione FP16 e INT8. - CoreML (
coreml): Il formato on-device di Apple per iOS, macOS, watchOS e tvOS, che utilizza l'Apple Neural Engine. - TF SavedModel (
saved_model): Il formato standard di TensorFlow per il serving lato server scalabile con TensorFlow Serving. - TF GraphDef (
pb): Un formato TensorFlow con grafo statico bloccato per ambienti che richiedono un grafo di calcolo fisso. - TF Lite (
tflite): Un runtime TensorFlow leggero per l'inferenza on-device su hardware mobile e integrato. - TF Edge TPU (
edgetpu): Compila modelli TF Lite per gli acceleratori Google Coral Edge TPU. - TF.js (
tfjs): Esegue modelli direttamente nel browser senza backend, accelerati tramite WebGL. - PaddlePaddle (
paddle): Il framework di deep learning di Baidu, popolare in Cina, con un ampio supporto hardware. - MNN (
mnn): Un motore di inferenza leggero ad alte prestazioni ottimizzato per sistemi mobili e integrati ARM e x86-64. - NCNN (
ncnn): Un framework di inferenza leggero e ad alte prestazioni ottimizzato per dispositivi ARM mobili. - Sony IMX500 (
imx): Esportazioni per il sensore di visione intelligente IMX500 di Sony con elaborazione on-chip, come la Raspberry Pi AI Camera. - Rockchip RKNN (
rknn): Si rivolge alle NPU Rockchip su schede integrate con quantizzazione FP16 e INT8. - ExecuTorch (
executorch): Il runtime on-device nativo di PyTorch per sistemi mobili (iOS e Android) e integrati tramite XNNPACK. - Axelera AI (
axelera): Compila per l'AIPU Metis di Axelera (fino a 856 TOPS) tramite PCIe o M.2 per un'inferenza edge ad alto throughput. - DEEPX (
deepx): Si rivolge all'hardware NPU DEEPX con quantizzazione INT8 per l'inferenza edge integrata. - Qualcomm QNN (
qnn): Inferenza on-device su Snapdragon Hexagon NPU, Adreno GPU e CPU tramite lo stack Qualcomm AI.
Per un ulteriore target edge, l'integrazione Hailo compila i modelli di rilevamento YOLO in Hailo HEF. Non è un target diretto di model.export(): i modelli di rilevamento vengono prima esportati in ONNX, quindi compilati in HEF con l'Hailo Dataflow Compiler esterno per gli acceleratori Hailo-8, Hailo-8L e Hailo-15.
Link to this sectionConfronto delle opzioni di distribuzione#
La seguente tabella riassume le opzioni di distribuzione per i modelli YOLO26 in base ai criteri che solitamente guidano la scelta. Per uno sguardo approfondito su ogni formato, consulta la documentazione sui formati di esportazione.
| Opzione di deployment | Benchmark delle prestazioni | Compatibilità e integrazione | Supporto della community ed ecosistema | Casi d'uso | Manutenzione e aggiornamenti | Considerazioni sulla sicurezza | Accelerazione hardware |
|---|---|---|---|---|---|---|---|
| PyTorch | Buona flessibilità; potrebbe scendere a compromessi sulle prestazioni grezze | Eccellente con le librerie Python | Risorse estese e community | Ricerca e prototipi | Sviluppo regolare e attivo | Dipendente dall'ambiente di deployment | Supporto CUDA per accelerazione GPU |
| TorchScript | Migliore per la produzione rispetto a PyTorch | Transizione fluida da PyTorch a C++ | Specializzato ma più ristretto rispetto a PyTorch | Settore in cui Python rappresenta un collo di bottiglia | Aggiornamenti coerenti con PyTorch | Sicurezza migliorata senza Python completo | Eredita il supporto CUDA da PyTorch |
| ONNX | Variabile a seconda del runtime | Alta tra diversi framework | Ampio ecosistema, supportato da molte organizzazioni | Flessibilità tra framework ML | Aggiornamenti regolari per nuove operazioni | Garantire pratiche sicure di conversione e deployment | Varie ottimizzazioni hardware |
| OpenVINO | Ottimizzato per hardware Intel | Migliore all'interno dell'ecosistema Intel | Solido nel dominio della computer vision | IoT ed edge con hardware Intel | Aggiornamenti regolari per hardware Intel | Funzionalità robuste per applicazioni sensibili | Su misura per hardware Intel |
| TensorRT | Di alto livello su GPU NVIDIA | Migliore per hardware NVIDIA | Forte network tramite NVIDIA | Inferenza video e immagini in tempo reale | Aggiornamenti frequenti per nuove GPU | Enfasi sulla sicurezza | Progettato per GPU NVIDIA |
| CoreML | Ottimizzato per hardware Apple on-device | Esclusivo per l'ecosistema Apple | Forte supporto Apple e per sviluppatori | ML on-device su prodotti Apple | Aggiornamenti Apple regolari | Focus sulla privacy e sicurezza | Apple neural engine e GPU |
| TF SavedModel | Scalabile in ambienti server | Ampia compatibilità nell'ecosistema TensorFlow | Supporto esteso grazie alla popolarità di TensorFlow | Modelli di serving su larga scala | Aggiornamenti regolari da parte di Google e della community | Funzionalità robuste per l'enterprise | Varie accelerazioni hardware |
| TF GraphDef | Stabile per grafi di calcolo statici | Si integra bene con l'infrastruttura TensorFlow | Risorse per l'ottimizzazione di grafi statici | Scenari che richiedono grafi statici | Aggiornamenti insieme al core di TensorFlow | Pratiche di sicurezza consolidate per TensorFlow | Opzioni di accelerazione per TensorFlow |
| TF Lite | Velocità ed efficienza su dispositivi mobili/embedded | Ampia gamma di supporto per i dispositivi | Community solida, supportata da Google | Applicazioni mobili con ingombro minimo | Ultime funzionalità per il mobile | Ambiente sicuro su dispositivi dell'utente finale | GPU e DSP tra gli altri |
| TF Edge TPU | Ottimizzato per l'hardware Edge TPU di Google | Esclusivo per dispositivi Edge TPU | In crescita con le risorse di Google e di terze parti | Dispositivi IoT che richiedono elaborazione in tempo reale | Miglioramenti per il nuovo hardware Edge TPU | Sicurezza IoT robusta di Google | Progettato su misura per Google Coral |
| TF.js | Prestazioni in-browser ragionevoli | Elevate con le tecnologie web | Supporto per sviluppatori Web e Node.js | Applicazioni web interattive | Contributi del team TensorFlow e della community | Modello di sicurezza della piattaforma web | Potenziato con WebGL e altre API |
| PaddlePaddle | Competitivo, facile da usare e scalabile | Ecosistema Baidu, ampio supporto alle applicazioni | In rapida crescita, specialmente in Cina | Mercato cinese ed elaborazione linguistica | Focus sulle applicazioni AI cinesi | Enfatizza la privacy e la sicurezza dei dati | Inclusi i chip Kunlun di Baidu |
| MNN | Alte prestazioni per dispositivi mobili | Sistemi mobili e embedded ARM e CPU X86-64 | Community ML mobile/embedded | Efficienza dei sistemi mobili | Manutenzione ad alte prestazioni su dispositivi mobili | Vantaggi di sicurezza on-device | Ottimizzazioni per CPU e GPU ARM |
| NCNN | Ottimizzato per dispositivi mobili basati su ARM | Sistemi mobili e embedded ARM | Community ML mobile/embedded di nicchia ma attiva | Efficienza dei sistemi Android e ARM | Manutenzione ad alte prestazioni su ARM | Vantaggi di sicurezza on-device | Ottimizzazioni per CPU e GPU ARM |
| Sony IMX500 | Inferenza sul sensore a bassissimo consumo | Sensore Sony IMX500, Raspberry Pi AI Camera | Ecosistema Sony AITRIOS | Edge AI su videocamera | Aggiornamenti SDK Sony e toolchain MCT | I dati rimangono sul sensore | Acceleratore on-chip Sony IMX500 |
| Rockchip RKNN | Ottimizzato per NPU Rockchip | Schede SoC Rockchip (es. RK3588) | Community di sviluppatori Rockchip | SBC integrati e dispositivi edge | Aggiornamenti Rockchip RKNN-Toolkit | Inferenza locale on-device | NPU Rockchip |
| ExecuTorch | Runtime PyTorch on-device efficiente | iOS, Android, integrato tramite XNNPACK | Supportato dal progetto PyTorch | App mobili e integrate | Mantenuto insieme a PyTorch | L'inferenza on-device mantiene i dati locali | XNNPACK e backend CPU/GPU mobili |
| Axelera AI | Througput molto elevato (fino a 856 TOPS) | Metis AIPU tramite PCIe o M.2 | Axelera Voyager SDK | Inferenza edge ad alto throughput | Aggiornamenti Axelera SDK | Inferenza edge on-premises | Axelera Metis AIPU |
| DEEPX | Inferenza NPU ottimizzata INT8 | Hardware NPU DEEPX | Strumenti per sviluppatori DEEPX (dx_com, dx_engine) | Inferenza edge integrata | Aggiornamenti SDK e runtime DEEPX | Inferenza locale on-device | NPU DEEPX |
| Qualcomm QNN | Inferenza Snapdragon on-device veloce | Snapdragon Hexagon NPU, Adreno GPU, CPU | Ecosistema Qualcomm AI Hub | Dispositivi Snapdragon mobili e edge | Aggiornamenti dello stack Qualcomm AI (QAIRT) | L'inferenza on-device mantiene i dati locali | NPU Snapdragon Hexagon |
Questo confronto ti fornisce una panoramica di alto livello. Per la distribuzione, valuta i requisiti e i vincoli specifici del tuo progetto rispetto a ciascuna opzione e consulta la guida all'integrazione collegata per il formato che sceglierai.
Link to this sectionConclusione#
L'ampia gamma di formati di esportazione di YOLO26 ti consente di adattare un modello a quasi ogni ambiente, da un server GPU cloud a una fotocamera edge sul sensore. Una volta scelto un formato, segui le best practice per la distribuzione dei modelli per ottimizzazione, risoluzione dei problemi e sicurezza, e affidati alla community di Ultralytics quando incontri un ostacolo.
Link to this sectionFAQ#
Link to this sectionQuali sono le opzioni di deployment disponibili per YOLO26 su diverse piattaforme hardware?#
Ultralytics YOLO26 supporta vari formati di deployment, ciascuno progettato per ambienti e piattaforme hardware specifici. I formati chiave includono:
- PyTorch per ricerca e prototipazione, con un'eccellente integrazione Python.
- TorchScript per ambienti di produzione in cui Python non è disponibile.
- ONNX per la compatibilità multipiattaforma e l'accelerazione hardware.
- OpenVINO per prestazioni ottimizzate su hardware Intel.
- TensorRT per l'inferenza ad alta velocità su GPU NVIDIA.
Ogni formato ha vantaggi unici. Per una guida dettagliata, consulta la nostra documentazione sul processo di esportazione.
Link to this sectionCome posso migliorare la velocità di inferenza del mio modello YOLO26 su una CPU Intel?#
Per migliorare la velocità di inferenza sulle CPU Intel, puoi eseguire il deployment del tuo modello YOLO26 utilizzando il toolkit OpenVINO di Intel. OpenVINO offre notevoli incrementi delle prestazioni ottimizzando i modelli per sfruttare in modo efficiente l'hardware Intel.
- Converti il tuo modello YOLO26 nel formato OpenVINO utilizzando la funzione
model.export(). - Segui la guida di configurazione dettagliata nella documentazione di esportazione Intel OpenVINO.
Per ulteriori approfondimenti, dai un'occhiata al nostro post sul blog.
Link to this sectionPosso eseguire il deployment di modelli YOLO26 su dispositivi mobili?#
Sì, i modelli YOLO26 possono essere distribuiti su dispositivi mobili utilizzando TensorFlow Lite (TF Lite) sia per piattaforme Android che iOS. TF Lite è progettato per dispositivi mobili ed embedded, fornendo un'inferenza on-device efficiente.
# Export command for TFLite format
model.export(format="tflite")Per ulteriori dettagli sul deployment di modelli su dispositivi mobili, consulta la nostra guida all'integrazione di TF Lite.
Link to this sectionQuali fattori dovrei considerare quando scelgo un formato di deployment per il mio modello YOLO26?#
Quando scegli un formato di deployment per YOLO26, considera i seguenti fattori:
- Prestazioni: Alcuni formati come TensorRT offrono velocità eccezionali sulle GPU NVIDIA, mentre OpenVINO è ottimizzato per l'hardware Intel.
- Compatibilità: ONNX offre un'ampia compatibilità tra diverse piattaforme.
- Facilità di integrazione: Formati come CoreML o TF Lite sono su misura per ecosistemi specifici come iOS e Android, rispettivamente.
- Supporto della community: Formati come PyTorch e TensorFlow dispongono di ampie risorse di supporto della community.
Per un'analisi comparativa, consulta la nostra documentazione sui formati di esportazione.
Link to this sectionCome posso eseguire il deployment di modelli YOLO26 in un'applicazione web?#
Per distribuire modelli YOLO26 in un'applicazione web, puoi utilizzare TensorFlow.js (TF.js), che consente di eseguire modelli di machine learning direttamente nel browser. Questo approccio elimina la necessità di un'infrastruttura backend e offre prestazioni in tempo reale.
- Esporta il modello YOLO26 nel formato TF.js.
- Integra il modello esportato nella tua applicazione web.
Per istruzioni passo-passo, consulta la nostra guida sull'integrazione di TensorFlow.js.