Meet YOLO26: next-gen vision AI.

Link to this sectionAnalisi comparativa delle opzioni di distribuzione di YOLO26#

YOLO26 supporta più di 20 opzioni di distribuzione, ognuna ottimizzata per un runtime, un target hardware o una piattaforma diversa: da PyTorch e ONNX a TensorRT, OpenVINO, CoreML e formati dedicati per NPU edge. Scegliere quella giusta ti permette di bilanciare velocità di inferenza, vincoli hardware e facilità di integrazione. Questa guida confronta ogni opzione affinché tu possa scegliere quella più adatta alla tua applicazione, per poi passare alle best practice per la distribuzione dei modelli per distribuirlo in modo affidabile.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

La distribuzione è la fase del flusso di lavoro del progetto di computer vision in cui un modello addestrato inizia a svolgere un lavoro reale, quindi il formato verso cui esporti ha un impatto diretto su velocità, costi e portabilità.

Link to this sectionCome selezionare l'opzione di distribuzione giusta per il tuo modello YOLO26#

Quando arriva il momento di distribuire il tuo modello YOLO26, selezionare un formato di esportazione adatto è molto importante. Come descritto nella documentazione di esportazione di Ultralytics YOLO26, la funzione model.export() converte il tuo modello addestrato in una varietà di formati su misura per diversi ambienti e requisiti di prestazioni.

Il formato ideale dipende dal contesto operativo previsto per il tuo modello e dall'hardware.

Salta l'esportazione manuale

Per una distribuzione gestita senza esportazione manuale, Ultralytics Platform fornisce endpoint di inferenza pronti all'uso con scalabilità automatica in 43 regioni globali.

Link to this sectionOpzioni di distribuzione di YOLO26#

Ecco una breve descrizione di ogni formato e quando sceglierlo. Per la procedura di esportazione completa, consulta la documentazione sull'esportazione; per i criteri di confronto affiancati, vai alla tabella di confronto.

  • PyTorch (.pt): Il formato nativo per l'addestramento e l'inferenza, che offre la massima flessibilità e l'accelerazione CUDA GPU: ideale per la ricerca e la prototipazione senza necessità di passaggi di esportazione.
  • TorchScript (torchscript): Serializza il modello per un runtime C++ senza Python, adatto a sistemi di produzione in cui Python non è disponibile.
  • ONNX (onnx): Un formato di scambio indipendente dal framework con ampio supporto multipiattaforma e hardware tramite ONNX Runtime.
  • OpenVINO (openvino): Il toolkit di Intel per un'inferenza ottimizzata su CPU Intel, GPU integrate e NPU, comune nell'IoT e nell'edge computing.
  • TensorRT (engine): Il runtime ad alte prestazioni di NVIDIA che offre un'inferenza GPU di alto livello con ottimizzazione FP16 e INT8.
  • CoreML (coreml): Il formato on-device di Apple per iOS, macOS, watchOS e tvOS, che utilizza l'Apple Neural Engine.
  • TF SavedModel (saved_model): Il formato standard di TensorFlow per il serving lato server scalabile con TensorFlow Serving.
  • TF GraphDef (pb): Un formato TensorFlow con grafo statico bloccato per ambienti che richiedono un grafo di calcolo fisso.
  • TF Lite (tflite): Un runtime TensorFlow leggero per l'inferenza on-device su hardware mobile e integrato.
  • TF Edge TPU (edgetpu): Compila modelli TF Lite per gli acceleratori Google Coral Edge TPU.
  • TF.js (tfjs): Esegue modelli direttamente nel browser senza backend, accelerati tramite WebGL.
  • PaddlePaddle (paddle): Il framework di deep learning di Baidu, popolare in Cina, con un ampio supporto hardware.
  • MNN (mnn): Un motore di inferenza leggero ad alte prestazioni ottimizzato per sistemi mobili e integrati ARM e x86-64.
  • NCNN (ncnn): Un framework di inferenza leggero e ad alte prestazioni ottimizzato per dispositivi ARM mobili.
  • Sony IMX500 (imx): Esportazioni per il sensore di visione intelligente IMX500 di Sony con elaborazione on-chip, come la Raspberry Pi AI Camera.
  • Rockchip RKNN (rknn): Si rivolge alle NPU Rockchip su schede integrate con quantizzazione FP16 e INT8.
  • ExecuTorch (executorch): Il runtime on-device nativo di PyTorch per sistemi mobili (iOS e Android) e integrati tramite XNNPACK.
  • Axelera AI (axelera): Compila per l'AIPU Metis di Axelera (fino a 856 TOPS) tramite PCIe o M.2 per un'inferenza edge ad alto throughput.
  • DEEPX (deepx): Si rivolge all'hardware NPU DEEPX con quantizzazione INT8 per l'inferenza edge integrata.
  • Qualcomm QNN (qnn): Inferenza on-device su Snapdragon Hexagon NPU, Adreno GPU e CPU tramite lo stack Qualcomm AI.

Per un ulteriore target edge, l'integrazione Hailo compila i modelli di rilevamento YOLO in Hailo HEF. Non è un target diretto di model.export(): i modelli di rilevamento vengono prima esportati in ONNX, quindi compilati in HEF con l'Hailo Dataflow Compiler esterno per gli acceleratori Hailo-8, Hailo-8L e Hailo-15.

Link to this sectionConfronto delle opzioni di distribuzione#

La seguente tabella riassume le opzioni di distribuzione per i modelli YOLO26 in base ai criteri che solitamente guidano la scelta. Per uno sguardo approfondito su ogni formato, consulta la documentazione sui formati di esportazione.

Opzione di deploymentBenchmark delle prestazioniCompatibilità e integrazioneSupporto della community ed ecosistemaCasi d'usoManutenzione e aggiornamentiConsiderazioni sulla sicurezzaAccelerazione hardware
PyTorchBuona flessibilità; potrebbe scendere a compromessi sulle prestazioni grezzeEccellente con le librerie PythonRisorse estese e communityRicerca e prototipiSviluppo regolare e attivoDipendente dall'ambiente di deploymentSupporto CUDA per accelerazione GPU
TorchScriptMigliore per la produzione rispetto a PyTorchTransizione fluida da PyTorch a C++Specializzato ma più ristretto rispetto a PyTorchSettore in cui Python rappresenta un collo di bottigliaAggiornamenti coerenti con PyTorchSicurezza migliorata senza Python completoEredita il supporto CUDA da PyTorch
ONNXVariabile a seconda del runtimeAlta tra diversi frameworkAmpio ecosistema, supportato da molte organizzazioniFlessibilità tra framework MLAggiornamenti regolari per nuove operazioniGarantire pratiche sicure di conversione e deploymentVarie ottimizzazioni hardware
OpenVINOOttimizzato per hardware IntelMigliore all'interno dell'ecosistema IntelSolido nel dominio della computer visionIoT ed edge con hardware IntelAggiornamenti regolari per hardware IntelFunzionalità robuste per applicazioni sensibiliSu misura per hardware Intel
TensorRTDi alto livello su GPU NVIDIAMigliore per hardware NVIDIAForte network tramite NVIDIAInferenza video e immagini in tempo realeAggiornamenti frequenti per nuove GPUEnfasi sulla sicurezzaProgettato per GPU NVIDIA
CoreMLOttimizzato per hardware Apple on-deviceEsclusivo per l'ecosistema AppleForte supporto Apple e per sviluppatoriML on-device su prodotti AppleAggiornamenti Apple regolariFocus sulla privacy e sicurezzaApple neural engine e GPU
TF SavedModelScalabile in ambienti serverAmpia compatibilità nell'ecosistema TensorFlowSupporto esteso grazie alla popolarità di TensorFlowModelli di serving su larga scalaAggiornamenti regolari da parte di Google e della communityFunzionalità robuste per l'enterpriseVarie accelerazioni hardware
TF GraphDefStabile per grafi di calcolo staticiSi integra bene con l'infrastruttura TensorFlowRisorse per l'ottimizzazione di grafi staticiScenari che richiedono grafi staticiAggiornamenti insieme al core di TensorFlowPratiche di sicurezza consolidate per TensorFlowOpzioni di accelerazione per TensorFlow
TF LiteVelocità ed efficienza su dispositivi mobili/embeddedAmpia gamma di supporto per i dispositiviCommunity solida, supportata da GoogleApplicazioni mobili con ingombro minimoUltime funzionalità per il mobileAmbiente sicuro su dispositivi dell'utente finaleGPU e DSP tra gli altri
TF Edge TPUOttimizzato per l'hardware Edge TPU di GoogleEsclusivo per dispositivi Edge TPUIn crescita con le risorse di Google e di terze partiDispositivi IoT che richiedono elaborazione in tempo realeMiglioramenti per il nuovo hardware Edge TPUSicurezza IoT robusta di GoogleProgettato su misura per Google Coral
TF.jsPrestazioni in-browser ragionevoliElevate con le tecnologie webSupporto per sviluppatori Web e Node.jsApplicazioni web interattiveContributi del team TensorFlow e della communityModello di sicurezza della piattaforma webPotenziato con WebGL e altre API
PaddlePaddleCompetitivo, facile da usare e scalabileEcosistema Baidu, ampio supporto alle applicazioniIn rapida crescita, specialmente in CinaMercato cinese ed elaborazione linguisticaFocus sulle applicazioni AI cinesiEnfatizza la privacy e la sicurezza dei datiInclusi i chip Kunlun di Baidu
MNNAlte prestazioni per dispositivi mobiliSistemi mobili e embedded ARM e CPU X86-64Community ML mobile/embeddedEfficienza dei sistemi mobiliManutenzione ad alte prestazioni su dispositivi mobiliVantaggi di sicurezza on-deviceOttimizzazioni per CPU e GPU ARM
NCNNOttimizzato per dispositivi mobili basati su ARMSistemi mobili e embedded ARMCommunity ML mobile/embedded di nicchia ma attivaEfficienza dei sistemi Android e ARMManutenzione ad alte prestazioni su ARMVantaggi di sicurezza on-deviceOttimizzazioni per CPU e GPU ARM
Sony IMX500Inferenza sul sensore a bassissimo consumoSensore Sony IMX500, Raspberry Pi AI CameraEcosistema Sony AITRIOSEdge AI su videocameraAggiornamenti SDK Sony e toolchain MCTI dati rimangono sul sensoreAcceleratore on-chip Sony IMX500
Rockchip RKNNOttimizzato per NPU RockchipSchede SoC Rockchip (es. RK3588)Community di sviluppatori RockchipSBC integrati e dispositivi edgeAggiornamenti Rockchip RKNN-ToolkitInferenza locale on-deviceNPU Rockchip
ExecuTorchRuntime PyTorch on-device efficienteiOS, Android, integrato tramite XNNPACKSupportato dal progetto PyTorchApp mobili e integrateMantenuto insieme a PyTorchL'inferenza on-device mantiene i dati localiXNNPACK e backend CPU/GPU mobili
Axelera AIThrougput molto elevato (fino a 856 TOPS)Metis AIPU tramite PCIe o M.2Axelera Voyager SDKInferenza edge ad alto throughputAggiornamenti Axelera SDKInferenza edge on-premisesAxelera Metis AIPU
DEEPXInferenza NPU ottimizzata INT8Hardware NPU DEEPXStrumenti per sviluppatori DEEPX (dx_com, dx_engine)Inferenza edge integrataAggiornamenti SDK e runtime DEEPXInferenza locale on-deviceNPU DEEPX
Qualcomm QNNInferenza Snapdragon on-device veloceSnapdragon Hexagon NPU, Adreno GPU, CPUEcosistema Qualcomm AI HubDispositivi Snapdragon mobili e edgeAggiornamenti dello stack Qualcomm AI (QAIRT)L'inferenza on-device mantiene i dati localiNPU Snapdragon Hexagon

Questo confronto ti fornisce una panoramica di alto livello. Per la distribuzione, valuta i requisiti e i vincoli specifici del tuo progetto rispetto a ciascuna opzione e consulta la guida all'integrazione collegata per il formato che sceglierai.

Link to this sectionConclusione#

L'ampia gamma di formati di esportazione di YOLO26 ti consente di adattare un modello a quasi ogni ambiente, da un server GPU cloud a una fotocamera edge sul sensore. Una volta scelto un formato, segui le best practice per la distribuzione dei modelli per ottimizzazione, risoluzione dei problemi e sicurezza, e affidati alla community di Ultralytics quando incontri un ostacolo.

Link to this sectionFAQ#

Link to this sectionQuali sono le opzioni di deployment disponibili per YOLO26 su diverse piattaforme hardware?#

Ultralytics YOLO26 supporta vari formati di deployment, ciascuno progettato per ambienti e piattaforme hardware specifici. I formati chiave includono:

  • PyTorch per ricerca e prototipazione, con un'eccellente integrazione Python.
  • TorchScript per ambienti di produzione in cui Python non è disponibile.
  • ONNX per la compatibilità multipiattaforma e l'accelerazione hardware.
  • OpenVINO per prestazioni ottimizzate su hardware Intel.
  • TensorRT per l'inferenza ad alta velocità su GPU NVIDIA.

Ogni formato ha vantaggi unici. Per una guida dettagliata, consulta la nostra documentazione sul processo di esportazione.

Link to this sectionCome posso migliorare la velocità di inferenza del mio modello YOLO26 su una CPU Intel?#

Per migliorare la velocità di inferenza sulle CPU Intel, puoi eseguire il deployment del tuo modello YOLO26 utilizzando il toolkit OpenVINO di Intel. OpenVINO offre notevoli incrementi delle prestazioni ottimizzando i modelli per sfruttare in modo efficiente l'hardware Intel.

  1. Converti il tuo modello YOLO26 nel formato OpenVINO utilizzando la funzione model.export().
  2. Segui la guida di configurazione dettagliata nella documentazione di esportazione Intel OpenVINO.

Per ulteriori approfondimenti, dai un'occhiata al nostro post sul blog.

Link to this sectionPosso eseguire il deployment di modelli YOLO26 su dispositivi mobili?#

Sì, i modelli YOLO26 possono essere distribuiti su dispositivi mobili utilizzando TensorFlow Lite (TF Lite) sia per piattaforme Android che iOS. TF Lite è progettato per dispositivi mobili ed embedded, fornendo un'inferenza on-device efficiente.

Esempio
# Export command for TFLite format
model.export(format="tflite")

Per ulteriori dettagli sul deployment di modelli su dispositivi mobili, consulta la nostra guida all'integrazione di TF Lite.

Link to this sectionQuali fattori dovrei considerare quando scelgo un formato di deployment per il mio modello YOLO26?#

Quando scegli un formato di deployment per YOLO26, considera i seguenti fattori:

  • Prestazioni: Alcuni formati come TensorRT offrono velocità eccezionali sulle GPU NVIDIA, mentre OpenVINO è ottimizzato per l'hardware Intel.
  • Compatibilità: ONNX offre un'ampia compatibilità tra diverse piattaforme.
  • Facilità di integrazione: Formati come CoreML o TF Lite sono su misura per ecosistemi specifici come iOS e Android, rispettivamente.
  • Supporto della community: Formati come PyTorch e TensorFlow dispongono di ampie risorse di supporto della community.

Per un'analisi comparativa, consulta la nostra documentazione sui formati di esportazione.

Link to this sectionCome posso eseguire il deployment di modelli YOLO26 in un'applicazione web?#

Per distribuire modelli YOLO26 in un'applicazione web, puoi utilizzare TensorFlow.js (TF.js), che consente di eseguire modelli di machine learning direttamente nel browser. Questo approccio elimina la necessità di un'infrastruttura backend e offre prestazioni in tempo reale.

  1. Esporta il modello YOLO26 nel formato TF.js.
  2. Integra il modello esportato nella tua applicazione web.

Per istruzioni passo-passo, consulta la nostra guida sull'integrazione di TensorFlow.js.

Commenti