Link to this sectionDistribuzione#

Q: Qual è la differenza tra inferenza condivisa e dedicata?

| Funzionalità | Condivisa | Dedicata | | ------------ | ------------------ | ------------------------------------------------------------------- | | Latenza | Variabile | Costante | | Costo | Gratuito (incluso) | Gratuito (di base), basato sull'utilizzo (avanzato) | | Scala | Limitata | Riduzione a zero, istanza singola | | Regioni | 3 | 43 | | URL | Generico | Personalizzata | | Tariffa | 20 rich/min | 20 rich/min tramite piattaforma; illimitato su URL endpoint diretto |

Ultralytics Platform fornisce opzioni di distribuzione complete per mettere in produzione i tuoi modelli YOLO. Testa i modelli con l'inferenza basata su browser, distribuisci su endpoint dedicati in 43 regioni globali e monitora le prestazioni in tempo reale.

Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionPanoramica#

La sezione Distribuzione ti aiuta a:

Testare i modelli direttamente nel browser con la scheda Predict
Distribuire su endpoint dedicati in 43 regioni globali
Monitorare metriche delle richieste, log e controlli di integrità
Ridurre a zero quando inattivo (le distribuzioni attualmente eseguono una singola istanza attiva)

Mappa del mondo della pagina di distribuzione di Ultralytics Platform con schede di panoramica

Link to this sectionOpzioni di distribuzione#

Ultralytics Platform offre molteplici percorsi di distribuzione:

Opzione	Descrizione	Ideale per
Scheda Predict	Inferenza basata su browser con immagini, webcam ed esempi	Sviluppo, validazione
Inferenza condivisa	Servizio multi-tenant in 3 regioni	Uso leggero, test
Endpoint dedicati	Servizi single-tenant in 43 regioni	Produzione, bassa latenza

Link to this sectionWorkflow#

graph LR
    A[✅ Test]:::start --> B[⚙️ Configure]:::proc
    B --> C[🌐 Deploy]:::proc
    C --> D[📊 Monitor]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef out fill:#9C27B0,color:#fff

Fase	Descrizione
Test	Valida il modello con la scheda `Predict`
Configura	Seleziona la regione e il nome della distribuzione (le distribuzioni utilizzano risorse predefinite fisse)
Deploy	Crea un endpoint dedicato dalla scheda `Deploy`
Monitora	Tieni traccia di richieste, latenza, errori e log in Monitoraggio

Link to this sectionArchitettura#

Link to this sectionInferenza condivisa#

Il servizio di inferenza condivisa è attivo in 3 regioni chiave, instradando automaticamente le richieste in base alla regione dei tuoi dati:

graph TB
    User[User Request]:::start --> API[Platform API]:::proc
    API --> Router{Region Router}:::decide
    Router -->|US users| US["US Predict Service<br/>Iowa"]:::out
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]:::out
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef decide fill:#FF9800,color:#fff
    classDef out fill:#9C27B0,color:#fff

Regione	Posizione
US	Iowa, USA
EU	Belgio, Europa
AP	Taiwan, Asia-Pacifico

Link to this sectionEndpoint dedicati#

Distribuisci in 43 regioni in tutto il mondo su Ultralytics Cloud:

Americhe: 14 regioni
Europa: 13 regioni
Asia-Pacifico: 12 regioni
Medio Oriente e Africa: 4 regioni

Ogni endpoint è un servizio single-tenant con:

Risorse predefinite di 1 CPU, 2 GiB di memoria, minInstances=0, maxInstances=1
Riduzione a zero quando inattivo
URL endpoint univoco
Monitoraggio, log e controlli di integrità indipendenti

Link to this sectionPagina Distribuzioni#

Accedi alla pagina delle distribuzioni globali dalla barra laterale sotto Deploy. Questa pagina mostra:

Mappa del mondo con pin delle regioni distribuite (mappa interattiva)
Schede di panoramica: Richieste totali (24h), Distribuzioni attive, Tasso di errore (24h), Latenza P95 (24h)
Elenco distribuzioni con tre modalità di visualizzazione: schede, compatta e tabella
Pulsante Nuova distribuzione per creare endpoint da qualsiasi modello completato

Schede panoramica e elenco distribuzioni della pagina di distribuzione di Ultralytics Platform

Polling automatico

La pagina esegue il polling ogni 15 secondi normalmente. Quando le distribuzioni sono in uno stato di transizione (creating, deploying o stopping), il polling aumenta a ogni 3 secondi per un feedback più rapido.

Link to this sectionCaratteristiche principali#

Link to this sectionCopertura globale#

Distribuisci vicino ai tuoi utenti con 43 regioni che coprono:

Nord America, Sud America
Europa, Medio Oriente, Africa
Asia Pacifico, Oceania

Link to this sectionComportamento di scalabilità#

Gli endpoint attualmente si comportano come segue:

Riduzione a zero: Nessun costo quando inattivo (impostazione predefinita)
Singola istanza attiva: maxInstances è attualmente limitato a 1 su tutti i piani

Risparmio sui costi

La riduzione a zero è abilitata per impostazione predefinita (min istanze = 0). Paghi solo per il tempo di inferenza attivo.

Link to this sectionBassa latenza#

Gli endpoint dedicati forniscono:

Avvio a freddo: ~5-15 secondi (container memorizzato nella cache), fino a ~45 secondi (prima distribuzione)
Inferenza a caldo: 50-200ms (a seconda del modello)
Instradamento regionale per prestazioni ottimali

Link to this sectionControlli di integrità#

Ogni distribuzione in esecuzione include un controllo di integrità automatico con:

Indicatore di stato in tempo reale (sano/non sano)
Visualizzazione della latenza di risposta
Riprova automatica quando non è sano (esegue il polling ogni 20 secondi)
Pulsante di aggiornamento manuale

Link to this sectionAvvio rapido#

Distribuisci un modello in meno di 2 minuti:

Addestra o carica un modello in un progetto
Vai alla scheda Deploy del modello
Seleziona una regione dalla tabella della latenza
Fai clic su Deploy: il tuo endpoint è attivo

Distribuzione rapida

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una volta distribuito, usa l'URL dell'endpoint con la tua chiave API per inviare richieste di inferenza da qualsiasi applicazione.

Link to this sectionLink rapidi#

Inferenza: Testa i modelli nel browser
Endpoint: Distribuisci endpoint dedicati
Monitoraggio: Tieni traccia delle prestazioni di distribuzione

Link to this sectionFAQ#

Link to this sectionQual è la differenza tra inferenza condivisa e dedicata?#

Funzionalità	Condivisa	Dedicata
Latenza	Variabile	Costante
Costo	Gratuito (incluso)	Gratuito (di base), basato sull'utilizzo (avanzato)
Scala	Limitata	Riduzione a zero, istanza singola
Regioni	3	43
URL	Generico	Personalizzata
Tariffa	20 rich/min	20 rich/min tramite piattaforma; illimitato su URL endpoint diretto

Link to this sectionQuanto tempo richiede il deployment?#

Il deployment su endpoint dedicato richiede solitamente 1-2 minuti:

Pull dell'immagine (~30s)
Avvio del container (~30s)
Controllo di integrità (~30s)

Link to this sectionPosso distribuire più modelli?#

Sì, ogni modello può avere più endpoint in diverse regioni. I limiti di deployment variano in base al piano: Free 3, Pro 10, Enterprise unlimited.

Link to this sectionCosa succede quando un endpoint è inattivo?#

Con lo scale-to-zero abilitato:

L'endpoint si riduce dopo l'inattività
La prima richiesta attiva un cold start
Le richieste successive sono rapide

Le prime richieste dopo un periodo di inattività attivano un cold start.

Contributori

GLglenn-jocher¹¹ RAraimbekovm¹ RIRizwanMunawar¹ SEsergiuwaxmann¹

Creato 14 gen 2026Aggiornato 2 settimane fa