Distribuzione
La piattaforma Ultralytics offre opzioni di deployment complete per mettere in produzione i tuoi modelli YOLO. Testa i modelli con inferenza basata su browser, effettua il deployment su endpoint dedicati in 43 regioni globali e monitora le prestazioni in tempo reale.
Guarda: Inizia a utilizzare Ultralytics - Implementazione
Panoramica
La sezione Distribuzione ti aiuta a:
- Test modelli direttamente nel browser con il
Predictscheda - Distribuire su endpoint dedicati in 43 regioni globali
- Monitora le metriche delle richieste, i log e i controlli di integrità
- Scala automaticamente in base al traffico (inclusa la scalabilità a zero)

Opzioni di Deployment
Ultralytics Platform offre molteplici percorsi di distribuzione:
| Opzione | Descrizione | Ideale per |
|---|---|---|
| Scheda Prevedi | Inferenza basata su browser con immagine, webcam ed esempi | Sviluppo, validazione |
| Inferenza Condivisa | Servizio multi-tenant distribuito su 3 regioni | Uso leggero, test |
| Endpoint Dedicati | Servizi single-tenant in 43 regioni | Produzione, bassa latenza |
Flusso di Lavoro
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Fase | Descrizione |
|---|---|
| Test | Convalidare il modello con il Predict scheda |
| Configura | Seleziona regione, risorse e nome del deployment |
| Distribuisci | Crea un endpoint dedicato da Deploy scheda |
| Monitora | Traccia richieste, latenza, errori e log in Monitoring |
Architettura
Inferenza Condivisa
Il servizio di inferenza condiviso opera in 3 regioni chiave, instradando automaticamente le richieste in base alla regione dei vostri dati:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| Regione | Località |
|---|---|
| USA | Iowa, USA |
| UE | Belgio, Europa |
| AP | Hong Kong, Asia-Pacifico |
Endpoint Dedicati
Implementa in 43 regioni in tutto il mondo su Ultralytics Cloud:
- Americhe: 14 regioni
- Europa: 13 regioni
- Asia-Pacifico: 12 regioni
- Medio Oriente e Africa: 4 regioni
Ogni endpoint è un servizio single-tenant con:
- Risorse di calcolo dedicate (CPU e memoria configurabili)
- Auto-scaling (scala a zero quando inattivo)
- URL endpoint univoco
- Monitoraggio indipendente, log e controlli di integrità
Pagina dei deployment
Accedi alla pagina delle distribuzioni globali dalla barra laterale sotto Deploy. Questa pagina mostra:
- Mappa del mondo con i pin delle regioni implementate (mappa interattiva)
- Schede di riepilogo: Richieste Totali (24h), Deployment Attivi, Tasso di Errore (24h), Latenza P95 (24h)
- Elenco dei deployment con tre modalità di visualizzazione: schede, compatta e tabella
- Nuovo Deployment pulsante per creare endpoint da qualsiasi modello completato

Polling Automatico
La pagina esegue il polling ogni 30 secondi per gli aggiornamenti delle metriche. Quando i deployment sono in uno stato transitorio (creazione, deployment, arresto), il polling aumenta a ogni 2-3 secondi per un feedback quasi istantaneo.
Caratteristiche principali
Copertura Globale
Effettua il deployment vicino ai tuoi utenti con 43 regioni che coprono:
- Nord America, Sud America
- Europa, Medio Oriente, Africa
- Asia Pacifico, Oceania
Auto-Scaling
Gli endpoint scalano automaticamente:
- Scalabilità a zero: Nessun costo inattivo (predefinito)
- Scalabilità verticale: Gestisce automaticamente i picchi di traffico
Risparmi sui Costi
Lo scale-to-zero è abilitato per impostazione predefinita (istanze minime = 0). Paghi solo per il tempo di inferenza attivo.
Bassa Latenza
Gli endpoint dedicati offrono:
- Avvio a freddo: ~5-15 secondi (container in cache), fino a ~45 secondi (primo deployment)
- Inferenza a caldo: 50-200 ms (dipendente dal modello)
- Routing regionale per prestazioni ottimali
Controlli dello stato
Ogni deployment in esecuzione include un controllo di integrità automatico con:
- Indicatore di stato in tempo reale (integro/non integro)
- Visualizzazione della latenza di risposta
- Riprova automatica in caso di stato non integro (verifica ogni 20 secondi)
- Pulsante di aggiornamento manuale
Guida rapida
Implementa un modello in meno di 2 minuti:
- Addestra o carica un modello su un progetto
- Vai alla scheda Deploy del modello
- Selezionare una regione dalla tabella delle latenze.
- Clicca Distribuisci — il tuo endpoint è attivo
Distribuzione Rapida
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Una volta deployato, utilizza l'URL dell'endpoint con la tua chiave API per inviare richieste di inferenza da qualsiasi applicazione.
Link Rapidi
- Inferenza: Testa i modelli nel browser
- Endpoint: Implementa endpoint dedicati
- Monitoraggio: Monitora le prestazioni del deployment
FAQ
Qual è la differenza tra inferenza condivisa e dedicata?
| Funzionalità | Condiviso | Dedicato |
|---|---|---|
| Latenza | Variabile | Costante |
| Costo | Gratuito (incluso) | Gratuito (versione base), a consumo (versione avanzata) |
| Scala | Limitato | Configurabile |
| Regioni | 3 | 43 |
| URL | Generico | Personalizzato |
| Tariffa | 20 richieste/min | Illimitato |
Quanto tempo richiede la distribuzione?
Il deployment di un endpoint dedicato richiede tipicamente 1-2 minuti:
- Pull dell'immagine (~30s)
- Avvio del container (~30s)
- Health check (~30s)
È possibile distribuire più modelli?
Sì, ogni modello può avere più endpoint in diverse regioni. Non c'è un limite al numero totale di endpoint (soggetto al tuo piano).
Cosa succede quando un endpoint è inattivo?
Con scale-to-zero abilitato:
- L'endpoint si ridimensiona dopo inattività
- La prima richiesta attiva un cold start
- Le richieste successive sono veloci
Le prime richieste dopo un periodo di inattività attivano un avvio a freddo.