Distribuzione
Ultralytics Platform offre opzioni di distribuzione complete per mettere in produzione i tuoi modelli YOLO. Testa i modelli con l'Inference API, distribuisci su endpoint dedicati e monitora le prestazioni in tempo reale.
Panoramica
La sezione Distribuzione ti aiuta a:
- Testare i modelli direttamente nel browser
- Distribuire su endpoint dedicati in 43 regioni globali
- Monitorare le metriche delle richieste e i log
- Scalare automaticamente in base al traffico
Opzioni di Deployment
Ultralytics Platform offre molteplici percorsi di distribuzione:
| Opzione | Descrizione | Ideale per |
|---|---|---|
| Scheda Test | Test di inferenza basato su browser | Sviluppo, validazione |
| API Condivisa | Servizio di inferenza multi-tenant | Uso leggero, test |
| Endpoint Dedicati | Servizi di produzione single-tenant | Produzione, bassa latenza |
Flusso di Lavoro
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Fase | Descrizione |
|---|---|
| Test | Validare il modello con sample_images |
| Configura | Seleziona regione e opzioni di scalabilità |
| Distribuisci | Crea endpoint dedicato |
| Monitora | track richieste, latenza ed errori |
Architettura
Inferenza Condivisa
Il servizio di inferenza condiviso è operativo in 3 regioni chiave:
| Regione | Località |
|---|---|
| USA | Iowa, USA |
| UE | Belgio, Europa |
| AP | Taiwan, Asia-Pacifico |
Le richieste vengono instradate automaticamente alla regione dei tuoi dati.
Endpoint Dedicati
Effettua il deployment in 43 regioni in tutto il mondo:
- Americhe: 15 regioni
- Europa: 12 regioni
- Asia Pacifico: 16 regioni
Ogni endpoint è un servizio single-tenant con:
- Risorse di calcolo dedicate
- Scalabilità automatica (0-N istanze)
- URL personalizzato
- Monitoraggio indipendente
Caratteristiche principali
Copertura Globale
Effettua il deployment vicino ai tuoi utenti con 43 regioni che coprono:
- Nord America, Sud America
- Europa, Medio Oriente, Africa
- Asia Pacifico, Oceania
Auto-Scaling
Gli endpoint scalano automaticamente:
- Scalabilità a zero: Nessun costo quando inattivo
- Scalabilità verso l'alto: Gestisce i picchi di traffico
- Limiti configurabili: Imposta istanze min/max
Bassa Latenza
Gli endpoint dedicati offrono:
- Avvio a freddo: ~2-5 secondi
- Inferenza a caldo: 50-200 ms (dipendente dal modello)
- Routing regionale per prestazioni ottimali
Link Rapidi
- Inferenza: Testa i modelli nel browser
- Endpoint: Implementa endpoint dedicati
- Monitoraggio: Monitora le prestazioni del deployment
FAQ
Qual è la differenza tra inferenza condivisa e dedicata?
| Funzionalità | Condiviso | Dedicato |
|---|---|---|
| Latenza | Variabile | Costante |
| Costo | Pagamento per richiesta | Pagamento per tempo di attività |
| Scala | Limitato | Configurabile |
| Regioni | 3 | 43 |
| URL | Generico | Personalizzato |
Quanto tempo richiede la distribuzione?
Il deployment di un endpoint dedicato richiede tipicamente 1-2 minuti:
- Pull dell'immagine (~30s)
- Avvio del container (~30s)
- Health check (~30s)
È possibile distribuire più modelli?
Sì, ogni modello può avere più endpoint in diverse regioni. Non c'è un limite al numero totale di endpoint (soggetto al tuo piano).
Cosa succede quando un endpoint è inattivo?
Con scale-to-zero abilitato:
- L'endpoint si ridimensiona dopo inattività
- La prima richiesta attiva un cold start
- Le richieste successive sono veloci
Per evitare cold start, imposta le istanze minime > 0.