Distribuzione
Ultralytics offre opzioni di implementazione complete per mettere in produzione i YOLO . Testate i modelli con l'API di inferenza, implementateli su endpoint dedicati e monitorate le prestazioni in tempo reale.
Panoramica
La sezione Distribuzione ti aiuta a:
- Modelli di prova direttamente nel browser
- Distribuzione su endpoint dedicati in 43 regioni globali
- Monitorare le metriche e i registri delle richieste
- Scalabilità automatica in base al traffico
Opzioni di implementazione
Ultralytics offre diversi percorsi di implementazione:
| Opzione | Descrizione | Ideale per |
|---|---|---|
| Scheda Test | Test di inferenza basato su browser | Sviluppo, convalida |
| API condivisa | Servizio di inferenza multi-tenant | Uso leggero, test |
| Endpoint dedicati | Servizi di produzione per un unico cliente | Produzione, bassa latenza |
Flusso di lavoro
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Palcoscenico | Descrizione |
|---|---|
| Prova | Convalida il modello con immagini campione |
| Configurare | Seleziona la regione e le opzioni di ridimensionamento |
| Distribuire | Crea endpoint dedicato |
| Monitor | Traccia richieste, latenza ed errori |
Architettura
Inferenza condivisa
Il servizio di inferenza condiviso è attivo in 3 regioni chiave:
| Regione | Posizione |
|---|---|
| Stati Uniti | Centro degli Stati Uniti (Iowa) |
| UE | Europa occidentale (Belgio) |
| AP | Asia Pacifico (Hong Kong) |
Le richieste vengono indirizzate automaticamente alla tua regione dati.
Endpoint dedicati
Distribuzione in 43 regioni in tutto il mondo:
- Americhe: 15 regioni
- Europa: 12 regioni
- Asia-Pacifico: 16 regioni
Ogni endpoint è un servizio single-tenant con:
- Risorse di calcolo dedicate
- Scalabilità automatica (0-N istanze)
- URL personalizzato
- Monitoraggio indipendente
Caratteristiche principali
Copertura globale
Distribuisci vicino ai tuoi utenti con 43 regioni che coprono:
- Nord America, Sud America
- Europa, Medio Oriente, Africa
- Asia-Pacifico, Oceania
Ridimensionamento automatico
Gli endpoint vengono scalati automaticamente:
- Scala a zero: nessun costo quando inattivo
- Scalabilità: gestione dei picchi di traffico
- Limiti configurabili: imposta il numero minimo/massimo di istanze
Bassa latenza
Gli endpoint dedicati forniscono:
- Avvio a freddo: ~2-5 secondi
- Inferenza a caldo: 50-200 ms (a seconda del modello)
- Routing regionale per prestazioni ottimali
Collegamenti rapidi
- Inferenza: Testare i modelli nel browser
- Endpoint: Distribuire endpoint dedicati
- Monitoraggio: Monitoraggio delle prestazioni di distribuzione
FAQ
Qual è la differenza tra inferenza condivisa e dedicata?
| Funzionalità | Condiviso | Dedicato |
|---|---|---|
| Latenza | Variabile | Coerente |
| Costo | Pagamento per richiesta | Pagare per il tempo di attività |
| Scala | Limitato | Configurabile |
| Regioni | 3 | 43 |
| URL | Generico | Personalizzato |
Quanto tempo richiede l'implementazione?
L'implementazione di endpoint dedicati richiede in genere 1-2 minuti:
- Richiesta immagine (~30 s)
- Avvio del container (~30 secondi)
- Controllo dello stato di salute (~30 secondi)
Posso implementare più modelli?
Sì, ogni modello può avere più endpoint in regioni diverse. Non ci sono limiti al numero totale di endpoint (in base al piano sottoscritto).
Cosa succede quando un endpoint è inattivo?
Con l'opzione "scale-to-zero" abilitata:
- L'endpoint si ridimensiona dopo un periodo di inattività
- La prima richiesta attiva l'avvio a freddo
- Le richieste successive sono veloci
Per evitare avvii a freddo, impostare il numero minimo di istanze > 0.