Vai al contenuto

Distribuzione

Ultralytics Platform offre opzioni di distribuzione complete per mettere in produzione i tuoi modelli YOLO. Testa i modelli con l'Inference API, distribuisci su endpoint dedicati e monitora le prestazioni in tempo reale.

Panoramica

La sezione Distribuzione ti aiuta a:

  • Testare i modelli direttamente nel browser
  • Distribuire su endpoint dedicati in 43 regioni globali
  • Monitorare le metriche delle richieste e i log
  • Scalare automaticamente in base al traffico

Opzioni di Deployment

Ultralytics Platform offre molteplici percorsi di distribuzione:

OpzioneDescrizioneIdeale per
Scheda TestTest di inferenza basato su browserSviluppo, validazione
API CondivisaServizio di inferenza multi-tenantUso leggero, test
Endpoint DedicatiServizi di produzione single-tenantProduzione, bassa latenza

Flusso di Lavoro

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
FaseDescrizione
TestValidare il modello con sample_images
ConfiguraSeleziona regione e opzioni di scalabilità
DistribuisciCrea endpoint dedicato
Monitoratrack richieste, latenza ed errori

Architettura

Inferenza Condivisa

Il servizio di inferenza condiviso è operativo in 3 regioni chiave:

RegioneLocalità
USAIowa, USA
UEBelgio, Europa
APTaiwan, Asia-Pacifico

Le richieste vengono instradate automaticamente alla regione dei tuoi dati.

Endpoint Dedicati

Effettua il deployment in 43 regioni in tutto il mondo:

  • Americhe: 15 regioni
  • Europa: 12 regioni
  • Asia Pacifico: 16 regioni

Ogni endpoint è un servizio single-tenant con:

  • Risorse di calcolo dedicate
  • Scalabilità automatica (0-N istanze)
  • URL personalizzato
  • Monitoraggio indipendente

Caratteristiche principali

Copertura Globale

Effettua il deployment vicino ai tuoi utenti con 43 regioni che coprono:

  • Nord America, Sud America
  • Europa, Medio Oriente, Africa
  • Asia Pacifico, Oceania

Auto-Scaling

Gli endpoint scalano automaticamente:

  • Scalabilità a zero: Nessun costo quando inattivo
  • Scalabilità verso l'alto: Gestisce i picchi di traffico
  • Limiti configurabili: Imposta istanze min/max

Bassa Latenza

Gli endpoint dedicati offrono:

  • Avvio a freddo: ~2-5 secondi
  • Inferenza a caldo: 50-200 ms (dipendente dal modello)
  • Routing regionale per prestazioni ottimali

FAQ

Qual è la differenza tra inferenza condivisa e dedicata?

FunzionalitàCondivisoDedicato
LatenzaVariabileCostante
CostoPagamento per richiestaPagamento per tempo di attività
ScalaLimitatoConfigurabile
Regioni343
URLGenericoPersonalizzato

Quanto tempo richiede la distribuzione?

Il deployment di un endpoint dedicato richiede tipicamente 1-2 minuti:

  1. Pull dell'immagine (~30s)
  2. Avvio del container (~30s)
  3. Health check (~30s)

È possibile distribuire più modelli?

Sì, ogni modello può avere più endpoint in diverse regioni. Non c'è un limite al numero totale di endpoint (soggetto al tuo piano).

Cosa succede quando un endpoint è inattivo?

Con scale-to-zero abilitato:

  • L'endpoint si ridimensiona dopo inattività
  • La prima richiesta attiva un cold start
  • Le richieste successive sono veloci

Per evitare cold start, imposta le istanze minime > 0.



📅 Creato 20 giorni fa ✏️ Aggiornato 14 giorni fa
glenn-jocher

Commenti