Vai al contenuto

Distribuzione

Ultralytics offre opzioni di implementazione complete per mettere in produzione i YOLO . Testate i modelli con l'API di inferenza, implementateli su endpoint dedicati e monitorate le prestazioni in tempo reale.

Panoramica

La sezione Distribuzione ti aiuta a:

  • Modelli di prova direttamente nel browser
  • Distribuzione su endpoint dedicati in 43 regioni globali
  • Monitorare le metriche e i registri delle richieste
  • Scalabilità automatica in base al traffico

Opzioni di implementazione

Ultralytics offre diversi percorsi di implementazione:

OpzioneDescrizioneIdeale per
Scheda TestTest di inferenza basato su browserSviluppo, convalida
API condivisaServizio di inferenza multi-tenantUso leggero, test
Endpoint dedicatiServizi di produzione per un unico clienteProduzione, bassa latenza

Flusso di lavoro

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
PalcoscenicoDescrizione
ProvaConvalida il modello con immagini campione
ConfigurareSeleziona la regione e le opzioni di ridimensionamento
DistribuireCrea endpoint dedicato
MonitorTraccia richieste, latenza ed errori

Architettura

Inferenza condivisa

Il servizio di inferenza condiviso è attivo in 3 regioni chiave:

RegionePosizione
Stati UnitiCentro degli Stati Uniti (Iowa)
UEEuropa occidentale (Belgio)
APAsia Pacifico (Hong Kong)

Le richieste vengono indirizzate automaticamente alla tua regione dati.

Endpoint dedicati

Distribuzione in 43 regioni in tutto il mondo:

  • Americhe: 15 regioni
  • Europa: 12 regioni
  • Asia-Pacifico: 16 regioni

Ogni endpoint è un servizio single-tenant con:

  • Risorse di calcolo dedicate
  • Scalabilità automatica (0-N istanze)
  • URL personalizzato
  • Monitoraggio indipendente

Caratteristiche principali

Copertura globale

Distribuisci vicino ai tuoi utenti con 43 regioni che coprono:

  • Nord America, Sud America
  • Europa, Medio Oriente, Africa
  • Asia-Pacifico, Oceania

Ridimensionamento automatico

Gli endpoint vengono scalati automaticamente:

  • Scala a zero: nessun costo quando inattivo
  • Scalabilità: gestione dei picchi di traffico
  • Limiti configurabili: imposta il numero minimo/massimo di istanze

Bassa latenza

Gli endpoint dedicati forniscono:

  • Avvio a freddo: ~2-5 secondi
  • Inferenza a caldo: 50-200 ms (a seconda del modello)
  • Routing regionale per prestazioni ottimali

FAQ

Qual è la differenza tra inferenza condivisa e dedicata?

FunzionalitàCondivisoDedicato
LatenzaVariabileCoerente
CostoPagamento per richiestaPagare per il tempo di attività
ScalaLimitatoConfigurabile
Regioni343
URLGenericoPersonalizzato

Quanto tempo richiede l'implementazione?

L'implementazione di endpoint dedicati richiede in genere 1-2 minuti:

  1. Richiesta immagine (~30 s)
  2. Avvio del container (~30 secondi)
  3. Controllo dello stato di salute (~30 secondi)

Posso implementare più modelli?

Sì, ogni modello può avere più endpoint in regioni diverse. Non ci sono limiti al numero totale di endpoint (in base al piano sottoscritto).

Cosa succede quando un endpoint è inattivo?

Con l'opzione "scale-to-zero" abilitata:

  • L'endpoint si ridimensiona dopo un periodo di inattività
  • La prima richiesta attiva l'avvio a freddo
  • Le richieste successive sono veloci

Per evitare avvii a freddo, impostare il numero minimo di istanze > 0.



📅 Creato 0 giorni fa ✏️ Aggiornato 0 giorni fa
glenn-jocher

Commenti