Vai al contenuto

Distribuzione

La piattaforma Ultralytics offre opzioni di deployment complete per mettere in produzione i tuoi modelli YOLO. Testa i modelli con inferenza basata su browser, effettua il deployment su endpoint dedicati in 43 regioni globali e monitora le prestazioni in tempo reale.



Guarda: Inizia a utilizzare Ultralytics - Implementazione

Panoramica

La sezione Distribuzione ti aiuta a:

  • Test modelli direttamente nel browser con il Predict scheda
  • Distribuire su endpoint dedicati in 43 regioni globali
  • Monitora le metriche delle richieste, i log e i controlli di integrità
  • Scala automaticamente in base al traffico (inclusa la scalabilità a zero)

Piattaforma Ultralytics Pagina di Distribuzione Mappa del Mondo Con Schede Panoramica

Opzioni di Deployment

Ultralytics Platform offre molteplici percorsi di distribuzione:

OpzioneDescrizioneIdeale per
Scheda PrevediInferenza basata su browser con immagine, webcam ed esempiSviluppo, validazione
Inferenza CondivisaServizio multi-tenant distribuito su 3 regioniUso leggero, test
Endpoint DedicatiServizi single-tenant in 43 regioniProduzione, bassa latenza

Flusso di Lavoro

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
FaseDescrizione
TestConvalidare il modello con il Predict scheda
ConfiguraSeleziona regione, risorse e nome del deployment
DistribuisciCrea un endpoint dedicato da Deploy scheda
MonitoraTraccia richieste, latenza, errori e log in Monitoring

Architettura

Inferenza Condivisa

Il servizio di inferenza condiviso opera in 3 regioni chiave, instradando automaticamente le richieste in base alla regione dei vostri dati:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegioneLocalità
USAIowa, USA
UEBelgio, Europa
APHong Kong, Asia-Pacifico

Endpoint Dedicati

Implementa in 43 regioni in tutto il mondo su Ultralytics Cloud:

  • Americhe: 14 regioni
  • Europa: 13 regioni
  • Asia-Pacifico: 12 regioni
  • Medio Oriente e Africa: 4 regioni

Ogni endpoint è un servizio single-tenant con:

  • Risorse di calcolo dedicate (CPU e memoria configurabili)
  • Auto-scaling (scala a zero quando inattivo)
  • URL endpoint univoco
  • Monitoraggio indipendente, log e controlli di integrità

Pagina dei deployment

Accedi alla pagina delle distribuzioni globali dalla barra laterale sotto Deploy. Questa pagina mostra:

  • Mappa del mondo con i pin delle regioni implementate (mappa interattiva)
  • Schede di riepilogo: Richieste Totali (24h), Deployment Attivi, Tasso di Errore (24h), Latenza P95 (24h)
  • Elenco dei deployment con tre modalità di visualizzazione: schede, compatta e tabella
  • Nuovo Deployment pulsante per creare endpoint da qualsiasi modello completato

Piattaforma Ultralytics Pagina di Distribuzione Schede Panoramica e Elenco Distribuzioni

Polling Automatico

La pagina esegue il polling ogni 30 secondi per gli aggiornamenti delle metriche. Quando i deployment sono in uno stato transitorio (creazione, deployment, arresto), il polling aumenta a ogni 2-3 secondi per un feedback quasi istantaneo.

Caratteristiche principali

Copertura Globale

Effettua il deployment vicino ai tuoi utenti con 43 regioni che coprono:

  • Nord America, Sud America
  • Europa, Medio Oriente, Africa
  • Asia Pacifico, Oceania

Auto-Scaling

Gli endpoint scalano automaticamente:

  • Scalabilità a zero: Nessun costo inattivo (predefinito)
  • Scalabilità verticale: Gestisce automaticamente i picchi di traffico

Risparmi sui Costi

Lo scale-to-zero è abilitato per impostazione predefinita (istanze minime = 0). Paghi solo per il tempo di inferenza attivo.

Bassa Latenza

Gli endpoint dedicati offrono:

  • Avvio a freddo: ~5-15 secondi (container in cache), fino a ~45 secondi (primo deployment)
  • Inferenza a caldo: 50-200 ms (dipendente dal modello)
  • Routing regionale per prestazioni ottimali

Controlli dello stato

Ogni deployment in esecuzione include un controllo di integrità automatico con:

  • Indicatore di stato in tempo reale (integro/non integro)
  • Visualizzazione della latenza di risposta
  • Riprova automatica in caso di stato non integro (verifica ogni 20 secondi)
  • Pulsante di aggiornamento manuale

Guida rapida

Implementa un modello in meno di 2 minuti:

  1. Addestra o carica un modello su un progetto
  2. Vai alla scheda Deploy del modello
  3. Selezionare una regione dalla tabella delle latenze.
  4. Clicca Distribuisci — il tuo endpoint è attivo

Distribuzione Rapida

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una volta deployato, utilizza l'URL dell'endpoint con la tua chiave API per inviare richieste di inferenza da qualsiasi applicazione.

FAQ

Qual è la differenza tra inferenza condivisa e dedicata?

FunzionalitàCondivisoDedicato
LatenzaVariabileCostante
CostoGratuito (incluso)Gratuito (versione base), a consumo (versione avanzata)
ScalaLimitatoConfigurabile
Regioni343
URLGenericoPersonalizzato
Tariffa20 richieste/minIllimitato

Quanto tempo richiede la distribuzione?

Il deployment di un endpoint dedicato richiede tipicamente 1-2 minuti:

  1. Pull dell'immagine (~30s)
  2. Avvio del container (~30s)
  3. Health check (~30s)

È possibile distribuire più modelli?

Sì, ogni modello può avere più endpoint in diverse regioni. Non c'è un limite al numero totale di endpoint (soggetto al tuo piano).

Cosa succede quando un endpoint è inattivo?

Con scale-to-zero abilitato:

  • L'endpoint si ridimensiona dopo inattività
  • La prima richiesta attiva un cold start
  • Le richieste successive sono veloci

Le prime richieste dopo un periodo di inattività attivano un avvio a freddo.



📅 Creato 2 mesi fa ✏️ Aggiornato 8 giorni fa
glenn-jocherRizwanMunawarsergiuwaxmann

Commenti