Deployment

Ultralytics Platform fornisce opzioni di distribuzione complete per mettere in produzione i tuoi modelli YOLO. Testa i modelli con l'inferenza basata su browser, distribuiscili su endpoint dedicati in 43 regioni globali e monitora le prestazioni in tempo reale.



Watch: Get Started with Ultralytics Platform - Deploy

Panoramica

La sezione Deployment ti aiuta a:

  • Testare i modelli direttamente nel browser con la scheda Predict
  • Distribuire su endpoint dedicati in 43 regioni globali
  • Monitorare metriche delle richieste, log e controlli di integrità
  • Effettuare lo scale to zero quando sei inattivo (le distribuzioni attualmente eseguono una singola istanza attiva)

Ultralytics Platform Deploy Page World Map With Overview Cards

Opzioni di Deployment

Ultralytics Platform offre molteplici percorsi di distribuzione:

OpzioneDescrizioneIdeale per
Scheda PredictInferenza basata su browser con immagine, webcam ed esempiSviluppo, convalida
Inferenza CondivisaServizio multi-tenant in 3 regioniUtilizzo leggero, test
Endpoint DedicatiServizi single-tenant in 43 regioniProduzione, bassa latenza

Flusso di lavoro

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
FaseDescrizione
TestConvalida il modello con la scheda Predict
ConfiguraSeleziona la regione e il nome della distribuzione (le distribuzioni utilizzano risorse predefinite fisse)
DistribuisciCrea un endpoint dedicato dalla scheda Deploy
MonitoraTieni traccia di richieste, latenza, errori e log in Monitoring

Architettura

Inferenza Condivisa

Il servizio di inferenza condivisa viene eseguito in 3 regioni chiave, instradando automaticamente le richieste in base alla regione dei tuoi dati:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
Regione (Region)Posizione
USAIowa, USA
UEBelgio, Europa
APTaiwan, Asia-Pacifico

Endpoint Dedicati

Distribuisci in 43 regioni in tutto il mondo su Ultralytics Cloud:

  • Americhe: 14 regioni
  • Europa: 13 regioni
  • Asia-Pacifico: 12 regioni
  • Medio Oriente e Africa: 4 regioni

Ogni endpoint è un servizio single-tenant con:

  • Risorse predefinite di 1 CPU, 2 GiB di memoria, minInstances=0, maxInstances=1
  • Scale-to-zero quando inattivo
  • URL dell'endpoint univoco
  • Monitoraggio, log e controlli di integrità indipendenti

Pagina Deployments

Accedi alla pagina globale delle distribuzioni dalla barra laterale sotto Deploy. Questa pagina mostra:

  • Mappa del mondo con i pin delle regioni distribuite (mappa interattiva)
  • Schede di panoramica: Richieste totali (24h), Distribuzioni attive, Tasso di errore (24h), Latenza P95 (24h)
  • Elenco distribuzioni con tre modalità di visualizzazione: schede, compatta e tabella
  • Pulsante New Deployment per creare endpoint da qualsiasi modello completato

Ultralytics Platform Deploy Page Overview Cards And Deployments List

Polling Automatico

La pagina esegue il polling ogni 15 secondi normalmente. Quando le distribuzioni sono in uno stato di transizione (creating, deploying o stopping), il polling aumenta a ogni 3 secondi per un feedback più rapido.

Caratteristiche principali

Copertura Globale

Distribuisci vicino ai tuoi utenti con 43 regioni che coprono:

  • Nord America, Sud America
  • Europa, Medio Oriente, Africa
  • Asia Pacifico, Oceania

Comportamento di Scaling

Gli endpoint attualmente si comportano come segue:

  • Scale to zero: Nessun costo quando inattivo (impostazione predefinita)
  • Singola istanza attiva: maxInstances è attualmente limitato a 1 su tutti i piani
Risparmi sui costi

Lo scale-to-zero è abilitato per impostazione predefinita (min instances = 0). Paghi solo per il tempo di inferenza attivo.

Bassa Latenza

Gli endpoint dedicati forniscono:

  • Cold start: ~5-15 secondi (contenitore memorizzato nella cache), fino a ~45 secondi (prima distribuzione)
  • Inferenza a caldo: 50-200ms (dipendente dal modello)
  • Instradamento regionale per prestazioni ottimali

Controlli di Integrità

Ogni distribuzione in esecuzione include un controllo di integrità automatico con:

  • Indicatore di stato live (sano/non sano)
  • Visualizzazione della latenza di risposta
  • Riprova automatica quando non è sano (polling ogni 20 secondi)
  • Pulsante di aggiornamento manuale

Avvio rapido

Distribuisci un modello in meno di 2 minuti:

  1. Addestra o carica un modello su un progetto
  2. Vai alla scheda Deploy del modello
  3. Seleziona una regione dalla tabella di latenza
  4. Clicca su Deploy — il tuo endpoint è attivo
Quick Deploy
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una volta distribuito, usa l'URL dell'endpoint con la tua API key per inviare richieste di inferenza da qualsiasi applicazione.

  • Inferenza: Testa i modelli nel browser
  • Endpoint: Distribuisci endpoint dedicati
  • Monitoraggio: Tieni traccia delle prestazioni della distribuzione

FAQ

Qual è la differenza tra inferenza condivisa e dedicata?

CaratteristicaCondivisaDedicato
LatenzaVariabileCoerente
CostoGratuito (incluso)Gratuito (base), basato sull'utilizzo (avanzato)
ScalaLimitataScale-to-zero, istanza singola
Regioni343
URLGenericoPersonalizzato
Tasso20 rich/minIllimitato

Quanto tempo richiede la distribuzione?

La distribuzione dell'endpoint dedicato richiede solitamente 1-2 minuti:

  1. Pull dell'immagine (~30s)
  2. Avvio del contenitore (~30s)
  3. Controllo di integrità (~30s)

Posso distribuire più modelli?

Sì, ogni modello può avere più endpoint in regioni diverse. Il numero di distribuzioni è limitato dal piano: Free 3, Pro 10, Enterprise unlimited.

Cosa succede quando un endpoint è inattivo?

Con lo scale-to-zero abilitato:

  • L'endpoint si riduce dopo l'inattività
  • La prima richiesta attiva un avvio a freddo (cold start)
  • Le richieste successive sono veloci

Le prime richieste dopo un periodo di inattività attivano un avvio a freddo.

Commenti