Bereitstellung

Ultralytics Platform bietet umfassende Bereitstellungsoptionen, um deine YOLO-Modelle in die Produktion zu bringen. Teste Modelle mit browserbasierter Inferenz, stelle sie auf dedizierten Endpunkten in 43 globalen Regionen bereit und überwache die Leistung in Echtzeit.



Watch: Get Started with Ultralytics Platform - Deploy

Übersicht

Der Abschnitt Bereitstellung hilft dir bei Folgendem:

  • Testen von Modellen direkt im Browser mit dem Predict-Tab
  • Bereitstellen auf dedizierten Endpunkten in 43 globalen Regionen
  • Überwachen von Anfragemetriken, Logs und Gesundheitschecks
  • Skalierung auf Null bei Inaktivität (Bereitstellungen führen derzeit eine einzelne aktive Instanz aus)

Ultralytics Platform Deploy Page World Map With Overview Cards

Bereitstellungsoptionen

Ultralytics Platform bietet mehrere Bereitstellungspfade:

OptionBeschreibungAm besten geeignet für
Predict-TabBrowserbasierte Inferenz mit Bild, Webcam und BeispielenEntwicklung, Validierung
Gemeinsame InferenzMulti-Tenant-Dienst über 3 RegionenLeichte Nutzung, Tests
Dedizierte EndpunkteSingle-Tenant-Dienste über 43 RegionenProduktion, geringe Latenz

Workflow

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
PhaseBeschreibung
TestValidierung des Modells mit dem Predict-Tab
KonfigurierenWähle Region und Bereitstellungsname aus (Bereitstellungen nutzen feste Standardressourcen)
BereitstellenErstelle einen dedizierten Endpunkt über den Deploy-Tab
ÜberwachenVerfolge Anfragen, Latenz, Fehler und Logs unter Monitoring

Architektur

Gemeinsame Inferenz

Der Dienst für gemeinsame Inferenz läuft in 3 Schlüsselregionen und leitet Anfragen automatisch basierend auf deiner Datenregion weiter:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegionStandort
USIowa, USA
EUBelgien, Europa
APTaiwan, Asien-Pazifik

Dedizierte Endpunkte

Bereitstellung in 43 Regionen weltweit auf Ultralytics Cloud:

  • Amerika: 14 Regionen
  • Europa: 13 Regionen
  • Asien-Pazifik: 12 Regionen
  • Naher Osten & Afrika: 4 Regionen

Jeder Endpunkt ist ein Single-Tenant-Dienst mit:

  • Standardressourcen von 1 CPU, 2 GiB Arbeitsspeicher, minInstances=0, maxInstances=1
  • Skalierung auf Null bei Inaktivität
  • Eindeutige Endpunkt-URL
  • Unabhängiges Monitoring, Logs und Gesundheitschecks

Bereitstellungsseite

Greife über die Seitenleiste unter Deploy auf die globale Bereitstellungsseite zu. Diese Seite zeigt:

  • Weltkarte mit Pins der bereitgestellten Regionen (interaktive Karte)
  • Übersichtskarten: Gesamtanfragen (24h), aktive Bereitstellungen, Fehlerrate (24h), P95-Latenz (24h)
  • Bereitstellungsliste mit drei Ansichtsmodi: Karten, kompakt und Tabelle
  • Neue Bereitstellung-Schaltfläche zum Erstellen von Endpunkten aus jedem abgeschlossenen Modell

Ultralytics Platform Deploy Page Overview Cards And Deployments List

Automatisches Polling

Die Seite fragt normalerweise alle 15 Sekunden ab. Wenn sich Bereitstellungen in einem Übergangszustand befinden (creating, deploying oder stopping), erhöht sich die Abfrage auf alle 3 Sekunden für ein schnelleres Feedback.

Hauptmerkmale

Globale Abdeckung

Stelle in der Nähe deiner Benutzer bereit mit 43 Regionen, die Folgendes abdecken:

  • Nordamerika, Südamerika
  • Europa, Naher Osten, Afrika
  • Asien-Pazifik, Ozeanien

Skalierungsverhalten

Endpunkte verhalten sich derzeit wie folgt:

  • Skalierung auf Null: Keine Kosten bei Inaktivität (Standard)
  • Einzelne aktive Instanz: maxInstances ist derzeit auf allen Plänen auf 1 begrenzt
Kosteneinsparungen

Skalierung auf Null ist standardmäßig aktiviert (Mindestinstanzen = 0). Du zahlst nur für die aktive Inferenzzeit.

Geringe Latenz

Dedizierte Endpunkte bieten:

  • Kaltstart: ~5-15 Sekunden (zwischengespeicherter Container), bis zu ~45 Sekunden (erste Bereitstellung)
  • Warme Inferenz: 50-200ms (modellabhängig)
  • Regionales Routing für optimale Leistung

Gesundheitschecks

Jede laufende Bereitstellung beinhaltet einen automatischen Gesundheitscheck mit:

  • Live-Statusanzeige (gesund/ungesund)
  • Anzeige der Antwortlatenz
  • Automatischer Wiederholungsversuch bei Ungesundheit (fragt alle 20 Sekunden ab)
  • Manuelle Aktualisierungsschaltfläche

Schnellstart

Stelle ein Modell in unter 2 Minuten bereit:

  1. Trainiere ein Modell oder lade es in ein Projekt hoch
  2. Gehe zum Deploy-Tab des Modells
  3. Wähle eine Region aus der Latenztabelle aus
  4. Klicke auf Deploy — dein Endpunkt ist live
Schnelle Bereitstellung
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Sobald bereitgestellt, verwende die Endpunkt-URL mit deinem API-Schlüssel, um Inferenzanfragen aus jeder Anwendung zu senden.

Schnellzugriffe

FAQ

Was ist der Unterschied zwischen geteilter und dedizierter Inferenz?

FunktionGeteiltDediziert
LatenzVariabelKonsistent
KostenKostenlos (inbegriffen)Kostenlos (basis), nutzungsbasiert (erweitert)
SkalierungBegrenztSkalierung auf Null, einzelne Instanz
Regionen343
URLGenerischBenutzerdefiniert
Rate20 Anfragen/MinUnbegrenzt

Wie lange dauert die Bereitstellung?

Die Bereitstellung eines dedizierten Endpunkts dauert typischerweise 1-2 Minuten:

  1. Image-Pull (~30s)
  2. Container-Start (~30s)
  3. Gesundheitscheck (~30s)

Kann ich mehrere Modelle bereitstellen?

Ja, jedes Modell kann mehrere Endpunkte in verschiedenen Regionen haben. Die Anzahl der Bereitstellungen ist je nach Plan begrenzt: Free 3, Pro 10, Enterprise unlimited.

Was passiert, wenn ein Endpunkt im Leerlauf ist?

Bei aktiviertem Scale-to-Zero:

  • Der Endpunkt wird nach Inaktivität herunterskaliert
  • Die erste Anfrage löst einen Kaltstart aus
  • Nachfolgende Anfragen sind schnell

Erste Anfragen nach einer Leerlaufzeit lösen einen Kaltstart aus.

Kommentare