Meet YOLO26: next-gen vision AI.

Link to this sectionBereitstellung#

Ultralytics Platform bietet umfassende Bereitstellungsoptionen, um deine YOLO-Modelle in die Produktion zu bringen. Teste Modelle mit browserbasierter Inferenz, stelle sie auf dedizierten Endpunkten in 43 globalen Regionen bereit und überwache die Leistung in Echtzeit.



Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionÜbersicht#

Der Abschnitt Bereitstellung hilft dir bei Folgendem:

  • Testen von Modellen direkt im Browser mit dem Predict-Tab
  • Bereitstellen auf dedizierten Endpunkten in 43 globalen Regionen
  • Überwachen von Anfragemetriken, Logs und Gesundheitschecks
  • Skalierung auf Null bei Inaktivität (Bereitstellungen führen derzeit eine einzelne aktive Instanz aus)

Ultralytics Platform Deploy Page World Map With Overview Cards

Link to this sectionBereitstellungsoptionen#

Ultralytics Platform bietet mehrere Bereitstellungspfade:

OptionBeschreibungAm besten geeignet für
Predict-TabBrowserbasierte Inferenz mit Bild, Webcam und BeispielenEntwicklung, Validierung
Gemeinsame InferenzMulti-Tenant-Dienst über 3 RegionenLeichte Nutzung, Tests
Dedizierte EndpunkteSingle-Tenant-Dienste über 43 RegionenProduktion, geringe Latenz

Link to this sectionWorkflow#

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
PhaseBeschreibung
TestValidierung des Modells mit dem Predict-Tab
KonfigurierenWähle Region und Bereitstellungsname aus (Bereitstellungen nutzen feste Standardressourcen)
BereitstellenErstelle einen dedizierten Endpunkt über den Deploy-Tab
ÜberwachenVerfolge Anfragen, Latenz, Fehler und Logs unter Monitoring

Link to this sectionArchitektur#

Link to this sectionGemeinsame Inferenz#

Der Dienst für gemeinsame Inferenz läuft in 3 Schlüsselregionen und leitet Anfragen automatisch basierend auf deiner Datenregion weiter:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegionStandort
USIowa, USA
EUBelgien, Europa
APTaiwan, Asien-Pazifik

Link to this sectionDedizierte Endpunkte#

Bereitstellung in 43 Regionen weltweit auf Ultralytics Cloud:

  • Amerika: 14 Regionen
  • Europa: 13 Regionen
  • Asien-Pazifik: 12 Regionen
  • Naher Osten & Afrika: 4 Regionen

Jeder Endpunkt ist ein Single-Tenant-Dienst mit:

  • Standardressourcen von 1 CPU, 2 GiB Arbeitsspeicher, minInstances=0, maxInstances=1
  • Skalierung auf Null bei Inaktivität
  • Eindeutige Endpunkt-URL
  • Unabhängiges Monitoring, Logs und Gesundheitschecks

Link to this sectionBereitstellungsseite#

Greife über die Seitenleiste unter Deploy auf die globale Bereitstellungsseite zu. Diese Seite zeigt:

  • Weltkarte mit Pins der bereitgestellten Regionen (interaktive Karte)
  • Übersichtskarten: Gesamtanfragen (24h), aktive Bereitstellungen, Fehlerrate (24h), P95-Latenz (24h)
  • Bereitstellungsliste mit drei Ansichtsmodi: Karten, kompakt und Tabelle
  • Neue Bereitstellung-Schaltfläche zum Erstellen von Endpunkten aus jedem abgeschlossenen Modell

Ultralytics Platform Deploy Page Overview Cards And Deployments List

Automatisches Polling

Die Seite fragt normalerweise alle 15 Sekunden ab. Wenn sich Bereitstellungen in einem Übergangszustand befinden (creating, deploying oder stopping), erhöht sich die Abfrage auf alle 3 Sekunden für ein schnelleres Feedback.

Link to this sectionHauptmerkmale#

Link to this sectionGlobale Abdeckung#

Stelle in der Nähe deiner Benutzer bereit mit 43 Regionen, die Folgendes abdecken:

  • Nordamerika, Südamerika
  • Europa, Naher Osten, Afrika
  • Asien-Pazifik, Ozeanien

Link to this sectionSkalierungsverhalten#

Endpunkte verhalten sich derzeit wie folgt:

  • Skalierung auf Null: Keine Kosten bei Inaktivität (Standard)
  • Einzelne aktive Instanz: maxInstances ist derzeit auf allen Plänen auf 1 begrenzt
Kosteneinsparungen

Skalierung auf Null ist standardmäßig aktiviert (Mindestinstanzen = 0). Du zahlst nur für die aktive Inferenzzeit.

Link to this sectionGeringe Latenz#

Dedizierte Endpunkte bieten:

  • Kaltstart: ~5-15 Sekunden (zwischengespeicherter Container), bis zu ~45 Sekunden (erste Bereitstellung)
  • Warme Inferenz: 50-200ms (modellabhängig)
  • Regionales Routing für optimale Leistung

Link to this sectionGesundheitschecks#

Jede laufende Bereitstellung beinhaltet einen automatischen Gesundheitscheck mit:

  • Live-Statusanzeige (gesund/ungesund)
  • Anzeige der Antwortlatenz
  • Automatischer Wiederholungsversuch bei Ungesundheit (fragt alle 20 Sekunden ab)
  • Manuelle Aktualisierungsschaltfläche

Link to this sectionSchnellstart#

Stelle ein Modell in unter 2 Minuten bereit:

  1. Trainiere ein Modell oder lade es in ein Projekt hoch
  2. Gehe zum Deploy-Tab des Modells
  3. Wähle eine Region aus der Latenztabelle aus
  4. Klicke auf Deploy — dein Endpunkt ist live
Schnelle Bereitstellung
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Sobald bereitgestellt, verwende die Endpunkt-URL mit deinem API-Schlüssel, um Inferenzanfragen aus jeder Anwendung zu senden.

Link to this sectionSchnellzugriffe#

Link to this sectionFAQ#

Link to this sectionWas ist der Unterschied zwischen geteilter und dedizierter Inferenz?#

FunktionGeteiltDediziert
LatenzVariabelKonsistent
KostenKostenlos (inbegriffen)Kostenlos (basis), nutzungsbasiert (erweitert)
SkalierungBegrenztSkalierung auf Null, einzelne Instanz
Regionen343
URLGenerischBenutzerdefiniert
Rate20 Anfragen/MinUnbegrenzt

Link to this sectionWie lange dauert die Bereitstellung?#

Die Bereitstellung eines dedizierten Endpunkts dauert typischerweise 1-2 Minuten:

  1. Image-Pull (~30s)
  2. Container-Start (~30s)
  3. Gesundheitscheck (~30s)

Link to this sectionKann ich mehrere Modelle bereitstellen?#

Ja, jedes Modell kann mehrere Endpunkte in verschiedenen Regionen haben. Die Anzahl der Bereitstellungen ist je nach Plan begrenzt: Free 3, Pro 10, Enterprise unlimited.

Link to this sectionWas passiert, wenn ein Endpunkt im Leerlauf ist?#

Bei aktiviertem Scale-to-Zero:

  • Der Endpunkt wird nach Inaktivität herunterskaliert
  • Die erste Anfrage löst einen Kaltstart aus
  • Nachfolgende Anfragen sind schnell

Erste Anfragen nach einer Leerlaufzeit lösen einen Kaltstart aus.

Kommentare