Meet YOLO26: next-gen vision AI.

Link to this sectionDeployment#

Ultralytics Platform bietet umfassende Bereitstellungsoptionen, um deine YOLO Modelle in die Produktion zu überführen. Teste Modelle mit browserbasierter Inferenz, stelle sie auf dedizierten Endpunkten in 43 globalen Regionen bereit und überwache die Leistung in Echtzeit.



Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionÜbersicht#

Der Bereich Deployment hilft dir:

  • Modelle direkt im Browser über den Predict Tab zu testen
  • Auf dedizierten Endpunkten in 43 globalen Regionen bereitzustellen
  • Anfragemetriken, Logs und Gesundheitschecks zu überwachen
  • Bei Leerlauf auf null zu skalieren (Bereitstellungen führen derzeit eine einzelne aktive Instanz aus)

Ultralytics Platform Deploy Page World Map With Overview Cards

Link to this sectionBereitstellungsoptionen#

Die Ultralytics Platform bietet mehrere Bereitstellungswege:

OptionBeschreibungAm besten für
Predict TabBrowserbasierte Inferenz mit Bild, Webcam und BeispielenEntwicklung, Validierung
Shared InferenceMulti-Tenant-Service in 3 RegionenGeringe Nutzung, Tests
Dedicated EndpointsSingle-Tenant-Services in 43 RegionenProduktion, niedrige Latenz

Link to this sectionWorkflow#

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
PhaseBeschreibung
TestenModell validieren mit dem Predict tab
KonfigurierenRegion und Bereitstellungsnamen auswählen (Bereitstellungen nutzen feste Standardressourcen)
BereitstellenDedizierten Endpunkt über den Deploy tab erstellen
ÜberwachenAnfragen, Latenz, Fehler und Logs in Monitoring nachverfolgen

Link to this sectionArchitektur#

Link to this sectionShared Inference#

Der Shared Inference Service läuft in 3 Hauptregionen und leitet Anfragen automatisch basierend auf deiner Datenregion weiter:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegionStandort
USIowa, USA
EUBelgien, Europa
APTaiwan, Asien-Pazifik

Link to this sectionDedicated Endpoints#

Stelle weltweit in 43 Regionen auf der Ultralytics Cloud bereit:

  • Amerika: 14 Regionen
  • Europa: 13 Regionen
  • Asien-Pazifik: 12 Regionen
  • Naher Osten & Afrika: 4 Regionen

Jeder Endpunkt ist ein Single-Tenant-Service mit:

  • Standardressourcen von 1 CPU, 2 GiB Arbeitsspeicher, minInstances=0, maxInstances=1
  • Skalierung auf null bei Leerlauf
  • Eindeutiger Endpunkt-URL
  • Unabhängiges Monitoring, Logs und Gesundheitschecks

Link to this sectionSeite Bereitstellungen#

Rufe die globale Bereitstellungsseite über die Seitenleiste unter Deploy auf. Diese Seite zeigt:

  • Weltkarte mit Pins der bereitgestellten Regionen (interaktive Karte)
  • Übersichtskarten: Gesamtanfragen (24h), aktive Bereitstellungen, Fehlerrate (24h), P95-Latenz (24h)
  • Bereitstellungsliste mit drei Ansichtsmodi: Karten, kompakt und Tabelle
  • Neue Bereitstellung Schaltfläche, um Endpunkte aus jedem abgeschlossenen Modell zu erstellen

Ultralytics Platform Deploy Page Overview Cards And Deployments List

Automatisches Polling

Die Seite fragt normalerweise alle 15 Sekunden ab. Wenn sich Bereitstellungen in einem Übergangszustand befinden (creating, deploying oder stopping), erhöht sich das Polling für schnelleres Feedback auf alle 3 Sekunden.

Link to this sectionHauptfunktionen#

Link to this sectionGlobale Abdeckung#

Stelle in der Nähe deiner Nutzer in 43 Regionen bereit, die Folgendes abdecken:

  • Nordamerika, Südamerika
  • Europa, Naher Osten, Afrika
  • Asien-Pazifik, Ozeanien

Link to this sectionSkalierungsverhalten#

Endpunkte verhalten sich derzeit wie folgt:

  • Skalierung auf null: Keine Kosten bei Leerlauf (Standard)
  • Einzelne aktive Instanz: maxInstances ist derzeit in allen Plänen auf 1 begrenzt
Kosteneinsparungen

Die Skalierung auf null ist standardmäßig aktiviert (Mindestinstanzen = 0). Du zahlst nur für die aktive Inferenzzeit.

Link to this sectionNiedrige Latenz#

Dedizierte Endpunkte bieten:

  • Kaltstart: ~5-15 Sekunden (zwischengespeicherter Container), bis zu ~45 Sekunden (erste Bereitstellung)
  • Warme Inferenz: 50-200ms (modellabhängig)
  • Regionales Routing für optimale Leistung

Link to this sectionGesundheitschecks#

Jede laufende Bereitstellung enthält einen automatischen Gesundheitscheck mit:

  • Live-Statusanzeige (gesund/ungesund)
  • Anzeige der Antwortlatenz
  • Automatischer erneuter Versuch bei Ungesundheit (Abfrage alle 20 Sekunden)
  • Schaltfläche für manuelle Aktualisierung

Link to this sectionKurzanleitung#

Bereitstellung eines Modells in unter 2 Minuten:

  1. Trainiere ein Modell oder lade es in ein Projekt hoch
  2. Gehe zum Deploy Tab des Modells
  3. Wähle eine Region aus der Latenztabelle aus
  4. Klicke auf Deploy — dein Endpunkt ist live
Schnellbereitstellung
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Sobald die Bereitstellung abgeschlossen ist, verwende die Endpunkt-URL mit deinem API-Schlüssel, um Inferenzanfragen von jeder Anwendung aus zu senden.

Link to this sectionSchnellzugriff#

Link to this sectionFAQ#

Link to this sectionWas ist der Unterschied zwischen Shared und Dedicated Inference?#

FunktionSharedDedicated
LatenzVariabelKonsistent
KostenKostenlos (enthalten)Kostenlos (basis), nutzungsabhängig (erweitert)
SkalierungBegrenztSkalierung auf null, einzelne Instanz
Regionen343
URLAllgemeinBenutzerdefiniert
Rate20 Anfragen/Min20 Anfragen/Min über die Plattform; unbegrenzt über die direkte Endpunkt-URL

Link to this sectionWie lange dauert die Bereitstellung?#

Die Bereitstellung eines dedizierten Endpunkts dauert typischerweise 1-2 Minuten:

  1. Image-Pull (~30s)
  2. Container-Start (~30s)
  3. Health-Check (~30s)

Link to this sectionKann ich mehrere Modelle bereitstellen?#

Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.

Link to this sectionWas passiert, wenn ein Endpunkt im Leerlauf ist?#

Bei aktiviertem Scale-to-Zero:

  • Der Endpunkt wird nach Inaktivität heruntergefahren
  • Die erste Anfrage löst einen Kaltstart aus
  • Nachfolgende Anfragen erfolgen schnell

Erste Anfragen nach einer Leerlaufzeit lösen einen Kaltstart aus.

Kommentare