Link to this sectionDeployment#
Ultralytics Platform bietet umfassende Bereitstellungsoptionen, um deine YOLO Modelle in die Produktion zu überführen. Teste Modelle mit browserbasierter Inferenz, stelle sie auf dedizierten Endpunkten in 43 globalen Regionen bereit und überwache die Leistung in Echtzeit.
Watch: Get Started with Ultralytics Platform - Deploy
Link to this sectionÜbersicht#
Der Bereich Deployment hilft dir:
- Modelle direkt im Browser über den
PredictTab zu testen - Auf dedizierten Endpunkten in 43 globalen Regionen bereitzustellen
- Anfragemetriken, Logs und Gesundheitschecks zu überwachen
- Bei Leerlauf auf null zu skalieren (Bereitstellungen führen derzeit eine einzelne aktive Instanz aus)

Link to this sectionBereitstellungsoptionen#
Die Ultralytics Platform bietet mehrere Bereitstellungswege:
| Option | Beschreibung | Am besten für |
|---|---|---|
| Predict Tab | Browserbasierte Inferenz mit Bild, Webcam und Beispielen | Entwicklung, Validierung |
| Shared Inference | Multi-Tenant-Service in 3 Regionen | Geringe Nutzung, Tests |
| Dedicated Endpoints | Single-Tenant-Services in 43 Regionen | Produktion, niedrige Latenz |
Link to this sectionWorkflow#
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Phase | Beschreibung |
|---|---|
| Testen | Modell validieren mit dem Predict tab |
| Konfigurieren | Region und Bereitstellungsnamen auswählen (Bereitstellungen nutzen feste Standardressourcen) |
| Bereitstellen | Dedizierten Endpunkt über den Deploy tab erstellen |
| Überwachen | Anfragen, Latenz, Fehler und Logs in Monitoring nachverfolgen |
Link to this sectionArchitektur#
Link to this sectionShared Inference#
Der Shared Inference Service läuft in 3 Hauptregionen und leitet Anfragen automatisch basierend auf deiner Datenregion weiter:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Region | Standort |
|---|---|
| US | Iowa, USA |
| EU | Belgien, Europa |
| AP | Taiwan, Asien-Pazifik |
Link to this sectionDedicated Endpoints#
Stelle weltweit in 43 Regionen auf der Ultralytics Cloud bereit:
- Amerika: 14 Regionen
- Europa: 13 Regionen
- Asien-Pazifik: 12 Regionen
- Naher Osten & Afrika: 4 Regionen
Jeder Endpunkt ist ein Single-Tenant-Service mit:
- Standardressourcen von
1 CPU,2 GiBArbeitsspeicher,minInstances=0,maxInstances=1 - Skalierung auf null bei Leerlauf
- Eindeutiger Endpunkt-URL
- Unabhängiges Monitoring, Logs und Gesundheitschecks
Link to this sectionSeite Bereitstellungen#
Rufe die globale Bereitstellungsseite über die Seitenleiste unter Deploy auf. Diese Seite zeigt:
- Weltkarte mit Pins der bereitgestellten Regionen (interaktive Karte)
- Übersichtskarten: Gesamtanfragen (24h), aktive Bereitstellungen, Fehlerrate (24h), P95-Latenz (24h)
- Bereitstellungsliste mit drei Ansichtsmodi: Karten, kompakt und Tabelle
- Neue Bereitstellung Schaltfläche, um Endpunkte aus jedem abgeschlossenen Modell zu erstellen

Die Seite fragt normalerweise alle 15 Sekunden ab. Wenn sich Bereitstellungen in einem Übergangszustand befinden (creating, deploying oder stopping), erhöht sich das Polling für schnelleres Feedback auf alle 3 Sekunden.
Link to this sectionHauptfunktionen#
Link to this sectionGlobale Abdeckung#
Stelle in der Nähe deiner Nutzer in 43 Regionen bereit, die Folgendes abdecken:
- Nordamerika, Südamerika
- Europa, Naher Osten, Afrika
- Asien-Pazifik, Ozeanien
Link to this sectionSkalierungsverhalten#
Endpunkte verhalten sich derzeit wie folgt:
- Skalierung auf null: Keine Kosten bei Leerlauf (Standard)
- Einzelne aktive Instanz:
maxInstancesist derzeit in allen Plänen auf1begrenzt
Die Skalierung auf null ist standardmäßig aktiviert (Mindestinstanzen = 0). Du zahlst nur für die aktive Inferenzzeit.
Link to this sectionNiedrige Latenz#
Dedizierte Endpunkte bieten:
- Kaltstart: ~5-15 Sekunden (zwischengespeicherter Container), bis zu ~45 Sekunden (erste Bereitstellung)
- Warme Inferenz: 50-200ms (modellabhängig)
- Regionales Routing für optimale Leistung
Link to this sectionGesundheitschecks#
Jede laufende Bereitstellung enthält einen automatischen Gesundheitscheck mit:
- Live-Statusanzeige (gesund/ungesund)
- Anzeige der Antwortlatenz
- Automatischer erneuter Versuch bei Ungesundheit (Abfrage alle 20 Sekunden)
- Schaltfläche für manuelle Aktualisierung
Link to this sectionKurzanleitung#
Bereitstellung eines Modells in unter 2 Minuten:
- Trainiere ein Modell oder lade es in ein Projekt hoch
- Gehe zum Deploy Tab des Modells
- Wähle eine Region aus der Latenztabelle aus
- Klicke auf Deploy — dein Endpunkt ist live
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Sobald die Bereitstellung abgeschlossen ist, verwende die Endpunkt-URL mit deinem API-Schlüssel, um Inferenzanfragen von jeder Anwendung aus zu senden.
Link to this sectionSchnellzugriff#
- Inference: Modelle im Browser testen
- Endpoints: Dedizierte Endpunkte bereitstellen
- Monitoring: Bereitstellungsleistung verfolgen
Link to this sectionFAQ#
Link to this sectionWas ist der Unterschied zwischen Shared und Dedicated Inference?#
| Funktion | Shared | Dedicated |
|---|---|---|
| Latenz | Variabel | Konsistent |
| Kosten | Kostenlos (enthalten) | Kostenlos (basis), nutzungsabhängig (erweitert) |
| Skalierung | Begrenzt | Skalierung auf null, einzelne Instanz |
| Regionen | 3 | 43 |
| URL | Allgemein | Benutzerdefiniert |
| Rate | 20 Anfragen/Min | 20 Anfragen/Min über die Plattform; unbegrenzt über die direkte Endpunkt-URL |
Link to this sectionWie lange dauert die Bereitstellung?#
Die Bereitstellung eines dedizierten Endpunkts dauert typischerweise 1-2 Minuten:
- Image-Pull (~30s)
- Container-Start (~30s)
- Health-Check (~30s)
Link to this sectionKann ich mehrere Modelle bereitstellen?#
Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.
Link to this sectionWas passiert, wenn ein Endpunkt im Leerlauf ist?#
Bei aktiviertem Scale-to-Zero:
- Der Endpunkt wird nach Inaktivität heruntergefahren
- Die erste Anfrage löst einen Kaltstart aus
- Nachfolgende Anfragen erfolgen schnell
Erste Anfragen nach einer Leerlaufzeit lösen einen Kaltstart aus.