Bereitstellung
Ultralytics Platform bietet umfassende Bereitstellungsoptionen, um deine YOLO-Modelle in die Produktion zu bringen. Teste Modelle mit browserbasierter Inferenz, stelle sie auf dedizierten Endpunkten in 43 globalen Regionen bereit und überwache die Leistung in Echtzeit.
Watch: Get Started with Ultralytics Platform - Deploy
Übersicht
Der Abschnitt Bereitstellung hilft dir bei Folgendem:
- Testen von Modellen direkt im Browser mit dem
Predict-Tab - Bereitstellen auf dedizierten Endpunkten in 43 globalen Regionen
- Überwachen von Anfragemetriken, Logs und Gesundheitschecks
- Skalierung auf Null bei Inaktivität (Bereitstellungen führen derzeit eine einzelne aktive Instanz aus)

Bereitstellungsoptionen
Ultralytics Platform bietet mehrere Bereitstellungspfade:
| Option | Beschreibung | Am besten geeignet für |
|---|---|---|
| Predict-Tab | Browserbasierte Inferenz mit Bild, Webcam und Beispielen | Entwicklung, Validierung |
| Gemeinsame Inferenz | Multi-Tenant-Dienst über 3 Regionen | Leichte Nutzung, Tests |
| Dedizierte Endpunkte | Single-Tenant-Dienste über 43 Regionen | Produktion, geringe Latenz |
Workflow
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Phase | Beschreibung |
|---|---|
| Test | Validierung des Modells mit dem Predict-Tab |
| Konfigurieren | Wähle Region und Bereitstellungsname aus (Bereitstellungen nutzen feste Standardressourcen) |
| Bereitstellen | Erstelle einen dedizierten Endpunkt über den Deploy-Tab |
| Überwachen | Verfolge Anfragen, Latenz, Fehler und Logs unter Monitoring |
Architektur
Gemeinsame Inferenz
Der Dienst für gemeinsame Inferenz läuft in 3 Schlüsselregionen und leitet Anfragen automatisch basierend auf deiner Datenregion weiter:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Region | Standort |
|---|---|
| US | Iowa, USA |
| EU | Belgien, Europa |
| AP | Taiwan, Asien-Pazifik |
Dedizierte Endpunkte
Bereitstellung in 43 Regionen weltweit auf Ultralytics Cloud:
- Amerika: 14 Regionen
- Europa: 13 Regionen
- Asien-Pazifik: 12 Regionen
- Naher Osten & Afrika: 4 Regionen
Jeder Endpunkt ist ein Single-Tenant-Dienst mit:
- Standardressourcen von
1 CPU,2 GiBArbeitsspeicher,minInstances=0,maxInstances=1 - Skalierung auf Null bei Inaktivität
- Eindeutige Endpunkt-URL
- Unabhängiges Monitoring, Logs und Gesundheitschecks
Bereitstellungsseite
Greife über die Seitenleiste unter Deploy auf die globale Bereitstellungsseite zu. Diese Seite zeigt:
- Weltkarte mit Pins der bereitgestellten Regionen (interaktive Karte)
- Übersichtskarten: Gesamtanfragen (24h), aktive Bereitstellungen, Fehlerrate (24h), P95-Latenz (24h)
- Bereitstellungsliste mit drei Ansichtsmodi: Karten, kompakt und Tabelle
- Neue Bereitstellung-Schaltfläche zum Erstellen von Endpunkten aus jedem abgeschlossenen Modell

Die Seite fragt normalerweise alle 15 Sekunden ab. Wenn sich Bereitstellungen in einem Übergangszustand befinden (creating, deploying oder stopping), erhöht sich die Abfrage auf alle 3 Sekunden für ein schnelleres Feedback.
Hauptmerkmale
Globale Abdeckung
Stelle in der Nähe deiner Benutzer bereit mit 43 Regionen, die Folgendes abdecken:
- Nordamerika, Südamerika
- Europa, Naher Osten, Afrika
- Asien-Pazifik, Ozeanien
Skalierungsverhalten
Endpunkte verhalten sich derzeit wie folgt:
- Skalierung auf Null: Keine Kosten bei Inaktivität (Standard)
- Einzelne aktive Instanz:
maxInstancesist derzeit auf allen Plänen auf1begrenzt
Skalierung auf Null ist standardmäßig aktiviert (Mindestinstanzen = 0). Du zahlst nur für die aktive Inferenzzeit.
Geringe Latenz
Dedizierte Endpunkte bieten:
- Kaltstart: ~5-15 Sekunden (zwischengespeicherter Container), bis zu ~45 Sekunden (erste Bereitstellung)
- Warme Inferenz: 50-200ms (modellabhängig)
- Regionales Routing für optimale Leistung
Gesundheitschecks
Jede laufende Bereitstellung beinhaltet einen automatischen Gesundheitscheck mit:
- Live-Statusanzeige (gesund/ungesund)
- Anzeige der Antwortlatenz
- Automatischer Wiederholungsversuch bei Ungesundheit (fragt alle 20 Sekunden ab)
- Manuelle Aktualisierungsschaltfläche
Schnellstart
Stelle ein Modell in unter 2 Minuten bereit:
- Trainiere ein Modell oder lade es in ein Projekt hoch
- Gehe zum Deploy-Tab des Modells
- Wähle eine Region aus der Latenztabelle aus
- Klicke auf Deploy — dein Endpunkt ist live
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Sobald bereitgestellt, verwende die Endpunkt-URL mit deinem API-Schlüssel, um Inferenzanfragen aus jeder Anwendung zu senden.
Schnellzugriffe
- Inferenz: Modelle im Browser testen
- Endpunkte: Dedizierte Endpunkte bereitstellen
- Monitoring: Leistung der Bereitstellung verfolgen
FAQ
Was ist der Unterschied zwischen geteilter und dedizierter Inferenz?
| Funktion | Geteilt | Dediziert |
|---|---|---|
| Latenz | Variabel | Konsistent |
| Kosten | Kostenlos (inbegriffen) | Kostenlos (basis), nutzungsbasiert (erweitert) |
| Skalierung | Begrenzt | Skalierung auf Null, einzelne Instanz |
| Regionen | 3 | 43 |
| URL | Generisch | Benutzerdefiniert |
| Rate | 20 Anfragen/Min | Unbegrenzt |
Wie lange dauert die Bereitstellung?
Die Bereitstellung eines dedizierten Endpunkts dauert typischerweise 1-2 Minuten:
- Image-Pull (~30s)
- Container-Start (~30s)
- Gesundheitscheck (~30s)
Kann ich mehrere Modelle bereitstellen?
Ja, jedes Modell kann mehrere Endpunkte in verschiedenen Regionen haben. Die Anzahl der Bereitstellungen ist je nach Plan begrenzt: Free 3, Pro 10, Enterprise unlimited.
Was passiert, wenn ein Endpunkt im Leerlauf ist?
Bei aktiviertem Scale-to-Zero:
- Der Endpunkt wird nach Inaktivität herunterskaliert
- Die erste Anfrage löst einen Kaltstart aus
- Nachfolgende Anfragen sind schnell
Erste Anfragen nach einer Leerlaufzeit lösen einen Kaltstart aus.