Link to this sectionDedicated Endpoints#
Die Ultralytics Platform ermöglicht die Bereitstellung von YOLO-Modellen auf dedizierten Endpunkten in 43 globalen Regionen. Jeder Endpunkt ist ein Single-Tenant-Dienst mit Scale-to-Zero-Verhalten, einer eindeutigen Endpunkt-URL und unabhängigem Monitoring.

Link to this sectionEndpunkt erstellen#
Link to this sectionÜber den Reiter „Deploy“#
Stelle ein Modell über dessen Deploy-Reiter bereit:
- Navigiere zu deinem Modell
- Klicke auf den Reiter Deploy
- Wähle eine Region auf der interaktiven Weltkarte aus – die Regionen sind nach der Latenz von deinem Standort aus farblich auf einem Grün-Rot-Verlauf kodiert (schnellere Regionen sind grüner, langsamere Regionen rötlicher)
- Klicke in der Zeile der Region auf Deploy
Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Stadt der Region generiert (z. B. yolo26n-iowa).
Link to this sectionÜber die Seite „Deployments“#
Erstelle eine Bereitstellung über die globale Deploy-Seite in der Seitenleiste:
- Klicke auf New Deployment
- Wähle ein Modell aus dem Modellauswahlmenü
- Wähle eine Region auf der Karte oder in der Tabelle aus
- Überprüfe den automatisch generierten Namen der Bereitstellung (editierbar) und die Standardressourcen
- Klicke auf Deploy Model

Link to this sectionDeployment-Lebenszyklus#
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: DeleteLink to this sectionRegionsauswahl#
Wähle aus 43 Regionen weltweit. Die interaktive Regionskarte und die Tabelle zeigen:
- Regions-Pins: Farblich kodiert nach Latenz auf einem Grün-Rot-Verlauf (schnellere Regionen sind grüner, langsamere Regionen rötlicher)
- Bereitgestellte Regionen: Hervorgehoben mit einer „Deployed“-Plakette
- Bereitstellung läuft: Animierte Pulsanzeige
- Bidirektionale Hervorhebung: Das Bewegen des Mauszeigers über die Karte hebt die Tabellenzeile hervor und umgekehrt

Die Regionstabelle im Deploy-Reiter des Modells enthält:
| Spalte | Beschreibung |
|---|---|
| Standort | Stadt und Land mit Flaggensymbol |
| Zone | Regionskennung |
| Latenz | Gemessene Ping-Zeit (Median aus 3 Pings) |
| Entfernung | Entfernung von deinem Standort in km |
| Aktionen | Deploy-Schaltfläche oder „Deployed“-Statusplakette |
Der New Deployment-Dialog (von der globalen Deploy-Seite aus) zeigt eine einfachere Regionstabelle mit nur den Spalten Standort, Latenz und Auswählen.
Wähle die für deine Nutzer am nächsten gelegene Region für die geringste Latenz. Verwende die Rescan-Schaltfläche, um die Latenz von deinem aktuellen Standort aus neu zu messen.
Link to this sectionVerfügbare Regionen#
| Zone | Standort |
|---|---|
| us-central1 | Iowa, USA |
| us-east1 | South Carolina, USA |
| us-east4 | Northern Virginia, USA |
| us-east5 | Columbus, USA |
| us-south1 | Dallas, USA |
| us-west1 | Oregon, USA |
| us-west2 | Los Angeles, USA |
| us-west3 | Salt Lake City, USA |
| us-west4 | Las Vegas, USA |
| northamerica-northeast1 | Montreal, Canada |
| northamerica-northeast2 | Toronto, Canada |
| northamerica-south1 | Queretaro, Mexico |
| southamerica-east1 | Sao Paulo, Brazil |
| southamerica-west1 | Santiago, Chile |
Link to this sectionEndpunkt-Konfiguration#
Link to this sectionDialog „New Deployment“#
Der Dialog New Deployment bietet:
| Einstellung | Beschreibung | Standard |
|---|---|---|
| Modell | Aus fertigen Modellen auswählen | - |
| Region | Deployment-Region | - |
| Bereitstellungsname | Automatisch generiert, bearbeitbar | - |
| CPU-Kerne | Fester Standardwert | 1 |
| Arbeitsspeicher (GB) | Fester Standardwert | 2 |

Bereitstellungen verwenden feste Standardwerte von 1 CPU, 2 GiB Arbeitsspeicher, minInstances = 0 und maxInstances = 1. Sie skalieren auf Null, wenn sie im Leerlauf sind, sodass du nur für die aktive Inferenzzeit zahlst.
Der Bereitstellungsname wird automatisch aus dem Modellnamen und der Stadt der Region generiert (z. B. yolo26n-iowa). Wenn du dasselbe Modell erneut in derselben Region bereitstellst, wird ein numerisches Suffix hinzugefügt (z. B. yolo26n-iowa-2).
Link to this sectionBereitstellungs-Tab (Quick Deploy)#
Bei der Bereitstellung über den Deploy-Tab des Modells werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Arbeitsspeicher) und aktivierter Scale-to-Zero-Funktion erstellt. Der Bereitstellungsname wird automatisch generiert.
Link to this sectionEndpunkte verwalten#
Link to this sectionAnsichtsmodi#
Die Liste der Bereitstellungen unterstützt drei Ansichtsmodi:
| Modus | Beschreibung |
|---|---|
| Karten | Detaillierte Karten mit Logs, Code-Beispielen und Vorhersage-Panel |
| Kompakt | Raster aus kleineren Karten mit wichtigen Metriken |
| Tabelle | Datentabelle mit sortierbaren Spalten und Suchfunktion |

Link to this sectionBereitstellungskarte (Kartenansicht)#
Jede Bereitstellungskarte in der Kartenansicht zeigt:
- Kopfzeile: Name, Regionenflagge, Status-Badge, Schaltflächen für Start/Stopp/Löschen
- Endpunkt-URL: Kopierbare URL mit Link zur API-Dokumentation
- Metriken: Anzahl der Anfragen (24h), P95-Latenz, Fehlerrate
- Health-Check: Live-Statusanzeige mit Latenz und manueller Aktualisierung
- Tabs:
Logs,CodeundPredict
Der Logs-Tab zeigt aktuelle Protokolleinträge mit Schweregradfilter (Alle / Fehler). Der Code-Tab zeigt gebrauchsfertige Code-Beispiele in Python, JavaScript und cURL mit deiner tatsächlichen Endpunkt-URL und deinem API-Key. Der Predict-Tab bietet ein Inline-Vorhersage-Panel zum direkten Testen auf der Bereitstellung.
Link to this sectionBereitstellungsstatus#
| Status | Beschreibung |
|---|---|
| Creating | Bereitstellung wird eingerichtet |
| Deploying | Container wird gestartet |
| Ready | Endpunkt ist aktiv und akzeptiert Anfragen |
| Stopping | Endpunkt wird heruntergefahren |
| Stopped | Endpunkt ist pausiert (keine Abrechnung) |
| Fehlgeschlagen | Bereitstellung fehlgeschlagen (siehe Fehlermeldung) |
Link to this sectionEndpunkt-URL#
Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:
https://predict-abc123.run.app

Klicke auf die Kopieren-Schaltfläche, um die URL zu kopieren. Klicke auf das Dokumentations-Symbol, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.
Link to this sectionLebenszyklus-Management#
Steuere den Status deines Endpunkts:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| Aktion | Beschreibung |
|---|---|
| Start | Einen gestoppten Endpunkt fortsetzen |
| Stop | Den Endpunkt pausieren (keine Abrechnung) |
| Löschen | Endpunkt dauerhaft entfernen |
Link to this sectionEndpunkt stoppen#
Stoppe einen Endpunkt, um die Abrechnung zu pausieren:
- Klicke auf das Pausen-Symbol auf der Bereitstellungskarte
- Der Endpunktstatus ändert sich zu "Stopping" und dann zu "Stopped"
Gestoppte Endpunkte:
- Akzeptieren keine Anfragen
- Verursachen keine Kosten
- Können jederzeit neu gestartet werden
Link to this sectionEndpunkt löschen#
Einen Endpunkt dauerhaft entfernen:
- Klicke auf das Löschen-Symbol (Papierkorb) auf der Bereitstellungskarte
- Bestätige das Löschen im Dialog
Das Löschen erfolgt sofort und dauerhaft. Du kannst jederzeit einen neuen Endpunkt erstellen.
Link to this sectionEndpunkte verwenden#
Link to this sectionAuthentifizierung#
Jede Bereitstellung wird mit einem API-Key aus deinem Konto erstellt. Füge ihn in Anfragen hinzu:
Authorization: Bearer YOUR_API_KEYDas Präfix des API-Keys wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generiere Keys unter API Keys.
Link to this sectionKeine Ratenbegrenzungen#
Anfragen, die direkt an die URL deines dedizierten Endpunkts gesendet werden, unterliegen nicht den Ratenbegrenzungen der Platform API — der Durchsatz ist nur durch die CPU-, Arbeitsspeicher- und Skalierungskonfiguration deines Endpunkts begrenzt. (Anfragen, die über die Platform API weitergeleitet werden, wie z. B. der Test im Browser, nutzen weiterhin das Standardlimit von 20 Anfragen/Min für Vorhersagen.) Dies ist ein entscheidender Vorteil gegenüber der geteilten Inferenz, die auf 20 Anfragen/Min pro API-Key begrenzt ist.
Link to this sectionAnfragebeispiel#
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())Link to this sectionAnfrage-Parameter#
| Parameter | Typ | Standard | Bereich | Beschreibung |
|---|---|---|---|---|
file | Datei | - | - | Bild- oder Videodatei (erforderlich) |
conf | float | 0.25 | 0.01 – 1.0 | Minimaler Konfidenz-Schwellenwert |
iou | float | 0,7 | 0.0 – 0.95 | NMS IoU-Schwellenwert |
imgsz | int | 640 | 32 – 1280 | Eingabebildgröße in Pixeln |
normalize | bool | false | - | BBox-Koordinaten als 0 – 1 zurückgeben |
decimals | int | 5 | 0 – 10 | Dezimalpräzision für Koordinatenwerte |
source | string | - | - | Bild-URL oder base64-String (Alternative zu file) |
Dedizierte Endpunkte akzeptieren sowohl Bilder als auch Videos über den file-Parameter.
- Bildformate (bis zu 100 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- Videoformate (bis zu 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
Jeder Videofram wird einzeln verarbeitet und die Ergebnisse werden pro Frame zurückgegeben. Du kannst alternativ eine öffentliche Bild-URL oder ein base64-kodiertes Bild über den source-Parameter anstelle von file übergeben.
Link to this sectionAntwortformat#
Gleich wie bei der geteilten Inferenz mit aufgabenspezifischen Feldern.
Link to this sectionPreise#
Grundlegende dedizierte Endpunkte sind auf allen Plänen kostenlos. Konfigurationen mit höheren Ressourcen (mehr vCPUs, mehr Arbeitsspeicher, Warmstart) werden in Zukunft eine nutzungsbasierte Preisgestaltung bieten.
- Nutze Scale-to-Zero (Standard), damit Endpunkte nur laufen, wenn sie Anfragen empfangen
- Lege eine angemessene maximale Anzahl an Instanzen für deinen Datenverkehr fest
- Überwache die Nutzung im Monitoring-Dashboard
Link to this sectionFAQ#
Link to this sectionWie viele Endpunkte kann ich erstellen?#
Die Endpunkt-Limits hängen von deinem Plan ab:
- Free: Bis zu 3 Deployments
- Pro: Bis zu 10 Deployments
- Enterprise: Unbegrenzte Deployments
Jedes Modell kann weiterhin in mehreren Regionen innerhalb deines Planzugriffs bereitgestellt werden.
Link to this sectionKann ich die Region nach dem Deployment ändern?#
Nein, Regionen sind festgelegt. Um die Region zu ändern:
- Lösche den bestehenden Endpunkt
- Erstelle einen neuen Endpunkt in der gewünschten Region
Link to this sectionWie gehe ich mit einem Multi-Region-Deployment um?#
Für eine globale Abdeckung:
- Stelle in mehreren Regionen bereit
- Nutze einen Load Balancer oder DNS-Routing
- Route Benutzer zum nächstgelegenen Endpunkt
Link to this sectionWie lange ist die Kaltstartzeit?#
Die Kaltstartzeit hängt von der Modellgröße ab und davon, ob der Container bereits in der Region zwischengespeichert (cached) ist. Typische Bereiche:
| Szenario | Kaltstart |
|---|---|
| Zwischengespeicherter Container | ~5-15 Sekunden |
| Erstes Deployment/Region | ~15-45 Sekunden |
Der Health-Check verwendet ein 55-Sekunden-Timeout, um auch bei schlechtesten Kaltstart-Bedingungen zu funktionieren.
Link to this sectionKann ich benutzerdefinierte Domains verwenden?#
Benutzerdefinierte Domains kommen bald. Derzeit verwenden Endpunkte plattformgenerierte URLs.