Dedizierte Endpunkte
Die Ultralytics Platform ermöglicht die Bereitstellung von YOLO-Modellen auf dedizierten Endpunkten in 43 globalen Regionen. Jeder Endpunkt ist ein Single-Tenant-Dienst mit Scale-to-Zero-Verhalten, einer eindeutigen Endpunkt-URL und unabhängiger Überwachung.

Endpunkt erstellen
Vom Bereitstellungs-Tab aus
Stelle ein Modell über dessen Deploy-Tab bereit:
- Navigiere zu deinem Modell
- Klicke auf den Tab Deploy
- Wähle eine Region auf der interaktiven Weltkarte aus – die Regionen sind nach Latenz von deinem Standort aus farblich gekennzeichnet (grün < 100ms, gelb < 200ms, rot > 200ms)
- Klicke in der Regionszeile auf Deploy
Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Regionsstadt generiert (z. B. yolo26n-iowa).
Von der Bereitstellungs-Seite aus
Erstelle eine Bereitstellung über die globale Deploy-Seite in der Seitenleiste:
- Klicke auf New Deployment
- Wähle ein Modell aus dem Modellauswahlmenü
- Wähle eine Region auf der Karte oder in der Tabelle aus
- Überprüfe den automatisch generierten Bereitstellungsnamen (bearbeitbar) und die Standardressourcen
- Klicke auf Deploy Model

Deployment-Lebenszyklus
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: DeleteRegion auswählen
Wähle aus 43 Regionen weltweit. Die interaktive Regionskarte und die Tabelle zeigen:
- Regions-Pins: Farblich gekennzeichnet nach Latenz (grün < 100ms, gelb < 200ms, rot > 200ms)
- Bereitgestellte Regionen: Mit einem "Deployed"-Badge hervorgehoben
- Bereitstellung läuft: Animierter Puls-Indikator
- Bidirektionale Hervorhebung: Wenn du auf der Karte mit der Maus darüberfährst, wird die Tabellenzeile hervorgehoben und umgekehrt

Die Regionstabelle auf dem Deploy-Tab des Modells enthält:
| Spalte | Beschreibung |
|---|---|
| Standort | Stadt und Land mit Flaggensymbol |
| Zone | Regionskennung |
| Latenz | Gemessene Ping-Zeit (Median von 3 Pings) |
| Entfernung | Entfernung von deinem Standort in km |
| Aktionen | Bereitstellungs-Schaltfläche oder "Deployed"-Status-Badge |
Der New Deployment-Dialog (von der globalen Deploy-Seite) zeigt eine einfachere Regionstabelle mit nur den Spalten Standort, Latenz und Auswählen.
Wähle die Region, die deinen Benutzern am nächsten liegt, für die niedrigste Latenz. Verwende die Schaltfläche Rescan, um die Latenz von deinem aktuellen Standort erneut zu messen.
Verfügbare Regionen
| Zone | Standort |
|---|---|
| us-central1 | Iowa, USA |
| us-east1 | South Carolina, USA |
| us-east4 | Northern Virginia, USA |
| us-east5 | Columbus, USA |
| us-south1 | Dallas, USA |
| us-west1 | Oregon, USA |
| us-west2 | Los Angeles, USA |
| us-west3 | Salt Lake City, USA |
| us-west4 | Las Vegas, USA |
| northamerica-northeast1 | Montreal, Kanada |
| northamerica-northeast2 | Toronto, Kanada |
| northamerica-south1 | Queretaro, Mexiko |
| southamerica-east1 | Sao Paulo, Brasilien |
| southamerica-west1 | Santiago, Chile |
Endpunkt-Konfiguration
Dialog für neue Bereitstellung
Der Dialog New Deployment bietet:
| Einstellung | Beschreibung | Standard |
|---|---|---|
| Modell | Wähle aus abgeschlossenen Modellen aus | - |
| Region | Bereitstellungsregion | - |
| Bereitstellungsname | Automatisch generiert, bearbeitbar | - |
| CPU-Kerne | Fester Standardwert | 1 |
| Speicher (GB) | Fester Standardwert | 2 |

Bereitstellungen nutzen feste Standardwerte von 1 CPU, 2 GiB Speicher, minInstances = 0 und maxInstances = 1. Sie skalieren auf null, wenn sie inaktiv sind, sodass du nur für die aktive Inferenzzeit bezahlst.
Der Bereitstellungsname wird automatisch aus dem Modellnamen und der Stadt der Region generiert (z. B. yolo26n-iowa). Wenn du dasselbe Modell erneut in derselben Region bereitstellst, wird ein numerisches Suffix hinzugefügt (z. B. yolo26n-iowa-2).
Tab „Bereitstellen“ (Schnelle Bereitstellung)
Bei der Bereitstellung über den Deploy-Tab des Modells werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Speicher) und aktiviertem Scale-to-Zero erstellt. Der Bereitstellungsname wird automatisch generiert.
Endpunkte verwalten
Ansichtsmodi
Die Liste der Bereitstellungen unterstützt drei Ansichtsmodi:
| Modus | Beschreibung |
|---|---|
| Karten | Detaillierte Karten mit Protokollen, Codebeispielen und Vorhersage-Panel |
| Kompakt | Raster aus kleineren Karten mit den wichtigsten Metriken |
| Tabelle | Datentabelle mit sortierbaren Spalten und Suchfunktion |

Bereitstellungskarte (Kartenansicht)
Jede Bereitstellungskarte in der Kartenansicht zeigt:
- Header: Name, Regionsflagge, Status-Badge, Schaltflächen zum Starten/Stoppen/Löschen
- Endpunkt-URL: Kopierbare URL mit Link zur API-Dokumentation
- Metriken: Anzahl der Anfragen (24h), P95-Latenz, Fehlerrate
- Gesundheitscheck: Live-Statusanzeige mit Latenz und manueller Aktualisierung
- Tabs:
Logs,CodeundPredict
Der Logs-Tab zeigt aktuelle Protokolleinträge mit Schweregradfilter (Alle / Fehler). Der Code-Tab zeigt gebrauchsfertige Codebeispiele in Python, JavaScript und cURL mit deiner tatsächlichen Endpunkt-URL und deinem API-Schlüssel. Der Predict-Tab bietet ein direktes Vorhersage-Panel zum Testen direkt auf der Bereitstellung.
Bereitstellungsstatus
| Status | Beschreibung |
|---|---|
| Wird erstellt | Bereitstellung wird eingerichtet |
| Wird bereitgestellt | Container wird gestartet |
| Bereit | Endpunkt ist aktiv und nimmt Anfragen entgegen |
| Wird gestoppt | Endpunkt wird heruntergefahren |
| Gestoppt | Endpunkt ist pausiert (keine Abrechnung) |
| Fehlgeschlagen | Bereitstellung fehlgeschlagen (siehe Fehlermeldung) |
Endpunkt-URL
Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:
https://predict-abc123.run.app

Klicke auf die Kopieren-Schaltfläche, um die URL zu kopieren. Klicke auf das Dokumentationssymbol, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.
Lebenszyklusmanagement
Steuere den Status deines Endpunkts:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| Aktion | Beschreibung |
|---|---|
| Starten | Einen gestoppten Endpunkt fortsetzen |
| Stoppen | Den Endpunkt pausieren (keine Abrechnung) |
| Löschen | Endpunkt dauerhaft entfernen |
Endpunkt stoppen
Stoppe einen Endpunkt, um die Abrechnung zu pausieren:
- Klicke auf das Pausen-Symbol auf der Bereitstellungskarte
- Der Endpunkt-Status ändert sich zu „Wird gestoppt“ und dann zu „Gestoppt“
Gestoppte Endpunkte:
- Nehmen keine Anfragen entgegen
- Verursachen keine Kosten
- Können jederzeit neu gestartet werden
Endpunkt löschen
Einen Endpunkt dauerhaft entfernen:
- Klicke auf das Löschen-Symbol (Papierkorb) auf der Bereitstellungskarte
- Bestätige die Löschung im Dialog
Das Löschen erfolgt sofort und dauerhaft. Du kannst jederzeit einen neuen Endpunkt erstellen.
Endpunkte verwenden
Authentifizierung
Jede Bereitstellung wird mit einem API-Schlüssel aus deinem Konto erstellt. Füge ihn in Anfragen ein:
Authorization: Bearer YOUR_API_KEYDas Präfix des API-Schlüssels wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generiere Schlüssel unter API Keys.
Keine Ratenbegrenzung
Dedizierte Endpunkte unterliegen nicht den Ratenbegrenzungen der Platform API. Anfragen gehen direkt an deinen dedizierten Dienst, sodass der Durchsatz nur durch CPU, Arbeitsspeicher und die Skalierungskonfiguration deines Endpunkts begrenzt wird. Dies ist ein entscheidender Vorteil gegenüber der Shared Inference, die auf 20 Anfragen/Min. pro API-Schlüssel begrenzt ist.
Anfragebeispiel
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())Anfrageparameter
| Parameter | Typ | Standard | Bereich | Beschreibung |
|---|---|---|---|---|
file | file | - | - | Bild- oder Videodatei (erforderlich) |
conf | float | 0.25 | 0.01 – 1.0 | Mindest-Konfidenzschwelle |
iou | float | 0.7 | 0.0 – 0.95 | NMS IoU-Schwelle |
imgsz | int | 640 | 32 – 1280 | Eingabebildgröße in Pixeln |
normalize | bool | falsch | - | Bbox-Koordinaten als 0 – 1 zurückgeben |
decimals | int | 5 | 0 – 10 | Dezimalgenauigkeit für Koordinatenwerte |
source | string | - | - | Bild-URL oder Base64-String (Alternative zu file) |
Dedizierte Endpunkte akzeptieren sowohl Bilder als auch Videos über den file-Parameter.
- Bildformate (bis zu 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- Videoformate (bis zu 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
Each video frame is processed individually and results are returned per frame. You can also pass a public image URL or a base64-encoded image via the source parameter instead of file.
Antwortformat
Identisch mit Shared Inference mit aufgabenspezifischen Feldern.
Preise
Einfache dedizierte Endpunkte sind in allen Tarifen kostenlos. Konfigurationen mit höheren Ressourcen (mehr vCPUs, mehr Arbeitsspeicher, Warm Start) bieten zukünftig eine nutzungsbasierte Abrechnung.
- Verwende Scale-to-Zero (Standard), damit Endpunkte nur laufen, wenn sie Anfragen empfangen
- Lege eine angemessene maximale Instanzanzahl für deinen Traffic fest
- Überwache die Nutzung im Monitoring-Dashboard
FAQ
Wie viele Endpunkte kann ich erstellen?
Endpunkt-Limits hängen vom Tarif ab:
- Free: Bis zu 3 Deployments
- Pro: Bis zu 10 Deployments
- Enterprise: Unbegrenzte Deployments
Jedes Modell kann innerhalb deines Tarif-Kontingents weiterhin in mehreren Regionen bereitgestellt werden.
Kann ich die Region nach dem Deployment ändern?
Nein, Regionen sind fix. Um die Region zu ändern:
- Lösche den bestehenden Endpunkt
- Erstelle einen neuen Endpunkt in der gewünschten Region
Wie gehe ich mit Multi-Region-Deployments um?
Für globale Abdeckung:
- Deploye in mehreren Regionen
- Verwende einen Load Balancer oder DNS-Routing
- Route Benutzer zum nächstgelegenen Endpunkt
Wie hoch ist die Cold-Start-Zeit?
Die Cold-Start-Zeit hängt von der Modellgröße und davon ab, ob der Container bereits in der Region zwischengespeichert ist. Typische Bereiche:
| Szenario | Cold Start |
|---|---|
| Gecachter Container | ~5-15 Sekunden |
| Erstdeployment/Region | ~15-45 Sekunden |
Der Health-Check verwendet ein 55-Sekunden-Timeout, um auch im schlimmsten Fall eines Cold Starts zu funktionieren.
Kann ich eigene Domains verwenden?
Eigene Domains sind in Kürze verfügbar. Derzeit verwenden Endpunkte plattformgenerierte URLs.