Dedizierte Endpunkte

Die Ultralytics Platform ermöglicht die Bereitstellung von YOLO-Modellen auf dedizierten Endpunkten in 43 globalen Regionen. Jeder Endpunkt ist ein Single-Tenant-Dienst mit Scale-to-Zero-Verhalten, einer eindeutigen Endpunkt-URL und unabhängiger Überwachung.

Ultralytics Platform Modell-Bereitstellungs-Tab mit Regionskarte und Tabelle

Endpunkt erstellen

Vom Bereitstellungs-Tab aus

Stelle ein Modell über dessen Deploy-Tab bereit:

Navigiere zu deinem Modell
Klicke auf den Tab Deploy
Wähle eine Region auf der interaktiven Weltkarte aus – die Regionen sind nach Latenz von deinem Standort aus farblich gekennzeichnet (grün < 100ms, gelb < 200ms, rot > 200ms)
Klicke in der Regionszeile auf Deploy

Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Regionsstadt generiert (z. B. yolo26n-iowa).

Von der Bereitstellungs-Seite aus

Erstelle eine Bereitstellung über die globale Deploy-Seite in der Seitenleiste:

Klicke auf New Deployment
Wähle ein Modell aus dem Modellauswahlmenü
Wähle eine Region auf der Karte oder in der Tabelle aus
Überprüfe den automatisch generierten Bereitstellungsnamen (bearbeitbar) und die Standardressourcen
Klicke auf Deploy Model

Ultralytics Platform Dialog für neue Bereitstellungen mit Modellauswahl und Regionskarte

Deployment-Lebenszyklus

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Region auswählen

Wähle aus 43 Regionen weltweit. Die interaktive Regionskarte und die Tabelle zeigen:

Regions-Pins: Farblich gekennzeichnet nach Latenz (grün < 100ms, gelb < 200ms, rot > 200ms)
Bereitgestellte Regionen: Mit einem "Deployed"-Badge hervorgehoben
Bereitstellung läuft: Animierter Puls-Indikator
Bidirektionale Hervorhebung: Wenn du auf der Karte mit der Maus darüberfährst, wird die Tabellenzeile hervorgehoben und umgekehrt

Ultralytics Platform Bereitstellungs-Tab Region-Latenz-Tabelle sortiert nach Latenz

Die Regionstabelle auf dem Deploy-Tab des Modells enthält:

Spalte	Beschreibung
Standort	Stadt und Land mit Flaggensymbol
Zone	Regionskennung
Latenz	Gemessene Ping-Zeit (Median von 3 Pings)
Entfernung	Entfernung von deinem Standort in km
Aktionen	Bereitstellungs-Schaltfläche oder "Deployed"-Status-Badge

Dialog für neue Bereitstellung

Der New Deployment-Dialog (von der globalen Deploy-Seite) zeigt eine einfachere Regionstabelle mit nur den Spalten Standort, Latenz und Auswählen.

Wähle weise

Wähle die Region, die deinen Benutzern am nächsten liegt, für die niedrigste Latenz. Verwende die Schaltfläche Rescan, um die Latenz von deinem aktuellen Standort erneut zu messen.

Verfügbare Regionen

Zone	Standort
us-central1	Iowa, USA
us-east1	South Carolina, USA
us-east4	Northern Virginia, USA
us-east5	Columbus, USA
us-south1	Dallas, USA
us-west1	Oregon, USA
us-west2	Los Angeles, USA
us-west3	Salt Lake City, USA
us-west4	Las Vegas, USA
northamerica-northeast1	Montreal, Kanada
northamerica-northeast2	Toronto, Kanada
northamerica-south1	Queretaro, Mexiko
southamerica-east1	Sao Paulo, Brasilien
southamerica-west1	Santiago, Chile

Endpunkt-Konfiguration

Dialog für neue Bereitstellung

Der Dialog New Deployment bietet:

Einstellung	Beschreibung	Standard
Modell	Wähle aus abgeschlossenen Modellen aus	-
Region	Bereitstellungsregion	-
Bereitstellungsname	Automatisch generiert, bearbeitbar	-
CPU-Kerne	Fester Standardwert	1
Speicher (GB)	Fester Standardwert	2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

Bereitstellungen nutzen feste Standardwerte von 1 CPU, 2 GiB Speicher, minInstances = 0 und maxInstances = 1. Sie skalieren auf null, wenn sie inaktiv sind, sodass du nur für die aktive Inferenzzeit bezahlst.

Automatisch generierte Namen

Der Bereitstellungsname wird automatisch aus dem Modellnamen und der Stadt der Region generiert (z. B. yolo26n-iowa). Wenn du dasselbe Modell erneut in derselben Region bereitstellst, wird ein numerisches Suffix hinzugefügt (z. B. yolo26n-iowa-2).

Tab „Bereitstellen“ (Schnelle Bereitstellung)

Bei der Bereitstellung über den Deploy-Tab des Modells werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Speicher) und aktiviertem Scale-to-Zero erstellt. Der Bereitstellungsname wird automatisch generiert.

Endpunkte verwalten

Ansichtsmodi

Die Liste der Bereitstellungen unterstützt drei Ansichtsmodi:

Modus	Beschreibung
Karten	Detaillierte Karten mit Protokollen, Codebeispielen und Vorhersage-Panel
Kompakt	Raster aus kleineren Karten mit den wichtigsten Metriken
Tabelle	Datentabelle mit sortierbaren Spalten und Suchfunktion

Ultralytics Platform Deploy Tab Active Deployments Cards View

Bereitstellungskarte (Kartenansicht)

Jede Bereitstellungskarte in der Kartenansicht zeigt:

Header: Name, Regionsflagge, Status-Badge, Schaltflächen zum Starten/Stoppen/Löschen
Endpunkt-URL: Kopierbare URL mit Link zur API-Dokumentation
Metriken: Anzahl der Anfragen (24h), P95-Latenz, Fehlerrate
Gesundheitscheck: Live-Statusanzeige mit Latenz und manueller Aktualisierung
Tabs: Logs, Code und Predict

Der Logs-Tab zeigt aktuelle Protokolleinträge mit Schweregradfilter (Alle / Fehler). Der Code-Tab zeigt gebrauchsfertige Codebeispiele in Python, JavaScript und cURL mit deiner tatsächlichen Endpunkt-URL und deinem API-Schlüssel. Der Predict-Tab bietet ein direktes Vorhersage-Panel zum Testen direkt auf der Bereitstellung.

Bereitstellungsstatus

Status	Beschreibung
Wird erstellt	Bereitstellung wird eingerichtet
Wird bereitgestellt	Container wird gestartet
Bereit	Endpunkt ist aktiv und nimmt Anfragen entgegen
Wird gestoppt	Endpunkt wird heruntergefahren
Gestoppt	Endpunkt ist pausiert (keine Abrechnung)
Fehlgeschlagen	Bereitstellung fehlgeschlagen (siehe Fehlermeldung)

Endpunkt-URL

Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:

https://predict-abc123.run.app

Klicke auf die Kopieren-Schaltfläche, um die URL zu kopieren. Klicke auf das Dokumentationssymbol, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.

Lebenszyklusmanagement

Steuere den Status deines Endpunkts:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff

Aktion	Beschreibung
Starten	Einen gestoppten Endpunkt fortsetzen
Stoppen	Den Endpunkt pausieren (keine Abrechnung)
Löschen	Endpunkt dauerhaft entfernen

Endpunkt stoppen

Stoppe einen Endpunkt, um die Abrechnung zu pausieren:

Klicke auf das Pausen-Symbol auf der Bereitstellungskarte
Der Endpunkt-Status ändert sich zu „Wird gestoppt“ und dann zu „Gestoppt“

Gestoppte Endpunkte:

Nehmen keine Anfragen entgegen
Verursachen keine Kosten
Können jederzeit neu gestartet werden

Endpunkt löschen

Einen Endpunkt dauerhaft entfernen:

Klicke auf das Löschen-Symbol (Papierkorb) auf der Bereitstellungskarte
Bestätige die Löschung im Dialog

Dauerhafte Aktion

Das Löschen erfolgt sofort und dauerhaft. Du kannst jederzeit einen neuen Endpunkt erstellen.

Endpunkte verwenden

Authentifizierung

Jede Bereitstellung wird mit einem API-Schlüssel aus deinem Konto erstellt. Füge ihn in Anfragen ein:

Authorization: Bearer YOUR_API_KEY

Das Präfix des API-Schlüssels wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generiere Schlüssel unter API Keys.

Keine Ratenbegrenzung

Dedizierte Endpunkte unterliegen nicht den Ratenbegrenzungen der Platform API. Anfragen gehen direkt an deinen dedizierten Dienst, sodass der Durchsatz nur durch CPU, Arbeitsspeicher und die Skalierungskonfiguration deines Endpunkts begrenzt wird. Dies ist ein entscheidender Vorteil gegenüber der Shared Inference, die auf 20 Anfragen/Min. pro API-Schlüssel begrenzt ist.

Anfragebeispiel

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Anfrageparameter

Parameter	Typ	Standard	Bereich	Beschreibung
`file`	file	-	-	Bild- oder Videodatei (erforderlich)
`conf`	float	0.25	0.01 – 1.0	Mindest-Konfidenzschwelle
`iou`	float	0.7	0.0 – 0.95	NMS IoU-Schwelle
`imgsz`	int	640	32 – 1280	Eingabebildgröße in Pixeln
`normalize`	bool	falsch	-	Bbox-Koordinaten als 0 – 1 zurückgeben
`decimals`	int	5	0 – 10	Dezimalgenauigkeit für Koordinatenwerte
`source`	string	-	-	Bild-URL oder Base64-String (Alternative zu `file`)

Video-Inferenz

Dedizierte Endpunkte akzeptieren sowohl Bilder als auch Videos über den file-Parameter.

Bildformate (bis zu 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
Videoformate (bis zu 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Each video frame is processed individually and results are returned per frame. You can also pass a public image URL or a base64-encoded image via the source parameter instead of file.

Antwortformat

Identisch mit Shared Inference mit aufgabenspezifischen Feldern.

Preise

Einfache dedizierte Endpunkte sind in allen Tarifen kostenlos. Konfigurationen mit höheren Ressourcen (mehr vCPUs, mehr Arbeitsspeicher, Warm Start) bieten zukünftig eine nutzungsbasierte Abrechnung.

Kostenoptimierung

Verwende Scale-to-Zero (Standard), damit Endpunkte nur laufen, wenn sie Anfragen empfangen
Lege eine angemessene maximale Instanzanzahl für deinen Traffic fest
Überwache die Nutzung im Monitoring-Dashboard

FAQ

Wie viele Endpunkte kann ich erstellen?

Endpunkt-Limits hängen vom Tarif ab:

Free: Bis zu 3 Deployments
Pro: Bis zu 10 Deployments
Enterprise: Unbegrenzte Deployments

Jedes Modell kann innerhalb deines Tarif-Kontingents weiterhin in mehreren Regionen bereitgestellt werden.

Kann ich die Region nach dem Deployment ändern?

Nein, Regionen sind fix. Um die Region zu ändern:

Lösche den bestehenden Endpunkt
Erstelle einen neuen Endpunkt in der gewünschten Region

Wie gehe ich mit Multi-Region-Deployments um?

Für globale Abdeckung:

Deploye in mehreren Regionen
Verwende einen Load Balancer oder DNS-Routing
Route Benutzer zum nächstgelegenen Endpunkt

Wie hoch ist die Cold-Start-Zeit?

Die Cold-Start-Zeit hängt von der Modellgröße und davon ab, ob der Container bereits in der Region zwischengespeichert ist. Typische Bereiche:

Szenario	Cold Start
Gecachter Container	~5-15 Sekunden
Erstdeployment/Region	~15-45 Sekunden

Der Health-Check verwendet ein 55-Sekunden-Timeout, um auch im schlimmsten Fall eines Cold Starts zu funktionieren.

Kann ich eigene Domains verwenden?

Eigene Domains sind in Kürze verfügbar. Derzeit verwenden Endpunkte plattformgenerierte URLs.

Contributors

GLglenn-jocher⁹ T-t-hakobyan¹ SEsergiuwaxmann¹

Created vor 4 MonatenUpdated vor 4 Wochen

Dedizierte Endpunkte

Endpunkt erstellen

Vom Bereitstellungs-Tab aus

Von der Bereitstellungs-Seite aus

Deployment-Lebenszyklus

Region auswählen

Verfügbare Regionen

Endpunkt-Konfiguration

Dialog für neue Bereitstellung

Tab „Bereitstellen“ (Schnelle Bereitstellung)

Endpunkte verwalten

Ansichtsmodi

Bereitstellungskarte (Kartenansicht)

Bereitstellungsstatus

Endpunkt-URL

Lebenszyklusmanagement

Endpunkt stoppen

Endpunkt löschen

Endpunkte verwenden

Authentifizierung

Keine Ratenbegrenzung

Anfragebeispiel

Anfrageparameter

Antwortformat

Preise

FAQ

Wie viele Endpunkte kann ich erstellen?

Kann ich die Region nach dem Deployment ändern?

Wie gehe ich mit Multi-Region-Deployments um?

Wie hoch ist die Cold-Start-Zeit?

Kann ich eigene Domains verwenden?

Kommentare