Dedizierte Endpunkte
Ultralytics Platform ermöglicht die Bereitstellung von YOLO-Modellen auf dedizierten Endpunkten in 43 globalen Regionen. Jeder Endpunkt ist ein Single-Tenant-Dienst mit Auto-Scaling, einer einzigartigen Endpunkt-URL und unabhängigem Monitoring.

Endpunkt erstellen
Aus der Registerkarte „Bereitstellen“
Ein Modell bereitstellen von seinem Deploy Registerkarte:
- Navigieren Sie zu Ihrem Modell
- Klicken Sie auf den Tab Bereitstellen
- Select a region from the interactive world map — regions are color-coded by latency from your location (green < 100ms, yellow < 200ms, red > 200ms)
- Klicken Sie auf Bereitstellen in der Zeile der Region
Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Region (z. B. yolo26n-iowa), oder Auto-Modus mit angegebener Auslastungsfraktion (
Von der Seite „Bereitstellungen“
Erstellen Sie eine Bereitstellung aus dem globalen Deploy Seite in der Seitenleiste:
- Klicken Sie auf Neue Bereitstellung
- Wählen Sie ein Modell aus dem Modellauswahlmenü aus.
- Wählen Sie eine Region aus der Karte oder Tabelle aus.
- Optional können Sie den Bereitstellungsnamen und die Ressourcen anpassen.
- Klicken Sie auf Modell bereitstellen

Bereitstellungslebenszyklus
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: Delete
Regionsauswahl
Wählen Sie aus 43 Regionen weltweit. Die interaktive Regionskarte und -tabelle zeigen:
- Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
- Bereitgestellte Regionen: Hervorgehoben mit einem „Deployed“-Badge.
- Regionen werden bereitgestellt: Animierte Pulsanzeige.
- Bidirektionale Hervorhebung: Beim Überfahren der Karte wird die Tabellenzeile hervorgehoben und umgekehrt

Die Regionstabelle im Modell Deploy Die Registerkarte enthält:
| Spalte | Beschreibung |
|---|---|
| Standort | Stadt und Land mit Flaggen-Symbol |
| Zone | Regionskennung |
| Latenz | Gemessene Ping-Zeit (Median von 3 Pings) |
| Entfernung | Entfernung von Ihrem Standort in km |
| Aktionen | Bereitstellen-Schaltfläche oder Status-Badge „Bereitgestellt“ |
Neuer Bereitstellungsdialog
Die New Deployment Dialog (aus dem globalen Deploy Seite) zeigt eine einfachere Regionstabelle mit nur den Spalten „Standort“, „Latenz“ und „Auswahl“.
Wählen Sie mit Bedacht
Wählen Sie die Region aus, die Ihren Benutzern am nächsten liegt, um die geringste Latenz zu erzielen. Verwenden Sie die Schaltfläche „Erneut scannen“, um die Latenz von Ihrem aktuellen Standort aus erneut zu messen.
Verfügbare Regionen
| Zone | Standort |
|---|---|
| us-central1 | Iowa, USA |
| us-east1 | South Carolina, USA |
| us-east4 | Nord-Virginia, USA |
| us-east5 | Columbus, USA |
| us-south1 | Dallas, USA |
| us-west1 | Oregon, USA |
| us-west2 | Los Angeles, USA |
| us-west3 | Salt Lake City, USA |
| us-west4 | Las Vegas, USA |
| northamerica-northeast1 | Montreal, Kanada |
| northamerica-northeast2 | Toronto, Kanada |
| Nordamerika-Süd1 | Querétaro, Mexiko |
| southamerica-east1 | São Paulo, Brasilien |
| southamerica-west1 | Santiago, Chile |
| Zone | Standort |
|---|---|
| europe-west1 | St. Ghislain, Belgien |
| europe-west2 | London, Vereinigtes Königreich |
| europe-west3 | Frankfurt, Deutschland |
| europe-west4 | Eemshaven, Niederlande |
| europe-west6 | Zürich, Schweiz |
| europe-west8 | Mailand, Italien |
| europe-west9 | Paris, Frankreich |
| europe-west10 | Berlin, Deutschland |
| europe-west12 | Turin, Italien |
| europe-north1 | Hamina, Finnland |
| Europa-Nord2 | Stockholm, Schweden |
| europe-central2 | Warschau, Polen |
| europe-southwest1 | Madrid, Spanien |
| Zone | Standort |
|---|---|
| asia-east1 | Changhua, Taiwan |
| asia-east2 | Kowloon, Hongkong |
| asia-northeast1 | Tokio, Japan |
| asia-northeast2 | Osaka, Japan |
| asia-northeast3 | Seoul, Südkorea |
| asia-south1 | Mumbai, Indien |
| asia-south2 | Delhi, Indien |
| asia-southeast1 | Jurong West, Singapur |
| asia-southeast2 | Jakarta, Indonesien |
| asia-southeast3 | Bangkok, Thailand |
| australia-southeast1 | Sydney, Australien |
| australia-southeast2 | Melbourne, Australien |
| Zone | Standort |
|---|---|
| africa-south1 | Johannesburg, Südafrika |
| me-central1 | Doha, Katar |
| me-central2 | Dammam, Saudi-Arabien |
| me-west1 | Tel Aviv, Israel |
Endpunkt-Konfiguration
Neuer Bereitstellungsdialog
Die New Deployment Dialog bietet:
| Einstellung | Beschreibung | Standard |
|---|---|---|
| Modell | Aus fertigen Modellen auswählen | - |
| Region | Bereitstellungsregion | - |
| Bereitstellungsname | Automatisch generiert, bearbeitbar | - |
| CPU-Kerne | CPU-Zuweisung (1-8) | 1 |
| Speicher (GB) | Speicherzuweisung (1–32 GB) | 2 |

Die Ressourceneinstellungen sind im ausklappbaren Abschnitt „Ressourcen“ verfügbar. Bei Bereitstellungen wird standardmäßig „Scale-to-Zero“ verwendet (min. Instanzen = 0, max. Instanzen = 1) – Sie zahlen nur für die aktive Inferenzzeit.
Automatisch generierte Namen
Der Name der Bereitstellung wird automatisch aus dem Modellnamen und dem Namen der Region (z. B. yolo26n-iowa). Wenn Sie dasselbe Modell erneut in derselben Region bereitstellen, wird ein numerischer Suffix hinzugefügt (z.B., yolo26n-iowa-2), oder Auto-Modus mit angegebener Auslastungsfraktion (
Registerkarte „Bereitstellen“ (Schnellbereitstellung)
Beim Bereitstellen aus dem Modell Deploy Auf der Registerkarte „Endpunkte“ werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Arbeitsspeicher) und aktivierter Skalierung auf Null erstellt. Der Name der Bereitstellung wird automatisch generiert.
Endpunkte verwalten
Anzeigemodi
Die Bereitstellungsliste unterstützt drei Ansichtsmodi:
| Modus | Beschreibung |
|---|---|
| Karten | Vollständige Detailkarten mit Protokollen, Code-Beispielen, Vorhersagefeld |
| Kompakt | Raster aus kleineren Karten mit wichtigen Kennzahlen |
| Tabelle | Datentabelle mit sortierbaren Spalten und Suchfunktion |

Bereitstellungskarte (Kartenansicht)
Jede Bereitstellungskarte in der Kartenansicht zeigt:
- Kopfzeile: Name, Regionsflagge, Statusabzeichen, Start-/Stopp-/Löschschaltflächen
- Endpoint-URL: Kopierbare URL mit Link zur API-Dokumentation
- Metriken: Anzahl der Anfragen (24h), P95-Latenz, Fehlerrate
- Zustandsprüfung: Live-Zustandsanzeige mit Latenz und manueller Aktualisierung
- Registerkarten:
Logs,CodeundPredict
Die Logs Die Registerkarte zeigt die letzten Protokolleinträge mit Filterung nach Schweregrad (Alle / Fehler). Die Code Die Registerkarte zeigt gebrauchsfertige Code-Beispiele in Python, JavaScript und cURL mit Ihrer tatsächlichen Endpunkt-URL und Ihrem API-Schlüssel. Die Predict Die Registerkarte „tab“ bietet ein Inline-Vorhersagefeld zum direkten Testen in der Bereitstellung.
Bereitstellungsstatus
| Status | Beschreibung |
|---|---|
| Erstellen | Die Bereitstellung wird eingerichtet |
| Bereitstellung | Container wird gestartet |
| Bereit | Endpunkt ist live und nimmt Anfragen entgegen |
| Anhalten | Endpunkt wird heruntergefahren |
| Angehalten | Endpunkt ist angehalten (keine Abrechnung) |
| Fehlgeschlagen | Bereitstellung fehlgeschlagen (siehe Fehlermeldung) |
Endpunkt-URL
Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:
https://predict-abc123.run.app

Klicken Sie auf den Kopieren-Button, um die URL zu kopieren. Klicken Sie auf das Dokumentationssymbol, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.
Lebenszyklusmanagement
Endpunktstatus steuern:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff
| Aktion | Beschreibung |
|---|---|
| Starten | Einen gestoppten Endpunkt fortsetzen |
| Stoppen | Den Endpunkt pausieren (keine Abrechnung) |
| Löschen | Endpunkt dauerhaft entfernen |
Endpunkt stoppen
Einen Endpunkt stoppen, um die Abrechnung zu pausieren:
- Klicken Sie auf das Pause-Symbol auf der Bereitstellungskarte.
- Der Endpunktstatus ändert sich zu „Wird angehalten“ und dann zu „Angehalten“.
Gestoppte Endpunkte:
- Akzeptieren keine Anfragen
- Verursachen keine Kosten
- Können jederzeit neu gestartet werden
Endpunkt löschen
Endpunkt dauerhaft entfernen:
- Klicken Sie auf das Löschen- (Papierkorb-) Symbol auf der Bereitstellungskarte.
- Löschung im Dialog bestätigen
Dauerhafte Aktion
Die Löschung erfolgt sofort und ist dauerhaft. Sie können jederzeit einen neuen Endpunkt erstellen.
Endpunkte verwenden
Authentifizierung
Jede Bereitstellung wird mit einem API-Schlüssel aus Ihrem Konto erstellt. Fügen Sie ihn in Anfragen ein:
Authorization: Bearer YOUR_API_KEY
Der API-Schlüsselpräfix wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generieren Sie Schlüssel über API-Schlüssel.
Keine Zinsbeschränkungen
Dedizierte Endpunkte unterliegen nicht den Ratenbegrenzungen der Plattform-API. Anfragen gehen direkt an Ihren dedizierten Dienst, sodass der Durchsatz nur durch die CPU, den Speicher und die Skalierungskonfiguration Ihres Endpunkts begrenzt ist. Dies ist ein entscheidender Vorteil gegenüber Shared Inference, das auf 20 Anfragen/Min. pro API-Schlüssel begrenzt ist.
Anfragebeispiel
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");
// Send image for inference
const response = await fetch(
"https://predict-abc123.run.app/predict",
{
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
}
);
const result = await response.json();
console.log(result);
curl -X POST \
"https://predict-abc123.run.app/predict" \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@image.jpg" \
-F "conf=0.25" \
-F "iou=0.7" \
-F "imgsz=640"
Anforderungsparameter
| Parameter | Typ | Standard | Beschreibung |
|---|---|---|---|
file | Datei definiert | - | Bild- oder Videodatei (erforderlich) |
conf | float | 0.25 | Minimaler Konfidenzschwellenwert |
iou | float | 0.7 | NMS IoU-Schwellenwert |
imgsz | int | 640 | Eingabebildgröße |
normalize | string | - | Normalisierte Koordinaten zurückgeben |
Video-Inferenz
Dedizierte Endpunkte akzeptieren Videodateien zusätzlich zu Bildern. Unterstützte Videoformate (bis zu 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV. Jeder Frame wird einzeln verarbeitet und die Ergebnisse werden pro Frame zurückgegeben. Unterstützte Bildformate (bis zu 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP.
Antwortformat
Gleich wie Shared Inference mit aufgabenspezifischen Feldern.
Preise
Grundlegende dedizierte Endpunkte sind auf allen Plänen kostenlos. Konfigurationen mit höheren Ressourcen (mehr vCPUs, mehr Arbeitsspeicher, Warmstart) werden zukünftig eine nutzungsbasierte Preisgestaltung bieten.
Kostenoptimierung
- Verwenden Sie „Scale-to-Zero“ (Standard), damit Endpunkte nur bei Eingang von Anfragen ausgeführt werden
- Legen Sie eine für Ihr Datenaufkommen geeignete maximale Anzahl an Instanzen fest
- Nutzung im Monitoring-Dashboard überwachen
FAQ
Wie viele Endpunkte kann ich erstellen?
Endpunktgrenzen hängen vom Plan ab:
- Kostenlos: Bis zu 3 Deployments
- Pro: Bis zu 10 Bereitstellungen
- Enterprise: Unbegrenzte Bereitstellungen
Jedes Modell kann weiterhin in mehreren Regionen innerhalb Ihres Plan-Kontingents bereitgestellt werden.
Kann ich die Region nach der Bereitstellung ändern?
Nein, Regionen sind fest. Um Regionen zu ändern:
- Bestehenden Endpunkt löschen
- Einen neuen Endpunkt in der gewünschten Region erstellen
Wie gehe ich mit Multi-Region-Bereitstellungen um?
Für globale Abdeckung:
- Bereitstellung in mehreren Regionen
- Einen Load Balancer oder DNS-Routing verwenden
- Benutzer zum nächstgelegenen Endpunkt leiten
Wie hoch ist die Kaltstartzeit?
Die Kaltstartzeit hängt von der Modellgröße und davon ab, ob der Container bereits in der Region zwischengespeichert ist. Typische Bereiche:
| Szenario | Kaltstart |
|---|---|
| Gecachter Container | ~5–15 Sekunden |
| Erste Bereitstellung/Region | ~15–45 Sekunden |
Der Gesundheitscheck verwendet eine Zeitüberschreitung von 55 Sekunden, um auch den ungünstigsten Fall eines Kaltstarts zu berücksichtigen.
Kann ich benutzerdefinierte Domains verwenden?
Benutzerdefinierte Domains sind in Kürze verfügbar. Derzeit verwenden Endpunkte plattformgenerierte URLs.