Dedizierte Endpunkte
Ultralytics ermöglicht die Bereitstellung von YOLO auf dedizierten Endpunkten in 43 Regionen weltweit. Jeder Endpunkt ist ein Single-Tenant-Dienst mit automatischer Skalierung, einer eindeutigen Endpunkt-URL und unabhängiger Überwachung.

Endpunkt erstellen
Aus der Registerkarte „Bereitstellen“
Ein Modell aus seiner Deploy Registerkarte:
- Navigieren Sie zu Ihrem Modell
- Klicken Sie auf den Tab Bereitstellen
- Wählen Sie eine Region aus der Regionstabelle aus (sortiert nach Latenz von Ihrem Standort aus).
- Klicken Sie in der Zeile „Region“ auf „Bereitstellen “.
Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Region (z. B. yolo11n-iowa), oder Auto-Modus mit angegebener Auslastungsfraktion (
Von der Seite „Bereitstellungen“
Erstellen Sie eine Bereitstellung aus der globalen Deploy Seite in der Seitenleiste:
- Klicken Sie auf „Neue Bereitstellung“.
- Wählen Sie ein Modell aus dem Modellauswahlmenü aus.
- Wählen Sie eine Region aus der Karte oder Tabelle aus.
- Optional können Sie den Bereitstellungsnamen und die Ressourcen anpassen.
- Klicken Sie auf „Modell bereitstellen“.

Bereitstellungslebenszyklus
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: Delete
Regionsauswahl
Wählen Sie aus 43 Regionen weltweit. Die interaktive Regionenkarte und Tabelle zeigen:
- Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
- Bereitgestellte Regionen: Mit einem „Bereitgestellt“-Badge hervorgehoben
- Bereitstellungsregionen: Animierte Pulsanzeige
- Bidirektionale Hervorhebung: Wenn Sie mit der Maus über die Karte fahren, wird die Tabellenzeile hervorgehoben und umgekehrt.

Die Regionstabelle im Modell Deploy Die Registerkarte enthält:
| Spalte | Beschreibung |
|---|---|
| Standort | Stadt und Land mit Flaggensymbol |
| Zone | Regionskennung |
| Latenz | Gemessene Ping-Zeit (Median von 3 Pings) |
| Entfernung | Entfernung von Ihrem Standort in km |
| Maßnahmen | Schaltfläche „Bereitstellen“ oder Status-Badge „Bereitgestellt“ |
Neuer Bereitstellungsdialog
Die New Deployment Dialog (aus dem globalen Deploy Seite) zeigt eine einfachere Regionstabelle mit nur den Spalten „Standort“, „Latenz“ und „Auswahl“.
Wählen Sie mit Bedacht
Wählen Sie die Region aus, die Ihren Benutzern am nächsten liegt, um die geringste Latenz zu erzielen. Verwenden Sie die Schaltfläche „Erneut scannen“, um die Latenz von Ihrem aktuellen Standort aus erneut zu messen.
Verfügbare Regionen
| Zone | Standort |
|---|---|
| us-central1 | Iowa, USA |
| us-east1 | South Carolina, USA |
| us-east4 | Nord-Virginia, USA |
| us-east5 | Columbus, USA |
| us-south1 | Dallas, USA |
| us-west1 | Oregon, USA |
| us-west2 | Los Angeles, USA |
| us-west3 | Salt Lake City, USA |
| us-west4 | Las Vegas, USA |
| northamerica-northeast1 | Montreal, Kanada |
| northamerica-northeast2 | Toronto, Kanada |
| Nordamerika-Süd1 | Querétaro, Mexiko |
| southamerica-east1 | São Paulo, Brasilien |
| southamerica-west1 | Santiago, Chile |
| Zone | Standort |
|---|---|
| europe-west1 | St. Ghislain, Belgien |
| europe-west2 | London, Vereinigtes Königreich |
| europe-west3 | Frankfurt, Deutschland |
| europe-west4 | Eemshaven, Niederlande |
| europe-west6 | Zürich, Schweiz |
| europe-west8 | Mailand, Italien |
| europe-west9 | Paris, Frankreich |
| europe-west10 | Berlin, Deutschland |
| europe-west12 | Turin, Italien |
| europe-north1 | Hamina, Finnland |
| Europa-Nord2 | Stockholm, Schweden |
| europe-central2 | Warschau, Polen |
| europe-southwest1 | Madrid, Spanien |
| Zone | Standort |
|---|---|
| asia-east1 | Changhua, Taiwan |
| asia-east2 | Kowloon, Hongkong |
| asia-northeast1 | Tokio, Japan |
| asia-northeast2 | Osaka, Japan |
| asia-northeast3 | Seoul, Südkorea |
| asia-south1 | Mumbai, Indien |
| asia-south2 | Delhi, Indien |
| asia-southeast1 | Jurong West, Singapur |
| asia-southeast2 | Jakarta, Indonesien |
| Asien-Südostasien3 | Bangkok, Thailand |
| australia-southeast1 | Sydney, Australien |
| australia-southeast2 | Melbourne, Australien |
| Zone | Standort |
|---|---|
| afrika-süden1 | Johannesburg, Südafrika |
| me-central1 | Doha, Katar |
| me-central2 | Dammam, Saudi-Arabien |
| me-west1 | Tel Aviv, Israel |
Endpunkt-Konfiguration
Neuer Bereitstellungsdialog
Die New Deployment Dialog bietet:
| Einstellung | Beschreibung | Standard |
|---|---|---|
| Modell | Aus fertigen Modellen auswählen | - |
| Region | Bereitstellungsregion | - |
| Bereitstellungsname | Automatisch generiert, bearbeitbar | - |
| CPU | CPU (1-8) | 1 |
| Speicher (GB) | Speicherzuweisung (1–32 GB) | 2 |

Die Ressourceneinstellungen sind im ausklappbaren Abschnitt „Ressourcen“ verfügbar. Bei Bereitstellungen wird standardmäßig „Scale-to-Zero“ verwendet (min. Instanzen = 0, max. Instanzen = 1) – Sie zahlen nur für die aktive Inferenzzeit.
Automatisch generierte Namen
Der Name der Bereitstellung wird automatisch aus dem Modellnamen und dem Namen der Region (z. B. yolo11n-iowa). Wenn Sie dasselbe Modell erneut in derselben Region bereitstellen, wird ein numerischer Suffix hinzugefügt (z. B. yolo11n-iowa-2), oder Auto-Modus mit angegebener Auslastungsfraktion (
Registerkarte „Bereitstellen“ (Schnellbereitstellung)
Beim Bereitstellen aus dem Modell Deploy Auf der Registerkarte „Endpunkte“ werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Arbeitsspeicher) und aktivierter Skalierung auf Null erstellt. Der Name der Bereitstellung wird automatisch generiert.
Endpunkte verwalten
Anzeigemodi
Die Bereitstellungsliste unterstützt drei Ansichtsmodi:
| Modus | Beschreibung |
|---|---|
| Karten | Vollständige Detailkarten mit Protokollen, Code-Beispielen, Vorhersagefeld |
| Kompakt | Raster aus kleineren Karten mit wichtigen Kennzahlen |
| Tabelle | Datentabelle mit sortierbaren Spalten und Suchfunktion |

Bereitstellungskarte (Kartenansicht)
Jede Bereitstellungskarte in der Kartenansicht zeigt:
- Kopfzeile: Name, Regionsflagge, Statusabzeichen, Start-/Stopp-/Löschschaltflächen
- Endpunkt-URL: Kopierbare URL mit Link zu API-Dokumentation
- Metriken: Anzahl der Anfragen (24 Stunden), P95-Latenz, Fehlerrate
- Gesundheitscheck: Live-Gesundheitsindikator mit Latenz und manueller Aktualisierung
- Registerkarten:
Logs,CodeundPredict
Die Logs Die Registerkarte zeigt die letzten Protokolleinträge mit Filterung nach Schweregrad (Alle / Fehler). Die Code Die Registerkarte zeigt gebrauchsfertige Code-Beispiele in Python, JavaScript und cURL mit Ihrer tatsächlichen Endpunkt-URL und Ihrem API-Schlüssel. Die Predict Die Registerkarte „tab“ bietet ein Inline-Vorhersagefeld zum direkten Testen in der Bereitstellung.
Bereitstellungsstatus
| Status | Beschreibung |
|---|---|
| Erstellen | Die Bereitstellung wird eingerichtet. |
| Bereitstellung | Container startet |
| Bereit | Endpunkt ist live und nimmt Anfragen entgegen |
| Anhalten | Endpunkt wird heruntergefahren |
| Angehalten | Endpunkt ist angehalten (keine Abrechnung) |
| Fehlgeschlagen | Bereitstellung fehlgeschlagen (siehe Fehlermeldung) |
Endpunkt-URL
Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:
https://predict-abc123.run.app

Klicken Sie auf die Schaltfläche „Kopieren“, um die URL zu kopieren. Klicken Sie auf das Symbol „Dokumente“, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.
Lebenszyklusmanagement
Endpunktstatus steuern:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff
| Aktion | Beschreibung |
|---|---|
| Starten | Einen gestoppten Endpunkt fortsetzen |
| Stoppen | Den Endpunkt pausieren (keine Abrechnung) |
| Löschen | Endpunkt dauerhaft entfernen |
Endpunkt stoppen
Einen Endpunkt stoppen, um die Abrechnung zu pausieren:
- Klicken Sie auf das Pause-Symbol auf der Bereitstellungskarte.
- Der Endpunktstatus ändert sich zu „Wird angehalten“ und dann zu „Angehalten“.
Gestoppte Endpunkte:
- Akzeptieren keine Anfragen
- Verursachen keine Kosten
- Können jederzeit neu gestartet werden
Endpunkt löschen
Endpunkt dauerhaft entfernen:
- Klicken Sie auf das Symbol „Löschen“ (Papierkorb) auf der Bereitstellungskarte.
- Löschen im Dialog bestätigen
Dauerhafte Aktion
Die Löschung erfolgt sofort und ist dauerhaft. Sie können jederzeit einen neuen Endpunkt erstellen.
Endpunkte verwenden
Authentifizierung
Jede Bereitstellung wird mit einem API-Schlüssel aus Ihrem Konto erstellt. Fügen Sie ihn in Anfragen ein:
Authorization: Bearer YOUR_API_KEY
Der API-Schlüsselpräfix wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generieren Sie Schlüssel über API-Schlüssel.
Keine Zinsbeschränkungen
Dedizierte Endpunkte unterliegen nicht den Ratenbeschränkungen der Plattform-API. Anfragen werden direkt an Ihren dedizierten Dienst weitergeleitet, sodass der Durchsatz nur durch CPU, den Arbeitsspeicher und die Skalierungskonfiguration Ihres Endpunkts begrenzt ist. Dies ist ein wesentlicher Vorteil gegenüber der gemeinsam genutzten Inferenz, die auf 20 Anfragen pro Minute und API-Schlüssel begrenzt ist.
Anfragebeispiel
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");
// Send image for inference
const response = await fetch(
"https://predict-abc123.run.app/predict",
{
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
}
);
const result = await response.json();
console.log(result);
curl -X POST \
"https://predict-abc123.run.app/predict" \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@image.jpg" \
-F "conf=0.25" \
-F "iou=0.7" \
-F "imgsz=640"
Anforderungsparameter
| Parameter | Typ | Standard | Beschreibung |
|---|---|---|---|
file | Datei definiert | - | Bilddatei (erforderlich) |
conf | float | 0.25 | Minimaler Konfidenzschwellenwert |
iou | float | 0.7 | NMS IoU-Schwellenwert |
imgsz | int | 640 | Eingabebildgröße |
normalize | string | - | Normalisierte Koordinaten zurückgeben |
Antwortformat
Gleich wie Shared Inference mit aufgabenspezifischen Feldern.
Preise
Dedizierte Endpunkte werden abgerechnet basierend auf:
| Komponente | Rate |
|---|---|
| CPU | Pro vCPU-Sekunde |
| Arbeitsspeicher | Pro GB-Sekunde |
| Anfragen | Pro Million Anfragen |
Kostenoptimierung
- Verwenden Sie Scale-to-Zero für Entwicklungs-Endpunkte.
- Angemessene maximale Instanzen festlegen
- Nutzung im Monitoring-Dashboard überwachen
- Überprüfen Sie die Kosten unter „Einstellungen“ > „Abrechnung“.
FAQ
Wie viele Endpunkte kann ich erstellen?
Endpunktgrenzen hängen vom Plan ab:
- Kostenlos: Bis zu 3 Bereitstellungen
- Pro: Bis zu 10 Bereitstellungen
- Unternehmen: Unbegrenzte Bereitstellungen
Jedes Modell kann weiterhin in mehreren Regionen innerhalb Ihres Plan-Kontingents bereitgestellt werden.
Kann ich die Region nach der Bereitstellung ändern?
Nein, Regionen sind fest. Um Regionen zu ändern:
- Bestehenden Endpunkt löschen
- Einen neuen Endpunkt in der gewünschten Region erstellen
Wie gehe ich mit Multi-Region-Bereitstellungen um?
Für globale Abdeckung:
- Bereitstellung in mehreren Regionen
- Einen Load Balancer oder DNS-Routing verwenden
- Benutzer zum nächstgelegenen Endpunkt leiten
Wie hoch ist die Kaltstartzeit?
Die Kaltstartzeit hängt von der Modellgröße und davon ab, ob der Container bereits in der Region zwischengespeichert ist. Typische Bereiche:
| Szenario | Kaltstart |
|---|---|
| Zwischengespeicherter Container | ~5–15 Sekunden |
| Erste Bereitstellung/Region | ~15–45 Sekunden |
Der Gesundheitscheck verwendet eine Zeitüberschreitung von 55 Sekunden, um auch den ungünstigsten Fall eines Kaltstarts zu berücksichtigen.
Kann ich benutzerdefinierte Domains verwenden?
Benutzerdefinierte Domains sind in Kürze verfügbar. Derzeit verwenden Endpunkte plattformgenerierte URLs.