Dedizierte Endpunkte

Q: How many endpoints can I create?

Endpunktbeschränkungen hängen vom Plan ab: Jedes Modell kann weiterhin in mehreren Regionen innerhalb Ihrer Plankontingente bereitgestellt werden.

Ultralytics Platform ermöglicht die Bereitstellung von YOLO-Modellen auf dedizierten Endpunkten in 43 globalen Regionen. Jeder Endpunkt ist ein Single-Tenant-Dienst mit Auto-Scaling, einer einzigartigen Endpunkt-URL und unabhängigem Monitoring.

Ultralytics , Registerkarte „Modell bereitstellen“ mit Regionskarte und Tabelle

Endpunkt erstellen

Aus der Registerkarte „Bereitstellen“

Ein Modell bereitstellen von seinem Deploy Registerkarte:

Navigieren Sie zu Ihrem Modell
Klicken Sie auf den Tab Bereitstellen
Select a region from the interactive world map — regions are color-coded by latency from your location (green < 100ms, yellow < 200ms, red > 200ms)
Klicken Sie auf Bereitstellen in der Zeile der Region

Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Region (z. B. yolo26n-iowa), oder Auto-Modus mit angegebener Auslastungsfraktion (

Von der Seite „Bereitstellungen“

Erstellen Sie eine Bereitstellung aus dem globalen Deploy Seite in der Seitenleiste:

Klicken Sie auf Neue Bereitstellung
Wählen Sie ein Modell aus dem Modellauswahlmenü aus.
Wählen Sie eine Region aus der Karte oder Tabelle aus.
Optional können Sie den Bereitstellungsnamen und die Ressourcen anpassen.
Klicken Sie auf Modell bereitstellen

Ultralytics – Neuer Bereitstellungsdialog mit Modellauswahl und Regionskarte

Bereitstellungslebenszyklus

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Regionsauswahl

Wählen Sie aus 43 Regionen weltweit. Die interaktive Regionskarte und -tabelle zeigen:

Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
Bereitgestellte Regionen: Hervorgehoben mit einem „Deployed“-Badge.
Regionen werden bereitgestellt: Animierte Pulsanzeige.
Bidirektionale Hervorhebung: Beim Überfahren der Karte wird die Tabellenzeile hervorgehoben und umgekehrt

Ultralytics Registerkarte „Bereitstellung“ Region Latenztabelle Sortiert nach Latenz

Die Regionstabelle im Modell Deploy Die Registerkarte enthält:

Spalte	Beschreibung
Standort	Stadt und Land mit Flaggen-Symbol
Zone	Regionskennung
Latenz	Gemessene Ping-Zeit (Median von 3 Pings)
Entfernung	Entfernung von Ihrem Standort in km
Aktionen	Bereitstellen-Schaltfläche oder Status-Badge „Bereitgestellt“

Neuer Bereitstellungsdialog

Die New Deployment Dialog (aus dem globalen Deploy Seite) zeigt eine einfachere Regionstabelle mit nur den Spalten „Standort“, „Latenz“ und „Auswahl“.

Wählen Sie mit Bedacht

Wählen Sie die Region aus, die Ihren Benutzern am nächsten liegt, um die geringste Latenz zu erzielen. Verwenden Sie die Schaltfläche „Erneut scannen“, um die Latenz von Ihrem aktuellen Standort aus erneut zu messen.

Verfügbare Regionen

Amerika (14)Europa (13)Asien-Pazifik (12)Naher Osten und Afrika (4)

Zone	Standort
us-central1	Iowa, USA
us-east1	South Carolina, USA
us-east4	Nord-Virginia, USA
us-east5	Columbus, USA
us-south1	Dallas, USA
us-west1	Oregon, USA
us-west2	Los Angeles, USA
us-west3	Salt Lake City, USA
us-west4	Las Vegas, USA
northamerica-northeast1	Montreal, Kanada
northamerica-northeast2	Toronto, Kanada
Nordamerika-Süd1	Querétaro, Mexiko
southamerica-east1	São Paulo, Brasilien
southamerica-west1	Santiago, Chile

Zone	Standort
europe-west1	St. Ghislain, Belgien
europe-west2	London, Vereinigtes Königreich
europe-west3	Frankfurt, Deutschland
europe-west4	Eemshaven, Niederlande
europe-west6	Zürich, Schweiz
europe-west8	Mailand, Italien
europe-west9	Paris, Frankreich
europe-west10	Berlin, Deutschland
europe-west12	Turin, Italien
europe-north1	Hamina, Finnland
Europa-Nord2	Stockholm, Schweden
europe-central2	Warschau, Polen
europe-southwest1	Madrid, Spanien

Zone	Standort
asia-east1	Changhua, Taiwan
asia-east2	Kowloon, Hongkong
asia-northeast1	Tokio, Japan
asia-northeast2	Osaka, Japan
asia-northeast3	Seoul, Südkorea
asia-south1	Mumbai, Indien
asia-south2	Delhi, Indien
asia-southeast1	Jurong West, Singapur
asia-southeast2	Jakarta, Indonesien
asia-southeast3	Bangkok, Thailand
australia-southeast1	Sydney, Australien
australia-southeast2	Melbourne, Australien

Zone	Standort
africa-south1	Johannesburg, Südafrika
me-central1	Doha, Katar
me-central2	Dammam, Saudi-Arabien
me-west1	Tel Aviv, Israel

Endpunkt-Konfiguration

Neuer Bereitstellungsdialog

Die New Deployment Dialog bietet:

Einstellung	Beschreibung	Standard
Modell	Aus fertigen Modellen auswählen	-
Region	Bereitstellungsregion	-
Bereitstellungsname	Automatisch generiert, bearbeitbar	-
CPU-Kerne	CPU-Zuweisung (1-8)	1
Speicher (GB)	Speicherzuweisung (1–32 GB)	2

Ultralytics : Neues Dialogfeld für die Bereitstellung, erweiterte Ressourcenleiste

Die Ressourceneinstellungen sind im ausklappbaren Abschnitt „Ressourcen“ verfügbar. Bei Bereitstellungen wird standardmäßig „Scale-to-Zero“ verwendet (min. Instanzen = 0, max. Instanzen = 1) – Sie zahlen nur für die aktive Inferenzzeit.

Automatisch generierte Namen

Der Name der Bereitstellung wird automatisch aus dem Modellnamen und dem Namen der Region (z. B. yolo26n-iowa). Wenn Sie dasselbe Modell erneut in derselben Region bereitstellen, wird ein numerischer Suffix hinzugefügt (z.B., yolo26n-iowa-2), oder Auto-Modus mit angegebener Auslastungsfraktion (

Registerkarte „Bereitstellen“ (Schnellbereitstellung)

Beim Bereitstellen aus dem Modell Deploy Auf der Registerkarte „Endpunkte“ werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Arbeitsspeicher) und aktivierter Skalierung auf Null erstellt. Der Name der Bereitstellung wird automatisch generiert.

Endpunkte verwalten

Anzeigemodi

Die Bereitstellungsliste unterstützt drei Ansichtsmodi:

Modus	Beschreibung
Karten	Vollständige Detailkarten mit Protokollen, Code-Beispielen, Vorhersagefeld
Kompakt	Raster aus kleineren Karten mit wichtigen Kennzahlen
Tabelle	Datentabelle mit sortierbaren Spalten und Suchfunktion

Ultralytics Registerkarte „Bereitstellung“ Aktive Bereitstellungen Kartenansicht

Bereitstellungskarte (Kartenansicht)

Jede Bereitstellungskarte in der Kartenansicht zeigt:

Kopfzeile: Name, Regionsflagge, Statusabzeichen, Start-/Stopp-/Löschschaltflächen
Endpoint-URL: Kopierbare URL mit Link zur API-Dokumentation
Metriken: Anzahl der Anfragen (24h), P95-Latenz, Fehlerrate
Zustandsprüfung: Live-Zustandsanzeige mit Latenz und manueller Aktualisierung
Registerkarten: Logs, Codeund Predict

Die Logs Die Registerkarte zeigt die letzten Protokolleinträge mit Filterung nach Schweregrad (Alle / Fehler). Die Code Die Registerkarte zeigt gebrauchsfertige Code-Beispiele in Python, JavaScript und cURL mit Ihrer tatsächlichen Endpunkt-URL und Ihrem API-Schlüssel. Die Predict Die Registerkarte „tab“ bietet ein Inline-Vorhersagefeld zum direkten Testen in der Bereitstellung.

Bereitstellungsstatus

Status	Beschreibung
Erstellen	Die Bereitstellung wird eingerichtet
Bereitstellung	Container wird gestartet
Bereit	Endpunkt ist live und nimmt Anfragen entgegen
Anhalten	Endpunkt wird heruntergefahren
Angehalten	Endpunkt ist angehalten (keine Abrechnung)
Fehlgeschlagen	Bereitstellung fehlgeschlagen (siehe Fehlermeldung)

Endpunkt-URL

Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:

https://predict-abc123.run.app

Klicken Sie auf den Kopieren-Button, um die URL zu kopieren. Klicken Sie auf das Dokumentationssymbol, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.

Lebenszyklusmanagement

Endpunktstatus steuern:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff

Aktion	Beschreibung
Starten	Einen gestoppten Endpunkt fortsetzen
Stoppen	Den Endpunkt pausieren (keine Abrechnung)
Löschen	Endpunkt dauerhaft entfernen

Endpunkt stoppen

Einen Endpunkt stoppen, um die Abrechnung zu pausieren:

Klicken Sie auf das Pause-Symbol auf der Bereitstellungskarte.
Der Endpunktstatus ändert sich zu „Wird angehalten“ und dann zu „Angehalten“.

Gestoppte Endpunkte:

Akzeptieren keine Anfragen
Verursachen keine Kosten
Können jederzeit neu gestartet werden

Endpunkt löschen

Endpunkt dauerhaft entfernen:

Klicken Sie auf das Löschen- (Papierkorb-) Symbol auf der Bereitstellungskarte.
Löschung im Dialog bestätigen

Dauerhafte Aktion

Die Löschung erfolgt sofort und ist dauerhaft. Sie können jederzeit einen neuen Endpunkt erstellen.

Endpunkte verwenden

Authentifizierung

Jede Bereitstellung wird mit einem API-Schlüssel aus Ihrem Konto erstellt. Fügen Sie ihn in Anfragen ein:

Authorization: Bearer YOUR_API_KEY

Der API-Schlüsselpräfix wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generieren Sie Schlüssel über API-Schlüssel.

Keine Zinsbeschränkungen

Dedizierte Endpunkte unterliegen nicht den Ratenbegrenzungen der Plattform-API. Anfragen gehen direkt an Ihren dedizierten Dienst, sodass der Durchsatz nur durch die CPU, den Speicher und die Skalierungskonfiguration Ihres Endpunkts begrenzt ist. Dies ist ein entscheidender Vorteil gegenüber Shared Inference, das auf 20 Anfragen/Min. pro API-Schlüssel begrenzt ist.

Anfragebeispiel

PythonJavaScriptcURL

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");

// Send image for inference
const response = await fetch(
  "https://predict-abc123.run.app/predict",
  {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  }
);

const result = await response.json();
console.log(result);

curl -X POST \
  "https://predict-abc123.run.app/predict" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@image.jpg" \
  -F "conf=0.25" \
  -F "iou=0.7" \
  -F "imgsz=640"

Anforderungsparameter

Parameter	Typ	Standard	Beschreibung
`file`	Datei definiert	-	Bild- oder Videodatei (erforderlich)
`conf`	float	0.25	Minimaler Konfidenzschwellenwert
`iou`	float	0.7	NMS IoU-Schwellenwert
`imgsz`	int	640	Eingabebildgröße
`normalize`	string	-	Normalisierte Koordinaten zurückgeben

Video-Inferenz

Dedizierte Endpunkte akzeptieren Videodateien zusätzlich zu Bildern. Unterstützte Videoformate (bis zu 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV. Jeder Frame wird einzeln verarbeitet und die Ergebnisse werden pro Frame zurückgegeben. Unterstützte Bildformate (bis zu 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP.

Antwortformat

Gleich wie Shared Inference mit aufgabenspezifischen Feldern.

Preise

Grundlegende dedizierte Endpunkte sind auf allen Plänen kostenlos. Konfigurationen mit höheren Ressourcen (mehr vCPUs, mehr Arbeitsspeicher, Warmstart) werden zukünftig eine nutzungsbasierte Preisgestaltung bieten.

Kostenoptimierung

Verwenden Sie „Scale-to-Zero“ (Standard), damit Endpunkte nur bei Eingang von Anfragen ausgeführt werden
Legen Sie eine für Ihr Datenaufkommen geeignete maximale Anzahl an Instanzen fest
Nutzung im Monitoring-Dashboard überwachen

FAQ

Wie viele Endpunkte kann ich erstellen?

Endpunktgrenzen hängen vom Plan ab:

Kostenlos: Bis zu 3 Deployments
Pro: Bis zu 10 Bereitstellungen
Enterprise: Unbegrenzte Bereitstellungen

Jedes Modell kann weiterhin in mehreren Regionen innerhalb Ihres Plan-Kontingents bereitgestellt werden.

Kann ich die Region nach der Bereitstellung ändern?

Nein, Regionen sind fest. Um Regionen zu ändern:

Bestehenden Endpunkt löschen
Einen neuen Endpunkt in der gewünschten Region erstellen

Wie gehe ich mit Multi-Region-Bereitstellungen um?

Für globale Abdeckung:

Bereitstellung in mehreren Regionen
Einen Load Balancer oder DNS-Routing verwenden
Benutzer zum nächstgelegenen Endpunkt leiten

Wie hoch ist die Kaltstartzeit?

Die Kaltstartzeit hängt von der Modellgröße und davon ab, ob der Container bereits in der Region zwischengespeichert ist. Typische Bereiche:

Szenario	Kaltstart
Gecachter Container	~5–15 Sekunden
Erste Bereitstellung/Region	~15–45 Sekunden

Der Gesundheitscheck verwendet eine Zeitüberschreitung von 55 Sekunden, um auch den ungünstigsten Fall eines Kaltstarts zu berücksichtigen.

Kann ich benutzerdefinierte Domains verwenden?

Benutzerdefinierte Domains sind in Kürze verfügbar. Derzeit verwenden Endpunkte plattformgenerierte URLs.

📅 Erstellt vor 2 Monaten ✏️ Aktualisiert vor 7 Tagen

Dedizierte Endpunkte

Endpunkt erstellen

Aus der Registerkarte „Bereitstellen“

Von der Seite „Bereitstellungen“

Bereitstellungslebenszyklus

Regionsauswahl

Verfügbare Regionen

Endpunkt-Konfiguration

Neuer Bereitstellungsdialog

Registerkarte „Bereitstellen“ (Schnellbereitstellung)

Endpunkte verwalten

Anzeigemodi

Bereitstellungskarte (Kartenansicht)

Bereitstellungsstatus

Endpunkt-URL

Lebenszyklusmanagement

Endpunkt stoppen

Endpunkt löschen

Endpunkte verwenden

Authentifizierung

Keine Zinsbeschränkungen

Anfragebeispiel

Anforderungsparameter

Antwortformat

Preise

FAQ

Wie viele Endpunkte kann ich erstellen?

Kann ich die Region nach der Bereitstellung ändern?

Wie gehe ich mit Multi-Region-Bereitstellungen um?

Wie hoch ist die Kaltstartzeit?

Kann ich benutzerdefinierte Domains verwenden?

Kommentare