Dedizierte Endpunkte

Die Ultralytics Platform ermöglicht die Bereitstellung von YOLO-Modellen auf dedizierten Endpunkten in 43 globalen Regionen. Jeder Endpunkt ist ein Single-Tenant-Dienst mit Scale-to-Zero-Verhalten, einer eindeutigen Endpunkt-URL und unabhängiger Überwachung.

Ultralytics Platform Modell-Bereitstellungs-Tab mit Regionskarte und Tabelle

Endpunkt erstellen

Vom Bereitstellungs-Tab aus

Stelle ein Modell über dessen Deploy-Tab bereit:

  1. Navigiere zu deinem Modell
  2. Klicke auf den Tab Deploy
  3. Wähle eine Region auf der interaktiven Weltkarte aus – die Regionen sind nach Latenz von deinem Standort aus farblich gekennzeichnet (grün < 100ms, gelb < 200ms, rot > 200ms)
  4. Klicke in der Regionszeile auf Deploy

Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Regionsstadt generiert (z. B. yolo26n-iowa).

Von der Bereitstellungs-Seite aus

Erstelle eine Bereitstellung über die globale Deploy-Seite in der Seitenleiste:

  1. Klicke auf New Deployment
  2. Wähle ein Modell aus dem Modellauswahlmenü
  3. Wähle eine Region auf der Karte oder in der Tabelle aus
  4. Überprüfe den automatisch generierten Bereitstellungsnamen (bearbeitbar) und die Standardressourcen
  5. Klicke auf Deploy Model

Ultralytics Platform Dialog für neue Bereitstellungen mit Modellauswahl und Regionskarte

Deployment-Lebenszyklus

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Region auswählen

Wähle aus 43 Regionen weltweit. Die interaktive Regionskarte und die Tabelle zeigen:

  • Regions-Pins: Farblich gekennzeichnet nach Latenz (grün < 100ms, gelb < 200ms, rot > 200ms)
  • Bereitgestellte Regionen: Mit einem "Deployed"-Badge hervorgehoben
  • Bereitstellung läuft: Animierter Puls-Indikator
  • Bidirektionale Hervorhebung: Wenn du auf der Karte mit der Maus darüberfährst, wird die Tabellenzeile hervorgehoben und umgekehrt

Ultralytics Platform Bereitstellungs-Tab Region-Latenz-Tabelle sortiert nach Latenz

Die Regionstabelle auf dem Deploy-Tab des Modells enthält:

SpalteBeschreibung
StandortStadt und Land mit Flaggensymbol
ZoneRegionskennung
LatenzGemessene Ping-Zeit (Median von 3 Pings)
EntfernungEntfernung von deinem Standort in km
AktionenBereitstellungs-Schaltfläche oder "Deployed"-Status-Badge
Dialog für neue Bereitstellung

Der New Deployment-Dialog (von der globalen Deploy-Seite) zeigt eine einfachere Regionstabelle mit nur den Spalten Standort, Latenz und Auswählen.

Wähle weise

Wähle die Region, die deinen Benutzern am nächsten liegt, für die niedrigste Latenz. Verwende die Schaltfläche Rescan, um die Latenz von deinem aktuellen Standort erneut zu messen.

Verfügbare Regionen

ZoneStandort
us-central1Iowa, USA
us-east1South Carolina, USA
us-east4Northern Virginia, USA
us-east5Columbus, USA
us-south1Dallas, USA
us-west1Oregon, USA
us-west2Los Angeles, USA
us-west3Salt Lake City, USA
us-west4Las Vegas, USA
northamerica-northeast1Montreal, Kanada
northamerica-northeast2Toronto, Kanada
northamerica-south1Queretaro, Mexiko
southamerica-east1Sao Paulo, Brasilien
southamerica-west1Santiago, Chile

Endpunkt-Konfiguration

Dialog für neue Bereitstellung

Der Dialog New Deployment bietet:

EinstellungBeschreibungStandard
ModellWähle aus abgeschlossenen Modellen aus-
RegionBereitstellungsregion-
BereitstellungsnameAutomatisch generiert, bearbeitbar-
CPU-KerneFester Standardwert1
Speicher (GB)Fester Standardwert2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

Bereitstellungen nutzen feste Standardwerte von 1 CPU, 2 GiB Speicher, minInstances = 0 und maxInstances = 1. Sie skalieren auf null, wenn sie inaktiv sind, sodass du nur für die aktive Inferenzzeit bezahlst.

Automatisch generierte Namen

Der Bereitstellungsname wird automatisch aus dem Modellnamen und der Stadt der Region generiert (z. B. yolo26n-iowa). Wenn du dasselbe Modell erneut in derselben Region bereitstellst, wird ein numerisches Suffix hinzugefügt (z. B. yolo26n-iowa-2).

Tab „Bereitstellen“ (Schnelle Bereitstellung)

Bei der Bereitstellung über den Deploy-Tab des Modells werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Speicher) und aktiviertem Scale-to-Zero erstellt. Der Bereitstellungsname wird automatisch generiert.

Endpunkte verwalten

Ansichtsmodi

Die Liste der Bereitstellungen unterstützt drei Ansichtsmodi:

ModusBeschreibung
KartenDetaillierte Karten mit Protokollen, Codebeispielen und Vorhersage-Panel
KompaktRaster aus kleineren Karten mit den wichtigsten Metriken
TabelleDatentabelle mit sortierbaren Spalten und Suchfunktion

Ultralytics Platform Deploy Tab Active Deployments Cards View

Bereitstellungskarte (Kartenansicht)

Jede Bereitstellungskarte in der Kartenansicht zeigt:

  • Header: Name, Regionsflagge, Status-Badge, Schaltflächen zum Starten/Stoppen/Löschen
  • Endpunkt-URL: Kopierbare URL mit Link zur API-Dokumentation
  • Metriken: Anzahl der Anfragen (24h), P95-Latenz, Fehlerrate
  • Gesundheitscheck: Live-Statusanzeige mit Latenz und manueller Aktualisierung
  • Tabs: Logs, Code und Predict

Der Logs-Tab zeigt aktuelle Protokolleinträge mit Schweregradfilter (Alle / Fehler). Der Code-Tab zeigt gebrauchsfertige Codebeispiele in Python, JavaScript und cURL mit deiner tatsächlichen Endpunkt-URL und deinem API-Schlüssel. Der Predict-Tab bietet ein direktes Vorhersage-Panel zum Testen direkt auf der Bereitstellung.

Bereitstellungsstatus

StatusBeschreibung
Wird erstelltBereitstellung wird eingerichtet
Wird bereitgestelltContainer wird gestartet
BereitEndpunkt ist aktiv und nimmt Anfragen entgegen
Wird gestopptEndpunkt wird heruntergefahren
GestopptEndpunkt ist pausiert (keine Abrechnung)
FehlgeschlagenBereitstellung fehlgeschlagen (siehe Fehlermeldung)

Endpunkt-URL

Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:

https://predict-abc123.run.app

Ultralytics Platform Deployment Card Endpoint Url With Copy Button

Klicke auf die Kopieren-Schaltfläche, um die URL zu kopieren. Klicke auf das Dokumentationssymbol, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.

Lebenszyklusmanagement

Steuere den Status deines Endpunkts:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
AktionBeschreibung
StartenEinen gestoppten Endpunkt fortsetzen
StoppenDen Endpunkt pausieren (keine Abrechnung)
LöschenEndpunkt dauerhaft entfernen

Endpunkt stoppen

Stoppe einen Endpunkt, um die Abrechnung zu pausieren:

  1. Klicke auf das Pausen-Symbol auf der Bereitstellungskarte
  2. Der Endpunkt-Status ändert sich zu „Wird gestoppt“ und dann zu „Gestoppt“

Gestoppte Endpunkte:

  • Nehmen keine Anfragen entgegen
  • Verursachen keine Kosten
  • Können jederzeit neu gestartet werden

Endpunkt löschen

Einen Endpunkt dauerhaft entfernen:

  1. Klicke auf das Löschen-Symbol (Papierkorb) auf der Bereitstellungskarte
  2. Bestätige die Löschung im Dialog
Dauerhafte Aktion

Das Löschen erfolgt sofort und dauerhaft. Du kannst jederzeit einen neuen Endpunkt erstellen.

Endpunkte verwenden

Authentifizierung

Jede Bereitstellung wird mit einem API-Schlüssel aus deinem Konto erstellt. Füge ihn in Anfragen ein:

Authorization: Bearer YOUR_API_KEY

Das Präfix des API-Schlüssels wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generiere Schlüssel unter API Keys.

Keine Ratenbegrenzung

Dedizierte Endpunkte unterliegen nicht den Ratenbegrenzungen der Platform API. Anfragen gehen direkt an deinen dedizierten Dienst, sodass der Durchsatz nur durch CPU, Arbeitsspeicher und die Skalierungskonfiguration deines Endpunkts begrenzt wird. Dies ist ein entscheidender Vorteil gegenüber der Shared Inference, die auf 20 Anfragen/Min. pro API-Schlüssel begrenzt ist.

Anfragebeispiel

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Anfrageparameter

ParameterTypStandardBereichBeschreibung
filefile--Bild- oder Videodatei (erforderlich)
conffloat0.250.01 – 1.0Mindest-Konfidenzschwelle
ioufloat0.70.0 – 0.95NMS IoU-Schwelle
imgszint64032 – 1280Eingabebildgröße in Pixeln
normalizeboolfalsch-Bbox-Koordinaten als 0 – 1 zurückgeben
decimalsint50 – 10Dezimalgenauigkeit für Koordinatenwerte
sourcestring--Bild-URL oder Base64-String (Alternative zu file)
Video-Inferenz

Dedizierte Endpunkte akzeptieren sowohl Bilder als auch Videos über den file-Parameter.

  • Bildformate (bis zu 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
  • Videoformate (bis zu 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Each video frame is processed individually and results are returned per frame. You can also pass a public image URL or a base64-encoded image via the source parameter instead of file.

Antwortformat

Identisch mit Shared Inference mit aufgabenspezifischen Feldern.

Preise

Einfache dedizierte Endpunkte sind in allen Tarifen kostenlos. Konfigurationen mit höheren Ressourcen (mehr vCPUs, mehr Arbeitsspeicher, Warm Start) bieten zukünftig eine nutzungsbasierte Abrechnung.

Kostenoptimierung
  • Verwende Scale-to-Zero (Standard), damit Endpunkte nur laufen, wenn sie Anfragen empfangen
  • Lege eine angemessene maximale Instanzanzahl für deinen Traffic fest
  • Überwache die Nutzung im Monitoring-Dashboard

FAQ

Wie viele Endpunkte kann ich erstellen?

Endpunkt-Limits hängen vom Tarif ab:

  • Free: Bis zu 3 Deployments
  • Pro: Bis zu 10 Deployments
  • Enterprise: Unbegrenzte Deployments

Jedes Modell kann innerhalb deines Tarif-Kontingents weiterhin in mehreren Regionen bereitgestellt werden.

Kann ich die Region nach dem Deployment ändern?

Nein, Regionen sind fix. Um die Region zu ändern:

  1. Lösche den bestehenden Endpunkt
  2. Erstelle einen neuen Endpunkt in der gewünschten Region

Wie gehe ich mit Multi-Region-Deployments um?

Für globale Abdeckung:

  1. Deploye in mehreren Regionen
  2. Verwende einen Load Balancer oder DNS-Routing
  3. Route Benutzer zum nächstgelegenen Endpunkt

Wie hoch ist die Cold-Start-Zeit?

Die Cold-Start-Zeit hängt von der Modellgröße und davon ab, ob der Container bereits in der Region zwischengespeichert ist. Typische Bereiche:

SzenarioCold Start
Gecachter Container~5-15 Sekunden
Erstdeployment/Region~15-45 Sekunden

Der Health-Check verwendet ein 55-Sekunden-Timeout, um auch im schlimmsten Fall eines Cold Starts zu funktionieren.

Kann ich eigene Domains verwenden?

Eigene Domains sind in Kürze verfügbar. Derzeit verwenden Endpunkte plattformgenerierte URLs.

Kommentare