Meet YOLO26: next-gen vision AI.

Link to this sectionDedicated Endpoints#

Die Ultralytics Platform ermöglicht die Bereitstellung von YOLO-Modellen auf dedizierten Endpunkten in 43 globalen Regionen. Jeder Endpunkt ist ein Single-Tenant-Dienst mit Scale-to-Zero-Verhalten, einer eindeutigen Endpunkt-URL und unabhängigem Monitoring.

Ultralytics Platform Model Deploy Tab With Region Map And Table

Link to this sectionEndpunkt erstellen#

Link to this sectionÜber den Reiter „Deploy“#

Stelle ein Modell über dessen Deploy-Reiter bereit:

  1. Navigiere zu deinem Modell
  2. Klicke auf den Reiter Deploy
  3. Wähle eine Region auf der interaktiven Weltkarte aus – die Regionen sind nach der Latenz von deinem Standort aus farblich auf einem Grün-Rot-Verlauf kodiert (schnellere Regionen sind grüner, langsamere Regionen rötlicher)
  4. Klicke in der Zeile der Region auf Deploy

Der Name der Bereitstellung wird automatisch aus dem Modellnamen und der Stadt der Region generiert (z. B. yolo26n-iowa).

Link to this sectionÜber die Seite „Deployments“#

Erstelle eine Bereitstellung über die globale Deploy-Seite in der Seitenleiste:

  1. Klicke auf New Deployment
  2. Wähle ein Modell aus dem Modellauswahlmenü
  3. Wähle eine Region auf der Karte oder in der Tabelle aus
  4. Überprüfe den automatisch generierten Namen der Bereitstellung (editierbar) und die Standardressourcen
  5. Klicke auf Deploy Model

Ultralytics Platform New Deployment Dialog With Model Selector And Region Map

Link to this sectionDeployment-Lebenszyklus#

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Link to this sectionRegionsauswahl#

Wähle aus 43 Regionen weltweit. Die interaktive Regionskarte und die Tabelle zeigen:

  • Regions-Pins: Farblich kodiert nach Latenz auf einem Grün-Rot-Verlauf (schnellere Regionen sind grüner, langsamere Regionen rötlicher)
  • Bereitgestellte Regionen: Hervorgehoben mit einer „Deployed“-Plakette
  • Bereitstellung läuft: Animierte Pulsanzeige
  • Bidirektionale Hervorhebung: Das Bewegen des Mauszeigers über die Karte hebt die Tabellenzeile hervor und umgekehrt

Ultralytics Platform Deploy Tab Region Latency Table Sorted By Latency

Die Regionstabelle im Deploy-Reiter des Modells enthält:

SpalteBeschreibung
StandortStadt und Land mit Flaggensymbol
ZoneRegionskennung
LatenzGemessene Ping-Zeit (Median aus 3 Pings)
EntfernungEntfernung von deinem Standort in km
AktionenDeploy-Schaltfläche oder „Deployed“-Statusplakette
Dialog „New Deployment“

Der New Deployment-Dialog (von der globalen Deploy-Seite aus) zeigt eine einfachere Regionstabelle mit nur den Spalten Standort, Latenz und Auswählen.

Wähle weise

Wähle die für deine Nutzer am nächsten gelegene Region für die geringste Latenz. Verwende die Rescan-Schaltfläche, um die Latenz von deinem aktuellen Standort aus neu zu messen.

Link to this sectionVerfügbare Regionen#

ZoneStandort
us-central1Iowa, USA
us-east1South Carolina, USA
us-east4Northern Virginia, USA
us-east5Columbus, USA
us-south1Dallas, USA
us-west1Oregon, USA
us-west2Los Angeles, USA
us-west3Salt Lake City, USA
us-west4Las Vegas, USA
northamerica-northeast1Montreal, Canada
northamerica-northeast2Toronto, Canada
northamerica-south1Queretaro, Mexico
southamerica-east1Sao Paulo, Brazil
southamerica-west1Santiago, Chile

Link to this sectionEndpunkt-Konfiguration#

Link to this sectionDialog „New Deployment“#

Der Dialog New Deployment bietet:

EinstellungBeschreibungStandard
ModellAus fertigen Modellen auswählen-
RegionDeployment-Region-
BereitstellungsnameAutomatisch generiert, bearbeitbar-
CPU-KerneFester Standardwert1
Arbeitsspeicher (GB)Fester Standardwert2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

Bereitstellungen verwenden feste Standardwerte von 1 CPU, 2 GiB Arbeitsspeicher, minInstances = 0 und maxInstances = 1. Sie skalieren auf Null, wenn sie im Leerlauf sind, sodass du nur für die aktive Inferenzzeit zahlst.

Automatisch generierte Namen

Der Bereitstellungsname wird automatisch aus dem Modellnamen und der Stadt der Region generiert (z. B. yolo26n-iowa). Wenn du dasselbe Modell erneut in derselben Region bereitstellst, wird ein numerisches Suffix hinzugefügt (z. B. yolo26n-iowa-2).

Link to this sectionBereitstellungs-Tab (Quick Deploy)#

Bei der Bereitstellung über den Deploy-Tab des Modells werden Endpunkte mit Standardressourcen (1 CPU, 2 GB Arbeitsspeicher) und aktivierter Scale-to-Zero-Funktion erstellt. Der Bereitstellungsname wird automatisch generiert.

Link to this sectionEndpunkte verwalten#

Link to this sectionAnsichtsmodi#

Die Liste der Bereitstellungen unterstützt drei Ansichtsmodi:

ModusBeschreibung
KartenDetaillierte Karten mit Logs, Code-Beispielen und Vorhersage-Panel
KompaktRaster aus kleineren Karten mit wichtigen Metriken
TabelleDatentabelle mit sortierbaren Spalten und Suchfunktion

Ultralytics Platform Deploy Tab Active Deployments Cards View

Link to this sectionBereitstellungskarte (Kartenansicht)#

Jede Bereitstellungskarte in der Kartenansicht zeigt:

  • Kopfzeile: Name, Regionenflagge, Status-Badge, Schaltflächen für Start/Stopp/Löschen
  • Endpunkt-URL: Kopierbare URL mit Link zur API-Dokumentation
  • Metriken: Anzahl der Anfragen (24h), P95-Latenz, Fehlerrate
  • Health-Check: Live-Statusanzeige mit Latenz und manueller Aktualisierung
  • Tabs: Logs, Code und Predict

Der Logs-Tab zeigt aktuelle Protokolleinträge mit Schweregradfilter (Alle / Fehler). Der Code-Tab zeigt gebrauchsfertige Code-Beispiele in Python, JavaScript und cURL mit deiner tatsächlichen Endpunkt-URL und deinem API-Key. Der Predict-Tab bietet ein Inline-Vorhersage-Panel zum direkten Testen auf der Bereitstellung.

Link to this sectionBereitstellungsstatus#

StatusBeschreibung
CreatingBereitstellung wird eingerichtet
DeployingContainer wird gestartet
ReadyEndpunkt ist aktiv und akzeptiert Anfragen
StoppingEndpunkt wird heruntergefahren
StoppedEndpunkt ist pausiert (keine Abrechnung)
FehlgeschlagenBereitstellung fehlgeschlagen (siehe Fehlermeldung)

Link to this sectionEndpunkt-URL#

Jeder Endpunkt hat eine eindeutige URL, zum Beispiel:

https://predict-abc123.run.app

Ultralytics Platform Deployment Card Endpoint Url With Copy Button

Klicke auf die Kopieren-Schaltfläche, um die URL zu kopieren. Klicke auf das Dokumentations-Symbol, um die automatisch generierte API-Dokumentation für den Endpunkt anzuzeigen.

Link to this sectionLebenszyklus-Management#

Steuere den Status deines Endpunkts:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
AktionBeschreibung
StartEinen gestoppten Endpunkt fortsetzen
StopDen Endpunkt pausieren (keine Abrechnung)
LöschenEndpunkt dauerhaft entfernen

Link to this sectionEndpunkt stoppen#

Stoppe einen Endpunkt, um die Abrechnung zu pausieren:

  1. Klicke auf das Pausen-Symbol auf der Bereitstellungskarte
  2. Der Endpunktstatus ändert sich zu "Stopping" und dann zu "Stopped"

Gestoppte Endpunkte:

  • Akzeptieren keine Anfragen
  • Verursachen keine Kosten
  • Können jederzeit neu gestartet werden

Link to this sectionEndpunkt löschen#

Einen Endpunkt dauerhaft entfernen:

  1. Klicke auf das Löschen-Symbol (Papierkorb) auf der Bereitstellungskarte
  2. Bestätige das Löschen im Dialog
Dauerhafte Aktion

Das Löschen erfolgt sofort und dauerhaft. Du kannst jederzeit einen neuen Endpunkt erstellen.

Link to this sectionEndpunkte verwenden#

Link to this sectionAuthentifizierung#

Jede Bereitstellung wird mit einem API-Key aus deinem Konto erstellt. Füge ihn in Anfragen hinzu:

Authorization: Bearer YOUR_API_KEY

Das Präfix des API-Keys wird zur Identifizierung in der Fußzeile der Bereitstellungskarte angezeigt. Generiere Keys unter API Keys.

Link to this sectionKeine Ratenbegrenzungen#

Anfragen, die direkt an die URL deines dedizierten Endpunkts gesendet werden, unterliegen nicht den Ratenbegrenzungen der Platform API — der Durchsatz ist nur durch die CPU-, Arbeitsspeicher- und Skalierungskonfiguration deines Endpunkts begrenzt. (Anfragen, die über die Platform API weitergeleitet werden, wie z. B. der Test im Browser, nutzen weiterhin das Standardlimit von 20 Anfragen/Min für Vorhersagen.) Dies ist ein entscheidender Vorteil gegenüber der geteilten Inferenz, die auf 20 Anfragen/Min pro API-Key begrenzt ist.

Link to this sectionAnfragebeispiel#

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Link to this sectionAnfrage-Parameter#

ParameterTypStandardBereichBeschreibung
fileDatei--Bild- oder Videodatei (erforderlich)
conffloat0.250.01 – 1.0Minimaler Konfidenz-Schwellenwert
ioufloat0,70.0 – 0.95NMS IoU-Schwellenwert
imgszint64032 – 1280Eingabebildgröße in Pixeln
normalizeboolfalse-BBox-Koordinaten als 0 – 1 zurückgeben
decimalsint50 – 10Dezimalpräzision für Koordinatenwerte
sourcestring--Bild-URL oder base64-String (Alternative zu file)
Videoinferenz

Dedizierte Endpunkte akzeptieren sowohl Bilder als auch Videos über den file-Parameter.

  • Bildformate (bis zu 100 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
  • Videoformate (bis zu 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Jeder Videofram wird einzeln verarbeitet und die Ergebnisse werden pro Frame zurückgegeben. Du kannst alternativ eine öffentliche Bild-URL oder ein base64-kodiertes Bild über den source-Parameter anstelle von file übergeben.

Link to this sectionAntwortformat#

Gleich wie bei der geteilten Inferenz mit aufgabenspezifischen Feldern.

Link to this sectionPreise#

Grundlegende dedizierte Endpunkte sind auf allen Plänen kostenlos. Konfigurationen mit höheren Ressourcen (mehr vCPUs, mehr Arbeitsspeicher, Warmstart) werden in Zukunft eine nutzungsbasierte Preisgestaltung bieten.

Kostenoptimierung
  • Nutze Scale-to-Zero (Standard), damit Endpunkte nur laufen, wenn sie Anfragen empfangen
  • Lege eine angemessene maximale Anzahl an Instanzen für deinen Datenverkehr fest
  • Überwache die Nutzung im Monitoring-Dashboard

Link to this sectionFAQ#

Link to this sectionWie viele Endpunkte kann ich erstellen?#

Die Endpunkt-Limits hängen von deinem Plan ab:

  • Free: Bis zu 3 Deployments
  • Pro: Bis zu 10 Deployments
  • Enterprise: Unbegrenzte Deployments

Jedes Modell kann weiterhin in mehreren Regionen innerhalb deines Planzugriffs bereitgestellt werden.

Link to this sectionKann ich die Region nach dem Deployment ändern?#

Nein, Regionen sind festgelegt. Um die Region zu ändern:

  1. Lösche den bestehenden Endpunkt
  2. Erstelle einen neuen Endpunkt in der gewünschten Region

Link to this sectionWie gehe ich mit einem Multi-Region-Deployment um?#

Für eine globale Abdeckung:

  1. Stelle in mehreren Regionen bereit
  2. Nutze einen Load Balancer oder DNS-Routing
  3. Route Benutzer zum nächstgelegenen Endpunkt

Link to this sectionWie lange ist die Kaltstartzeit?#

Die Kaltstartzeit hängt von der Modellgröße ab und davon, ob der Container bereits in der Region zwischengespeichert (cached) ist. Typische Bereiche:

SzenarioKaltstart
Zwischengespeicherter Container~5-15 Sekunden
Erstes Deployment/Region~15-45 Sekunden

Der Health-Check verwendet ein 55-Sekunden-Timeout, um auch bei schlechtesten Kaltstart-Bedingungen zu funktionieren.

Link to this sectionKann ich benutzerdefinierte Domains verwenden?#

Benutzerdefinierte Domains kommen bald. Derzeit verwenden Endpunkte plattformgenerierte URLs.

Kommentare