Zum Inhalt springen

Bereitstellung

Ultralytics Platform bietet umfassende Bereitstellungsoptionen, um Ihre YOLO-Modelle in Produktion zu nehmen. Testen Sie Modelle mit der Inference API, stellen Sie sie auf dedizierten Endpunkten bereit und überwachen Sie die Leistung in Echtzeit.

Überblick

Der Abschnitt Bereitstellung hilft Ihnen dabei:

  • Modelle direkt im Browser zu testen
  • auf dedizierten Endpunkten in 43 globalen Regionen zu bereitzustellen
  • Anforderungsmetriken und Protokolle zu überwachen
  • automatisch mit dem Traffic zu skalieren

Bereitstellungsoptionen

Ultralytics Platform bietet mehrere Bereitstellungspfade:

OptionBeschreibungAm besten geeignet für
Test-TabBrowserbasierte InferenztestsEntwicklung, Validierung
Geteilte APIMulti-Tenant-InferenzdienstLeichte Nutzung, Tests
Dedizierte EndpunkteSingle-Tenant-ProduktionsdiensteProduktion, geringe Latenz

Workflow

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
PhaseBeschreibung
TestModell mit sample_images validieren
KonfigurierenRegion und Skalierungsoptionen auswählen
BereitstellungDedizierten Endpunkt erstellen
ÜberwachenAnfragen, Latenz und Fehler track

Architektur

Geteilte Inferenz

Der gemeinsam genutzte Inferenzdienst läuft in 3 Schlüsselregionen:

RegionStandort
USAIowa, USA
EUBelgien, Europa
APTaiwan, Asien-Pazifik

Anfragen werden automatisch an Ihre Datenregion weitergeleitet.

Dedizierte Endpunkte

Bereitstellung in 43 Regionen weltweit:

  • Amerika: 15 Regionen
  • Europa: 12 Regionen
  • Asien-Pazifik: 16 Regionen

Jeder Endpunkt ist ein Single-Tenant-Dienst mit:

  • Dedizierte Rechenressourcen
  • Auto-Skalierung (0-N Instanzen)
  • Benutzerdefinierte URL
  • Unabhängiges Monitoring

Hauptmerkmale

Globale Abdeckung

Stellen Sie nahe bei Ihren Benutzern bereit, mit 43 Regionen, die abdecken:

  • Nordamerika, Südamerika
  • Europa, Mittlerer Osten, Afrika
  • Asien-Pazifik, Ozeanien

Auto-Skalierung

Endpunkte skalieren automatisch:

  • Skalierung auf Null: Keine Kosten im Leerlauf
  • Skalierbarkeit: Verkehrsspitzen bewältigen
  • Konfigurierbare Grenzwerte: Min/Max-Instanzen festlegen

Geringe Latenz

Dedizierte Endpunkte bieten:

  • Kaltstart: ~2-5 Sekunden
  • Warme Inferenz: 50-200 ms (modellabhängig)
  • Regionales Routing für optimale Leistung
  • Inferenz: Modelle im Browser testen
  • Endpunkte: Dedizierte Endpunkte bereitstellen
  • Monitoring: Tracken Sie die Bereitstellungs-Performance

FAQ

Was ist der Unterschied zwischen geteilter und dedizierter Inferenz?

MerkmalGeteiltDediziert
LatenzVariabelKonsistent
KostenZahlung pro AnfrageZahlung für Betriebszeit
SkalaBegrenztKonfigurierbar
Regionen343
URLGenerischBenutzerdefiniert

Wie lange dauert die Bereitstellung?

Die Bereitstellung dedizierter Endpunkte dauert in der Regel 1-2 Minuten:

  1. Image-Pull (~30s)
  2. Container-Start (~30s)
  3. Zustandsprüfung (~30s)

Kann ich mehrere Modelle bereitstellen?

Ja, jedes Modell kann mehrere Endpunkte in verschiedenen Regionen haben. Es gibt keine Begrenzung der Gesamtzahl der Endpunkte (abhängig von Ihrem Plan).

Was passiert, wenn ein Endpunkt im Leerlauf ist?

Mit aktivierter Skalierung auf Null:

  • Endpunkt skaliert nach Inaktivität herunter
  • Erste Anfrage löst Kaltstart aus
  • Nachfolgende Anfragen sind schnell

Um Kaltstarts zu vermeiden, setzen Sie die Mindestanzahl von Instanzen auf > 0.



📅 Erstellt vor 20 Tagen ✏️ Aktualisiert vor 14 Tagen
glenn-jocher

Kommentare