Zum Inhalt springen

Bereitstellung

Ultralytics bietet umfassende Bereitstellungsoptionen für die Produktion Ihrer YOLO . Testen Sie Modelle mit der Inferenz-API, stellen Sie sie auf dedizierten Endpunkten bereit und überwachen Sie die Leistung in Echtzeit.

Überblick

Der Abschnitt „Bereitstellung“ hilft Ihnen dabei:

  • Testmodelle direkt im Browser
  • Bereitstellung auf dedizierten Endpunkten in 43 Regionen weltweit
  • Überwachen Sie Anforderungsmetriken und Protokolle.
  • Automatische Skalierung je nach Datenverkehr

Bereitstellungsoptionen

Ultralytics bietet mehrere Bereitstellungswege:

OptionBeschreibungAm besten geeignet für
Test-RegisterkarteBrowserbasierte InferenzprüfungEntwicklung, Validierung
Gemeinsame APIMulti-Tenant-InferenzdienstLeichte Nutzung, Testphase
Dedizierte EndpunkteProduktionsdienstleistungen für einen einzelnen MandantenProduktion, geringe Latenz

Arbeitsablauf

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
BühneBeschreibung
TestModell mit Beispielbildern validieren
KonfigurierenRegion und Skalierungsoptionen auswählen
BereitstellenSpezifischen Endpunkt erstellen
MonitorAnfragen, Latenzzeiten und Fehler verfolgen

Architektur

Gemeinsame Schlussfolgerung

Der gemeinsame Inferenzdienst wird in drei wichtigen Regionen ausgeführt:

RegionStandort
USAUS-Zentral (Iowa)
EUEU West (Belgien)
APAsien-Pazifik (Hongkong)

Anfragen werden automatisch an Ihre Datenregion weitergeleitet.

Dedizierte Endpunkte

Bereitstellung in 43 Regionen weltweit:

  • Amerika: 15 Regionen
  • Europa: 12 Regionen
  • Asien-Pazifik: 16 Regionen

Jeder Endpunkt ist ein Single-Tenant-Dienst mit:

  • Dedizierte Rechenressourcen
  • Automatische Skalierung (0-N Instanzen)
  • Benutzerdefinierte URL
  • Unabhängige Überwachung

Hauptmerkmale

Weltweite Abdeckung

Stellen Sie Ihre Dienste in der Nähe Ihrer Nutzer bereit – mit 43 Regionen, die folgende Gebiete abdecken:

  • Nordamerika, Südamerika
  • Europa, Naher Osten, Afrika
  • Asien-Pazifik, Ozeanien

Automatische Skalierung

Endpunkte werden automatisch skaliert:

  • Auf Null skalieren: Keine Kosten im Leerlauf
  • Skalierung: Bewältigung von Traffic-Spitzen
  • Konfigurierbare Grenzwerte: Min./Max.-Instanzen festlegen

Geringe Latenz

Spezielle Endpunkte bieten:

  • Kaltstart: ~2–5 Sekunden
  • Warme Inferenz: 50–200 ms (modellabhängig)
  • Regionales Routing für optimale Leistung

FAQ

Was ist der Unterschied zwischen gemeinsamer und dedizierter Inferenz?

MerkmalGemeinsam genutztEngagiert
LatenzVariableKonsistent
KostenBezahlung pro AnfrageFür Betriebszeit bezahlen
SkalaBegrenztKonfigurierbar
Regionen343
URLGenerischBenutzerdefiniert

Wie lange dauert die Bereitstellung?

Die Bereitstellung dedizierter Endpunkte dauert in der Regel 1–2 Minuten:

  1. Bildabruf (~30 s)
  2. Containerstart (~30 s)
  3. Gesundheitscheck (~30 Sekunden)

Kann ich mehrere Modelle einsetzen?

Ja, jedes Modell kann mehrere Endpunkte in verschiedenen Regionen haben. Es gibt keine Begrenzung für die Gesamtzahl der Endpunkte (abhängig von Ihrem Tarif).

Was passiert, wenn ein Endpunkt inaktiv ist?

Bei aktivierter Nullskalierung:

  • Endpunkt wird nach Inaktivität heruntergefahren
  • Erste Anfrage löst Kaltstart aus
  • Nachfolgende Anfragen werden schnell bearbeitet.

Um Kaltstarts zu vermeiden, setzen Sie die Mindestanzahl an Instanzen auf > 0.



📅 Erstellt vor 0 Tagen ✏️ Aktualisiert vor 0 Tagen
glenn-jocher

Kommentare