Bereitstellung
Ultralytics bietet umfassende Bereitstellungsoptionen für die Produktion Ihrer YOLO . Testen Sie Modelle mit der Inferenz-API, stellen Sie sie auf dedizierten Endpunkten bereit und überwachen Sie die Leistung in Echtzeit.
Überblick
Der Abschnitt „Bereitstellung“ hilft Ihnen dabei:
- Testmodelle direkt im Browser
- Bereitstellung auf dedizierten Endpunkten in 43 Regionen weltweit
- Überwachen Sie Anforderungsmetriken und Protokolle.
- Automatische Skalierung je nach Datenverkehr
Bereitstellungsoptionen
Ultralytics bietet mehrere Bereitstellungswege:
| Option | Beschreibung | Am besten geeignet für |
|---|---|---|
| Test-Registerkarte | Browserbasierte Inferenzprüfung | Entwicklung, Validierung |
| Gemeinsame API | Multi-Tenant-Inferenzdienst | Leichte Nutzung, Testphase |
| Dedizierte Endpunkte | Produktionsdienstleistungen für einen einzelnen Mandanten | Produktion, geringe Latenz |
Arbeitsablauf
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Bühne | Beschreibung |
|---|---|
| Test | Modell mit Beispielbildern validieren |
| Konfigurieren | Region und Skalierungsoptionen auswählen |
| Bereitstellen | Spezifischen Endpunkt erstellen |
| Monitor | Anfragen, Latenzzeiten und Fehler verfolgen |
Architektur
Gemeinsame Schlussfolgerung
Der gemeinsame Inferenzdienst wird in drei wichtigen Regionen ausgeführt:
| Region | Standort |
|---|---|
| USA | US-Zentral (Iowa) |
| EU | EU West (Belgien) |
| AP | Asien-Pazifik (Hongkong) |
Anfragen werden automatisch an Ihre Datenregion weitergeleitet.
Dedizierte Endpunkte
Bereitstellung in 43 Regionen weltweit:
- Amerika: 15 Regionen
- Europa: 12 Regionen
- Asien-Pazifik: 16 Regionen
Jeder Endpunkt ist ein Single-Tenant-Dienst mit:
- Dedizierte Rechenressourcen
- Automatische Skalierung (0-N Instanzen)
- Benutzerdefinierte URL
- Unabhängige Überwachung
Hauptmerkmale
Weltweite Abdeckung
Stellen Sie Ihre Dienste in der Nähe Ihrer Nutzer bereit – mit 43 Regionen, die folgende Gebiete abdecken:
- Nordamerika, Südamerika
- Europa, Naher Osten, Afrika
- Asien-Pazifik, Ozeanien
Automatische Skalierung
Endpunkte werden automatisch skaliert:
- Auf Null skalieren: Keine Kosten im Leerlauf
- Skalierung: Bewältigung von Traffic-Spitzen
- Konfigurierbare Grenzwerte: Min./Max.-Instanzen festlegen
Geringe Latenz
Spezielle Endpunkte bieten:
- Kaltstart: ~2–5 Sekunden
- Warme Inferenz: 50–200 ms (modellabhängig)
- Regionales Routing für optimale Leistung
Schnellzugriff
- Inferenz: Testen Sie Modelle im Browser
- Endpunkte: Spezielle Endpunkte bereitstellen
- Überwachung: Verfolgen Sie die Bereitstellungsleistung
FAQ
Was ist der Unterschied zwischen gemeinsamer und dedizierter Inferenz?
| Merkmal | Gemeinsam genutzt | Engagiert |
|---|---|---|
| Latenz | Variable | Konsistent |
| Kosten | Bezahlung pro Anfrage | Für Betriebszeit bezahlen |
| Skala | Begrenzt | Konfigurierbar |
| Regionen | 3 | 43 |
| URL | Generisch | Benutzerdefiniert |
Wie lange dauert die Bereitstellung?
Die Bereitstellung dedizierter Endpunkte dauert in der Regel 1–2 Minuten:
- Bildabruf (~30 s)
- Containerstart (~30 s)
- Gesundheitscheck (~30 Sekunden)
Kann ich mehrere Modelle einsetzen?
Ja, jedes Modell kann mehrere Endpunkte in verschiedenen Regionen haben. Es gibt keine Begrenzung für die Gesamtzahl der Endpunkte (abhängig von Ihrem Tarif).
Was passiert, wenn ein Endpunkt inaktiv ist?
Bei aktivierter Nullskalierung:
- Endpunkt wird nach Inaktivität heruntergefahren
- Erste Anfrage löst Kaltstart aus
- Nachfolgende Anfragen werden schnell bearbeitet.
Um Kaltstarts zu vermeiden, setzen Sie die Mindestanzahl an Instanzen auf > 0.