Bereitstellung
Ultralytics Platform bietet umfassende Bereitstellungsoptionen, um Ihre YOLO-Modelle in Produktion zu nehmen. Testen Sie Modelle mit der Inference API, stellen Sie sie auf dedizierten Endpunkten bereit und überwachen Sie die Leistung in Echtzeit.
Überblick
Der Abschnitt Bereitstellung hilft Ihnen dabei:
- Modelle direkt im Browser zu testen
- auf dedizierten Endpunkten in 43 globalen Regionen zu bereitzustellen
- Anforderungsmetriken und Protokolle zu überwachen
- automatisch mit dem Traffic zu skalieren
Bereitstellungsoptionen
Ultralytics Platform bietet mehrere Bereitstellungspfade:
| Option | Beschreibung | Am besten geeignet für |
|---|---|---|
| Test-Tab | Browserbasierte Inferenztests | Entwicklung, Validierung |
| Geteilte API | Multi-Tenant-Inferenzdienst | Leichte Nutzung, Tests |
| Dedizierte Endpunkte | Single-Tenant-Produktionsdienste | Produktion, geringe Latenz |
Workflow
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Phase | Beschreibung |
|---|---|
| Test | Modell mit sample_images validieren |
| Konfigurieren | Region und Skalierungsoptionen auswählen |
| Bereitstellung | Dedizierten Endpunkt erstellen |
| Überwachen | Anfragen, Latenz und Fehler track |
Architektur
Geteilte Inferenz
Der gemeinsam genutzte Inferenzdienst läuft in 3 Schlüsselregionen:
| Region | Standort |
|---|---|
| USA | Iowa, USA |
| EU | Belgien, Europa |
| AP | Taiwan, Asien-Pazifik |
Anfragen werden automatisch an Ihre Datenregion weitergeleitet.
Dedizierte Endpunkte
Bereitstellung in 43 Regionen weltweit:
- Amerika: 15 Regionen
- Europa: 12 Regionen
- Asien-Pazifik: 16 Regionen
Jeder Endpunkt ist ein Single-Tenant-Dienst mit:
- Dedizierte Rechenressourcen
- Auto-Skalierung (0-N Instanzen)
- Benutzerdefinierte URL
- Unabhängiges Monitoring
Hauptmerkmale
Globale Abdeckung
Stellen Sie nahe bei Ihren Benutzern bereit, mit 43 Regionen, die abdecken:
- Nordamerika, Südamerika
- Europa, Mittlerer Osten, Afrika
- Asien-Pazifik, Ozeanien
Auto-Skalierung
Endpunkte skalieren automatisch:
- Skalierung auf Null: Keine Kosten im Leerlauf
- Skalierbarkeit: Verkehrsspitzen bewältigen
- Konfigurierbare Grenzwerte: Min/Max-Instanzen festlegen
Geringe Latenz
Dedizierte Endpunkte bieten:
- Kaltstart: ~2-5 Sekunden
- Warme Inferenz: 50-200 ms (modellabhängig)
- Regionales Routing für optimale Leistung
Schnellzugriffe
- Inferenz: Modelle im Browser testen
- Endpunkte: Dedizierte Endpunkte bereitstellen
- Monitoring: Tracken Sie die Bereitstellungs-Performance
FAQ
Was ist der Unterschied zwischen geteilter und dedizierter Inferenz?
| Merkmal | Geteilt | Dediziert |
|---|---|---|
| Latenz | Variabel | Konsistent |
| Kosten | Zahlung pro Anfrage | Zahlung für Betriebszeit |
| Skala | Begrenzt | Konfigurierbar |
| Regionen | 3 | 43 |
| URL | Generisch | Benutzerdefiniert |
Wie lange dauert die Bereitstellung?
Die Bereitstellung dedizierter Endpunkte dauert in der Regel 1-2 Minuten:
- Image-Pull (~30s)
- Container-Start (~30s)
- Zustandsprüfung (~30s)
Kann ich mehrere Modelle bereitstellen?
Ja, jedes Modell kann mehrere Endpunkte in verschiedenen Regionen haben. Es gibt keine Begrenzung der Gesamtzahl der Endpunkte (abhängig von Ihrem Plan).
Was passiert, wenn ein Endpunkt im Leerlauf ist?
Mit aktivierter Skalierung auf Null:
- Endpunkt skaliert nach Inaktivität herunter
- Erste Anfrage löst Kaltstart aus
- Nachfolgende Anfragen sind schnell
Um Kaltstarts zu vermeiden, setzen Sie die Mindestanzahl von Instanzen auf > 0.