Datensätze
Ultralytics Platform-Datensätze bieten eine optimierte Lösung zur Verwaltung Ihrer Trainingsdaten. Nach dem Upload können Datensätze sofort für das Modelltraining verwendet werden, mit automatischer Verarbeitung und Statistikgenerierung.
Datensatz hochladen
Ultralytics akzeptiert mehrere Upload-Formate und bietet somit Flexibilität.
Unterstützte Bildformate
| Format | Erweiterungen | Hinweise |
|---|---|---|
| JPEG | .jpg, .jpeg | Am häufigsten, empfohlen |
| PNG | .png | Unterstützt Transparenz |
| WebP | .webp | Modern, gute Kompression |
| BMP | .bmp | Unkomprimiert |
| GIF | .gif | Erster Frame extrahiert |
| TIFF | .tiff, .tif | Hohe Qualität |
| HEIC | .heic | iPhone-Fotos |
| AVIF | .avif | Format der nächsten Generation |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | Rohkamera |
Unterstützte Videoformate
Videos werden automatisch in Einzelbilder zerlegt:
| Format | Erweiterungen | Extraktion |
|---|---|---|
| MP4 | .mp4 | 1 FPS, maximal 100 Bilder |
| WebM | .webm | 1 FPS, maximal 100 Bilder |
| MOV | .mov | 1 FPS, maximal 100 Bilder |
| AVI | .avi | 1 FPS, maximal 100 Bilder |
| MKV | .mkv | 1 FPS, maximal 100 Bilder |
| M4V | .m4v | 1 FPS, maximal 100 Bilder |
Dateigrößenbeschränkungen
| Typ | Maximale Größe |
|---|---|
| Bilder | jeweils 50 MB |
| Videos | jeweils 1 GB |
| ZIP-Dateien | 50 GB |
Archiv
ZIP-Dateien mit einer Größe von bis zu 50 GB werden unterstützt, wobei die Ordnerstruktur beibehalten wird und die automatische Extraktion und Verarbeitung erfolgt.
Vorbereitung Ihres Datensatzes
Für gelabelte Datensätze verwenden Sie das Standard-YOLO-Format:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Die yaml-Datei definiert Ihre Datensatzkonfiguration:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Upload-Prozess
- Navigieren Sie zu Datensätze in der Seitenleiste
- Klicken Sie auf Datensatz hochladen oder ziehen Sie Dateien in den Upload-Bereich
- Wählen Sie den Aufgabentyp aus (detect, segment, Pose, obb, classify)
- Fügen Sie einen Namen und eine optionale Beschreibung hinzu
- Klicken Sie auf Hochladen
Nach dem Hochladen verarbeitet die Plattform Ihre Daten:
- Normalisierung: Große Bilder werden skaliert (max. 4096px)
- Vorschaubilder: 256px-Vorschauen werden generiert
- Label-Parsing: YOLO-Format-Labels werden extrahiert
- Statistiken: Klassenverteilungen werden berechnet
Vor dem Hochladen validieren
Sie können Ihren Datensatz lokal validieren, bevor Sie ihn hochladen:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Bilder durchsuchen
Zeigen Sie Ihre Datensatzbilder in verschiedenen Layouts an:
| Ansicht | Beschreibung |
|---|---|
| Raster | Miniaturbildraster mit Annotations-Overlays |
| Kompakt | Kleinere Miniaturbilder für schnelles Scannen |
| Tabelle | Liste mit Dateiname, Dimensionen und Label-Anzahlen |
Vollbild-Viewer
Klicken Sie auf ein beliebiges Bild, um den Vollbild-Viewer zu öffnen mit:
- Navigation: Pfeiltasten oder Klick zum Navigieren
- Metadaten: Dateiname, Dimensionen, Split, Label-Anzahl
- Annotationen: Sichtbarkeit der Annotationen umschalten
- Klassenaufschlüsselung: Label-Anzahlen pro Klasse
Nach Split filtern
Bilder nach ihrem Dataset-Split filtern:
| Split | Zweck |
|---|---|
| Trainieren | Verwendet für das Modelltraining |
| Validieren | Verwendet zur Validierung während des Trainings |
| Test | Verwendet für die finale Evaluierung |
| Unbekannt | Kein Split zugewiesen |
Datensatzstatistiken
Der Tab Statistiken bietet eine automatische Analyse Ihres Datasets:
Klassen-Verteilung
Balkendiagramm, das die Anzahl der Annotationen pro Klasse zeigt:
Positions-Heatmap
Visualisierung, wo Annotationen in Bildern erscheinen:
Dimensionsanalyse
Streudiagramm der Bilddimensionen (Breite vs. Höhe):
Statistik-Caching
Statistiken werden für 5 Minuten zwischengespeichert. Änderungen an Annotationen werden nach Ablauf des Caches übernommen.
Datensatz exportieren
Exportieren Sie Ihr Dataset im NDJSON-Format für die Offline-Nutzung:
- Öffnen Sie das Aktionsmenü des Datensatzes
- Klicken Sie auf Exportieren
- Laden Sie die NDJSON-Datei herunter
Das NDJSON-Format speichert ein JSON-Objekt pro Zeile:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Die vollständige Spezifikation finden Sie in der Ultralytics NDJSON-Formatdokumentation.
Datensatz-URI
Referenzieren Sie Plattform-Datensätze mit dem ul:// URI-Format:
ul://username/datasets/dataset-slug
Verwenden Sie diese URI, um Modelle von überall aus zu trainieren:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Überall mit Plattformdaten trainieren
Die ul:// Die URI funktioniert in jeder Umgebung:
- Lokale Maschine: Trainieren Sie auf Ihrer Hardware, Daten werden automatisch heruntergeladen
- Google Colab: Greifen Sie in Notebooks auf Ihre Plattform-Datensätze zu
- Remote-Server: Trainieren Sie auf Cloud-VMs mit vollem Datensatz-Zugriff
Sichtbarkeitseinstellungen
Kontrollieren Sie, wer Ihren Datensatz sehen kann:
| Einstellung | Beschreibung |
|---|---|
| Privat | Nur Sie können zugreifen |
| Öffentlich | Jeder kann auf der Explore-Seite anzeigen |
Um die Sichtbarkeit zu ändern:
- Öffnen Sie das Aktionsmenü des Datensatzes
- Klicken Sie auf Bearbeiten
- Sichtbarkeitseinstellung umschalten
- Klicken Sie auf Speichern
Datensatz bearbeiten
Aktualisieren Sie den Datensatznamen, die Beschreibung oder die Sichtbarkeit:
- Öffnen Sie das Aktionsmenü des Datensatzes
- Klicken Sie auf Bearbeiten
- Änderungen vornehmen
- Klicken Sie auf Speichern
Datensatz löschen
Ein nicht mehr benötigtes Dataset löschen:
- Öffnen Sie das Aktionsmenü des Datensatzes
- Klicken Sie auf Löschen
- Löschung bestätigen
Papierkorb und Wiederherstellen
Gelöschte Datasets werden für 30 Tage in den Papierkorb verschoben. Sie können diese auf der Papierkorb-Seite in den Einstellungen wiederherstellen.
Auf Datensatz trainieren
Training direkt von Ihrem Dataset starten:
- Klicken Sie auf der Dataset-Seite auf Modell trainieren
- Ein Projekt auswählen oder ein neues erstellen
- Trainingsparameter konfigurieren
- Training starten
Details finden Sie unter Cloud-Training.
FAQ
Was passiert mit meinen Daten nach dem Upload?
Ihre Daten werden in der von Ihnen ausgewählten Region (US, EU oder AP) verarbeitet und gespeichert. Bilder sind:
- Auf Format und Größe validiert
- Normalisiert, wenn größer als 4096px (Seitenverhältnis bleibt erhalten)
- Gespeichert mittels Content-Addressable Storage (CAS) mit SHA-256-Hashing
- Thumbnails mit 256px für schnelles Browsen generiert
Wie funktioniert die Speicherung?
Die Ultralytics Plattform verwendet Content-Addressable Storage (CAS) für eine effiziente Speicherung:
- Deduplizierung: Identische Bilder, die von verschiedenen Benutzern hochgeladen werden, werden nur einmal gespeichert
- Integrität: SHA-256-Hashing gewährleistet die Datenintegrität
- Effizienz: Reduziert Speicherkosten und beschleunigt die Verarbeitung
- Regional: Daten bleiben in Ihrer ausgewählten Region (US, EU oder AP)
Kann ich einem bestehenden Datensatz Bilder hinzufügen?
Ja, verwenden Sie die Schaltfläche Bilder hinzufügen auf der Dataset-Seite, um zusätzliche Bilder hochzuladen. Neue Statistiken werden automatisch berechnet.
Wie verschiebe ich Bilder zwischen Datensätzen?
Verwenden Sie die Mehrfachauswahlfunktion:
- Bilder in der Galerie auswählen
- Klicken Sie auf Verschieben oder Kopieren
- Ziel-Dataset auswählen
Welche Label-Formate werden unterstützt?
Die Ultralytics Platform unterstützt YOLO-Format-Labels:
| Aufgabe | Format | Beispiel |
|---|---|---|
| Erkennen | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmentieren | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Klassifizieren | Verzeichnisstruktur | train/cats/, train/dogs/ |
Alle Koordinaten sind normalisiert (Bereich 0–1). Sichtbarkeitsflags für Posen: 0 = nicht gekennzeichnet, 1 = gekennzeichnet, aber verdeckt, 2 = gekennzeichnet und sichtbar.