Zum Inhalt springen

Datensätze

Ultralytics Platform-Datensätze bieten eine optimierte Lösung zur Verwaltung Ihrer Trainingsdaten. Nach dem Upload können Datensätze sofort für das Modelltraining verwendet werden, mit automatischer Verarbeitung und Statistikgenerierung.

Datensatz hochladen

Ultralytics akzeptiert mehrere Upload-Formate und bietet somit Flexibilität.

Unterstützte Bildformate

FormatErweiterungenHinweise
JPEG.jpg, .jpegAm häufigsten, empfohlen
PNG.pngUnterstützt Transparenz
WebP.webpModern, gute Kompression
BMP.bmpUnkomprimiert
GIF.gifErster Frame extrahiert
TIFF.tiff, .tifHohe Qualität
HEIC.heiciPhone-Fotos
AVIF.avifFormat der nächsten Generation
JP2.jp2JPEG 2000
DNG.dngRohkamera

Unterstützte Videoformate

Videos werden automatisch in Einzelbilder zerlegt:

FormatErweiterungenExtraktion
MP4.mp41 FPS, maximal 100 Bilder
WebM.webm1 FPS, maximal 100 Bilder
MOV.mov1 FPS, maximal 100 Bilder
AVI.avi1 FPS, maximal 100 Bilder
MKV.mkv1 FPS, maximal 100 Bilder
M4V.m4v1 FPS, maximal 100 Bilder

Dateigrößenbeschränkungen

TypMaximale Größe
Bilderjeweils 50 MB
Videosjeweils 1 GB
ZIP-Dateien50 GB

Archiv

ZIP-Dateien mit einer Größe von bis zu 50 GB werden unterstützt, wobei die Ordnerstruktur beibehalten wird und die automatische Extraktion und Verarbeitung erfolgt.

Vorbereitung Ihres Datensatzes

Für gelabelte Datensätze verwenden Sie das Standard-YOLO-Format:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Die yaml-Datei definiert Ihre Datensatzkonfiguration:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Upload-Prozess

  1. Navigieren Sie zu Datensätze in der Seitenleiste
  2. Klicken Sie auf Datensatz hochladen oder ziehen Sie Dateien in den Upload-Bereich
  3. Wählen Sie den Aufgabentyp aus (detect, segment, Pose, obb, classify)
  4. Fügen Sie einen Namen und eine optionale Beschreibung hinzu
  5. Klicken Sie auf Hochladen

Nach dem Hochladen verarbeitet die Plattform Ihre Daten:

  1. Normalisierung: Große Bilder werden skaliert (max. 4096px)
  2. Vorschaubilder: 256px-Vorschauen werden generiert
  3. Label-Parsing: YOLO-Format-Labels werden extrahiert
  4. Statistiken: Klassenverteilungen werden berechnet
Vor dem Hochladen validieren

Sie können Ihren Datensatz lokal validieren, bevor Sie ihn hochladen:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Bilder durchsuchen

Zeigen Sie Ihre Datensatzbilder in verschiedenen Layouts an:

AnsichtBeschreibung
RasterMiniaturbildraster mit Annotations-Overlays
KompaktKleinere Miniaturbilder für schnelles Scannen
TabelleListe mit Dateiname, Dimensionen und Label-Anzahlen

Vollbild-Viewer

Klicken Sie auf ein beliebiges Bild, um den Vollbild-Viewer zu öffnen mit:

  • Navigation: Pfeiltasten oder Klick zum Navigieren
  • Metadaten: Dateiname, Dimensionen, Split, Label-Anzahl
  • Annotationen: Sichtbarkeit der Annotationen umschalten
  • Klassenaufschlüsselung: Label-Anzahlen pro Klasse

Nach Split filtern

Bilder nach ihrem Dataset-Split filtern:

SplitZweck
TrainierenVerwendet für das Modelltraining
ValidierenVerwendet zur Validierung während des Trainings
TestVerwendet für die finale Evaluierung
UnbekanntKein Split zugewiesen

Datensatzstatistiken

Der Tab Statistiken bietet eine automatische Analyse Ihres Datasets:

Klassen-Verteilung

Balkendiagramm, das die Anzahl der Annotationen pro Klasse zeigt:

Positions-Heatmap

Visualisierung, wo Annotationen in Bildern erscheinen:

Dimensionsanalyse

Streudiagramm der Bilddimensionen (Breite vs. Höhe):

Statistik-Caching

Statistiken werden für 5 Minuten zwischengespeichert. Änderungen an Annotationen werden nach Ablauf des Caches übernommen.

Datensatz exportieren

Exportieren Sie Ihr Dataset im NDJSON-Format für die Offline-Nutzung:

  1. Öffnen Sie das Aktionsmenü des Datensatzes
  2. Klicken Sie auf Exportieren
  3. Laden Sie die NDJSON-Datei herunter

Das NDJSON-Format speichert ein JSON-Objekt pro Zeile:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

Die vollständige Spezifikation finden Sie in der Ultralytics NDJSON-Formatdokumentation.

Datensatz-URI

Referenzieren Sie Plattform-Datensätze mit dem ul:// URI-Format:

ul://username/datasets/dataset-slug

Verwenden Sie diese URI, um Modelle von überall aus zu trainieren:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Überall mit Plattformdaten trainieren

Die ul:// Die URI funktioniert in jeder Umgebung:

  • Lokale Maschine: Trainieren Sie auf Ihrer Hardware, Daten werden automatisch heruntergeladen
  • Google Colab: Greifen Sie in Notebooks auf Ihre Plattform-Datensätze zu
  • Remote-Server: Trainieren Sie auf Cloud-VMs mit vollem Datensatz-Zugriff

Sichtbarkeitseinstellungen

Kontrollieren Sie, wer Ihren Datensatz sehen kann:

EinstellungBeschreibung
PrivatNur Sie können zugreifen
ÖffentlichJeder kann auf der Explore-Seite anzeigen

Um die Sichtbarkeit zu ändern:

  1. Öffnen Sie das Aktionsmenü des Datensatzes
  2. Klicken Sie auf Bearbeiten
  3. Sichtbarkeitseinstellung umschalten
  4. Klicken Sie auf Speichern

Datensatz bearbeiten

Aktualisieren Sie den Datensatznamen, die Beschreibung oder die Sichtbarkeit:

  1. Öffnen Sie das Aktionsmenü des Datensatzes
  2. Klicken Sie auf Bearbeiten
  3. Änderungen vornehmen
  4. Klicken Sie auf Speichern

Datensatz löschen

Ein nicht mehr benötigtes Dataset löschen:

  1. Öffnen Sie das Aktionsmenü des Datensatzes
  2. Klicken Sie auf Löschen
  3. Löschung bestätigen

Papierkorb und Wiederherstellen

Gelöschte Datasets werden für 30 Tage in den Papierkorb verschoben. Sie können diese auf der Papierkorb-Seite in den Einstellungen wiederherstellen.

Auf Datensatz trainieren

Training direkt von Ihrem Dataset starten:

  1. Klicken Sie auf der Dataset-Seite auf Modell trainieren
  2. Ein Projekt auswählen oder ein neues erstellen
  3. Trainingsparameter konfigurieren
  4. Training starten

Details finden Sie unter Cloud-Training.

FAQ

Was passiert mit meinen Daten nach dem Upload?

Ihre Daten werden in der von Ihnen ausgewählten Region (US, EU oder AP) verarbeitet und gespeichert. Bilder sind:

  1. Auf Format und Größe validiert
  2. Normalisiert, wenn größer als 4096px (Seitenverhältnis bleibt erhalten)
  3. Gespeichert mittels Content-Addressable Storage (CAS) mit SHA-256-Hashing
  4. Thumbnails mit 256px für schnelles Browsen generiert

Wie funktioniert die Speicherung?

Die Ultralytics Plattform verwendet Content-Addressable Storage (CAS) für eine effiziente Speicherung:

  • Deduplizierung: Identische Bilder, die von verschiedenen Benutzern hochgeladen werden, werden nur einmal gespeichert
  • Integrität: SHA-256-Hashing gewährleistet die Datenintegrität
  • Effizienz: Reduziert Speicherkosten und beschleunigt die Verarbeitung
  • Regional: Daten bleiben in Ihrer ausgewählten Region (US, EU oder AP)

Kann ich einem bestehenden Datensatz Bilder hinzufügen?

Ja, verwenden Sie die Schaltfläche Bilder hinzufügen auf der Dataset-Seite, um zusätzliche Bilder hochzuladen. Neue Statistiken werden automatisch berechnet.

Wie verschiebe ich Bilder zwischen Datensätzen?

Verwenden Sie die Mehrfachauswahlfunktion:

  1. Bilder in der Galerie auswählen
  2. Klicken Sie auf Verschieben oder Kopieren
  3. Ziel-Dataset auswählen

Welche Label-Formate werden unterstützt?

Die Ultralytics Platform unterstützt YOLO-Format-Labels:

AufgabeFormatBeispiel
Erkennenclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentierenclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
KlassifizierenVerzeichnisstrukturtrain/cats/, train/dogs/

Alle Koordinaten sind normalisiert (Bereich 0–1). Sichtbarkeitsflags für Posen: 0 = nicht gekennzeichnet, 1 = gekennzeichnet, aber verdeckt, 2 = gekennzeichnet und sichtbar.



📅 Erstellt vor 20 Tagen ✏️ Aktualisiert vor 12 Tagen
glenn-jocherLaughing-q

Kommentare