Datenvorbereitung

Die Datenvorbereitung ist das Fundament für erfolgreiche Computer Vision-Modelle. Die Ultralytics Platform bietet umfassende Tools zur Verwaltung deiner Trainingsdaten, vom Hochladen über die Annotation bis hin zur Analyse.



Watch: Get Started with Ultralytics Platform - Data

Übersicht

Der Bereich „Data“ der Ultralytics Platform hilft dir dabei:

  • Hochladen von Bildern, Videos und Datensatz-Dateien (ZIP, TAR inklusive .tar.gz/.tgz, NDJSON)
  • Annotieren mit manuellen Zeichenwerkzeugen und KI-gestützter Etikettierung mittels SAM – wähle zwischen SAM 2.1 oder dem neuen SAM 3
  • Analysieren deiner Daten mit Statistiken und Visualisierungen
  • Exportieren im NDJSON-Format für das lokale Training

Übersicht der Ultralytics Platform Datensätze

Workflow

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
PhaseBeschreibung
HochladenImportiere Bilder, Videos oder Archive mit automatischer Verarbeitung
AnnotierenEtikettiere Daten mit manuellen Werkzeugen für alle 5 Aufgabentypen oder nutze SAM-Annotation für Detect, Segment und OBB
AnalysierenSieh dir Klassenhäufigkeiten, räumliche Heatmaps und Dimensionsstatistiken an
ExportierenDownload im NDJSON-Format für die Offline-Nutzung

Unterstützte Aufgaben

Die Ultralytics Platform unterstützt alle 5 YOLO-Aufgabentypen:

AufgabeBeschreibungAnnotationstool
DetectObjekterkennung mit Bounding BoxesRechteck-Tool
SegmentInstanzsegmentierung mit PixelmaskenPolygon-Tool
PoseKeypoint-Schätzung mit integrierten und benutzerdefinierten SkelettvorlagenKeypoint-Tool
OBBOrientierte Bounding Boxes für gedrehte ObjekteOrientiertes Box-Tool
ClassifyKlassifizierung auf BildebeneKlassenauswahl
Auswahl des Aufgabentyps

Der Aufgabentyp wird beim Erstellen eines Datensatzes festgelegt und bestimmt, welche Annotationstools verfügbar sind. Du kannst ihn später über den Aufgabenauswähler im Header des Datensatzes ändern, aber inkompatible Annotationen werden nach dem Wechsel nicht mehr angezeigt.

Hauptmerkmale

Intelligente Speicherung

Die Ultralytics Platform verwendet Content-Addressable Storage (CAS) für eine effiziente Datenverwaltung:

  • Deduplizierung: Identische Bilder werden dank XXH3-128-Hashing nur einmal gespeichert
  • Integrität: Hash-basierte Adressierung stellt die Datenintegrität sicher
  • Effizienz: Optimierte Speicherung und schnelle Verarbeitung

Datensatz-URIs

Referenziere Datensätze über das ul://-URI-Format (siehe Nutzung von Platform-Datensätzen):

yolo train data=ul://username/datasets/my-dataset

Dies ermöglicht das Training mit den Datensätzen der Platform von jedem Gerät aus, auf dem dein API-Key konfiguriert ist.

Plattformdaten aus Python verwenden
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Datensatz-Versionierung

Erstelle unveränderliche NDJSON-Snapshots deines Datensatzes für reproduzierbares Training. Jede Version erfasst die Anzahl der Bilder, Klassen und Annotationen zum Zeitpunkt der Erstellung. Siehe Tab „Versionen“ für Details.

Datensatz-Tabs

Datensatz-Seiten können je nach Datensatzstatus und deinen Berechtigungen bis zu sechs Tabs anzeigen:

TabBeschreibung
BilderDurchsuche Bilder in der Raster-, Kompakt- oder Tabellenansicht mit eingeblendeten Annotationen
KlassenAnsehen und Bearbeiten von Klassennamen, Farben und Label-Anzahl pro Klasse
DiagrammeAutomatische Statistiken: Split-Verteilung, Klassenzahlen, Heatmaps
ModelleModelle, die mit diesem Datensatz trainiert wurden, inklusive Metriken und Status
VersionenErstelle und lade unveränderliche NDJSON-Snapshots für reproduzierbares Training herunter
FehlerBilder, deren Verarbeitung fehlgeschlagen ist, inklusive Fehlerdetails und Hilfestellungen zur Korrektur

Classes and Charts appear when the dataset has images. Errors appears only when processing failures exist. Versions appears for owners, or for non-owners when versions already exist.

Clustering

Erkunde deinen Datensatz als interaktives 2D-Streudiagramm, in dem visuell ähnliche Bilder nah beieinander liegen – nützlich, um Cluster, Duplikate und Ausreißer aufzudecken sowie zu prüfen, wie sich Splits oder Klassen über deine Daten verteilen. Umfahre einen Bereich des Diagramms mit dem Lasso, um die Galerie auf diese Bilder zu filtern. Siehe Clustering für Details.

Statistik und Visualisierung

The Charts tab provides automatic analysis including:

  • Split-Verteilung: Donut-Diagramm der Anzahl von Train/Val/Test-Bildern
  • Top-Klassen: Donut-Diagramm der am häufigsten vorkommenden Annotationsklassen
  • Bildbreiten: Histogramm der Verteilung der Bildbreiten
  • Bildhöhen: Histogramm der Verteilung der Bildhöhen
  • Punkte pro Instanz: Verteilung der Anzahl von Polygon-Eckpunkten oder Keypoints (Segment/Pose-Datensätze)
  • Annotationsorte: 2D-Heatmap der Mittelpositionen von Bounding Boxes
  • Bilddimensionen: 2D-Heatmap von Breite vs. Höhe mit Hilfslinien für das Seitenverhältnis

Schnellzugriffe

  • Datensätze: Hochladen, Verwalten und Exportieren deiner Trainingsdaten
  • Annotation: Etikettiere Daten mit manuellen und KI-unterstützten Werkzeugen
  • Cloud-Training: Trainiere Modelle mit deinen annotierten Datensätzen
  • Datensatz-URI: Nutze ul://-URIs, um von überall zu trainieren

FAQ

Welche Dateiformate werden beim Hochladen unterstützt?

Die Ultralytics Platform unterstützt:

Bilder: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (max. 50 MB pro Datei)

Videos: MP4, WebM, MOV, AVI, MKV, M4V (max. 1 GB, Frames extrahiert bei 1 FPS, max. 100 Frames)

Datensatz-Dateien: ZIP- oder TAR-Archive inklusive .tar.gz und .tgz (max. 10 GB bei Free, 20 GB bei Pro, 50 GB bei Enterprise), die Bilder mit optionalen YOLO-Format-Labels sowie NDJSON-Exporte enthalten

Was ist die maximale Datensatzgröße?

Speicherlimits hängen von deinem Plan ab:

PlanSpeicherlimit
Kostenlos100 GB
Pro500 GB
EnterpriseUnbegrenzt

Individuelle Dateilimits: Bilder 50 MB, Videos 1 GB, Datensätze 10 GB bei Free / 20 GB bei Pro / 50 GB bei Enterprise

Kann ich meine Platform-Datensätze für lokales Training verwenden?

Ja! Nutze das Datensatz-URI-Format, um lokal zu trainieren:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Oder exportiere deinen Datensatz im NDJSON-Format für ein vollständig offline durchgeführtes Training.

Kommentare