Passer au contenu

Jeux de données

Les jeux de données de la Plateforme Ultralytics offrent une solution simplifiée pour la gestion de vos données d'entraînement. Une fois téléversés, les jeux de données peuvent être immédiatement utilisés pour l'entraînement de modèles, avec un traitement automatique et la génération de statistiques.

Télécharger l'ensemble de données

Ultralytics accepte plusieurs formats de téléchargement pour plus de flexibilité.

Formats d'image pris en charge

FormatExtensionsRemarques
JPEG.jpg, .jpegLe plus courant, recommandé
PNG.pngFavorise la transparence
WebP.webpModerne, bonne compression
BMP.bmpNon compressé
GIF.gifPremière image extraite
TIFF.tiff, .tifHaute qualité
HEIC.heicphotos iPhone
AVIF.avifFormat nouvelle génération
JP2.jp2JPEG 2000
DNG.dngCaméra brute

Formats vidéo pris en charge

Les vidéos sont automatiquement extraites en images :

FormatExtensionsExtraction
MP4.mp41 FPS, max. 100 images
WebM.webm1 FPS, max. 100 images
MOV.mov1 FPS, max. 100 images
AVI.avi1 FPS, max. 100 images
MKV.mkv1 FPS, max. 100 images
M4V.m4v1 FPS, max. 100 images

Limites de taille des fichiers

TypeTaille maximale
Images50 Mo chacun
Vidéos1 Go chacun
fichiers ZIP50 Go

Archives

Les fichiers ZIP jusqu'à 50 Go sont pris en charge avec conservation de la structure des dossiers et extraction et traitement automatiques.

Préparation de votre jeu de données

Pour les jeux de données étiquetés, utilisez le format YOLO standard :

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Le fichier yaml définit la configuration de votre jeu de données :

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Processus de téléversement

  1. Accédez à Jeux de données dans la barre latérale
  2. Cliquez sur Téléverser un jeu de données ou faites glisser des fichiers dans la zone de téléversement
  3. Sélectionnez le type de tâche (detect, segment, pose, obb, classify)
  4. Ajoutez un nom et une description facultative
  5. Cliquez sur Téléverser

Après le téléversement, la Plateforme traite vos données :

  1. Normalisation : Images volumineuses redimensionnées (max 4096px)
  2. Miniatures : Aperçus de 256px générés
  3. Analyse des étiquettes : Étiquettes au format YOLO extraites
  4. Statistiques : Distributions de classes calculées
Valider avant le téléversement

Vous pouvez valider votre jeu de données localement avant de le téléverser :

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Parcourir les images

Visualisez les images de votre jeu de données dans plusieurs mises en page :

AfficherDescription
GrilleGrille de vignettes avec superpositions d'annotations
CompactVignettes réduites pour un aperçu rapide
TableauListe avec nom de fichier, dimensions et nombre d'étiquettes

Visionneuse plein écran

Cliquez sur n'importe quelle image pour ouvrir la visionneuse plein écran avec :

  • Navigation : Touches fléchées ou clic pour parcourir
  • Métadonnées : Nom de fichier, dimensions, division, nombre d'étiquettes
  • Annotations : Activer/désactiver la visibilité des annotations
  • Répartition par classe : Nombre d'étiquettes par classe

Filtrer par partition

Filtrer les images par leur division de jeu de données :

DivisionObjectif
EntraînerUtilisé pour l'entraînement du modèle
ValiderUtilisé pour la validation pendant l'entraînement
TestUtilisé pour l'évaluation finale
InconnuAucune division assignée

Statistiques du jeu de données

L'onglet Statistiques fournit une analyse automatique de votre jeu de données :

Distribution des classes

Diagramme à barres affichant le nombre d'annotations par classe :

Carte thermique des emplacements

Visualisation de l'emplacement des annotations dans les images :

Analyse des dimensions

Nuage de points des dimensions d'image (largeur vs hauteur) :

Mise en cache des statistiques

Les statistiques sont mises en cache pendant 5 minutes. Les modifications apportées aux annotations seront reflétées après l'expiration du cache.

Exporter le jeu de données

Exportez votre jeu de données au format NDJSON pour une utilisation hors ligne :

  1. Ouvrir le menu d'actions du jeu de données
  2. Cliquer sur Exporter
  3. Télécharger le fichier NDJSON

Le format NDJSON stocke un objet JSON par ligne :

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

Consulter la documentation du format NDJSON d'Ultralytics pour une spécification complète.

URI du jeu de données

Référencer les jeux de données de la Plateforme en utilisant le ul:// format URI :

ul://username/datasets/dataset-slug

Utilisez cet URI pour entraîner des modèles depuis n'importe quel endroit :

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Entraîner partout avec les données de la Plateforme

L'argument ul:// L'URI fonctionne depuis n'importe quel environnement :

  • Machine locale : Entraînez sur votre matériel, les données sont téléchargées automatiquement
  • Google Colab : Accédez à vos jeux de données de la Plateforme dans des notebooks
  • Serveurs distants : Entraînez sur des VM cloud avec un accès complet aux jeux de données

Paramètres de visibilité

Contrôlez qui peut voir votre jeu de données :

ParamètreDescription
PrivéSeul vous pouvez y accéder
PublicTout le monde peut consulter sur la page Explorer

Pour modifier la visibilité :

  1. Ouvrir le menu d'actions du jeu de données
  2. Cliquez sur Modifier
  3. Basculer le paramètre de visibilité
  4. Cliquez sur Enregistrer

Modifier l'ensemble de données

Mettre à jour le nom, la description ou la visibilité du jeu de données :

  1. Ouvrir le menu d'actions du jeu de données
  2. Cliquez sur Modifier
  3. Apporter des modifications
  4. Cliquez sur Enregistrer

Supprimer l'ensemble de données

Supprimer un jeu de données dont vous n'avez plus besoin :

  1. Ouvrir le menu d'actions du jeu de données
  2. Cliquez sur Supprimer
  3. Confirmer la suppression

Corbeille et Restauration

Les jeux de données supprimés sont déplacés vers la Corbeille pendant 30 jours. Vous pouvez les restaurer depuis la page Corbeille dans les Paramètres.

Entraîner sur le jeu de données

Démarrer l'entraînement directement depuis votre jeu de données :

  1. Cliquer sur Entraîner le modèle sur la page du jeu de données
  2. Sélectionner un projet ou en créer un nouveau
  3. Configurer les paramètres d'entraînement
  4. Démarrer l'entraînement

Consultez l'entraînement dans le cloud pour plus de détails.

FAQ

Qu'advient-il de mes données après le téléversement ?

Vos données sont traitées et stockées dans la région sélectionnée (US, EU ou AP). Les images sont :

  1. Validé pour le format et la taille
  2. Normalisé si la taille dépasse 4096px (en préservant le rapport d'aspect)
  3. Stocké à l'aide du stockage adressable par contenu (CAS) avec hachage SHA-256
  4. Miniatures générées à 256px pour une navigation rapide

Comment fonctionne le stockage ?

La plateforme Ultralytics utilise le stockage adressable par contenu (CAS) pour un stockage efficace :

  • Déduplication : Les images identiques téléchargées par différents utilisateurs ne sont stockées qu'une seule fois
  • Intégrité : Le hachage SHA-256 garantit l'intégrité des données
  • Efficacité : Réduit les coûts de stockage et accélère le traitement
  • Régional : Les données restent dans la région sélectionnée (US, EU ou AP)

Puis-je ajouter des images à un jeu de données existant ?

Oui, utilisez le bouton Ajouter des images sur la page du jeu de données pour télécharger des images supplémentaires. De nouvelles statistiques seront calculées automatiquement.

Comment déplacer des images entre les jeux de données ?

Utilisez la fonction de sélection en masse :

  1. Sélectionnez les images dans la galerie
  2. Cliquez sur Déplacer ou Copier
  3. Sélectionnez le jeu de données de destination

Quels formats d'étiquettes sont pris en charge ?

La plateforme Ultralytics prend en charge les étiquettes au format YOLO :

TâcheFormatExemple
Détecterclass cx cy w h0 0.5 0.5 0.2 0.3
Segmenterclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassifierStructure du répertoiretrain/cats/, train/dogs/

Toutes les coordonnées sont normalisées (plage 0-1). Indicateurs de visibilité des poses : 0 = non étiqueté, 1 = étiqueté mais occulté, 2 = étiqueté et visible.



📅 Créé il y a 20 jours ✏️ Mis à jour il y a 12 jours
glenn-jocherLaughing-q

Commentaires