Jeux de données
Les jeux de données de la Plateforme Ultralytics offrent une solution simplifiée pour la gestion de vos données d'entraînement. Une fois téléversés, les jeux de données peuvent être immédiatement utilisés pour l'entraînement de modèles, avec un traitement automatique et la génération de statistiques.
Télécharger l'ensemble de données
Ultralytics accepte plusieurs formats de téléchargement pour plus de flexibilité.
Formats d'image pris en charge
| Format | Extensions | Remarques |
|---|---|---|
| JPEG | .jpg, .jpeg | Le plus courant, recommandé |
| PNG | .png | Favorise la transparence |
| WebP | .webp | Moderne, bonne compression |
| BMP | .bmp | Non compressé |
| GIF | .gif | Première image extraite |
| TIFF | .tiff, .tif | Haute qualité |
| HEIC | .heic | photos iPhone |
| AVIF | .avif | Format nouvelle génération |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | Caméra brute |
Formats vidéo pris en charge
Les vidéos sont automatiquement extraites en images :
| Format | Extensions | Extraction |
|---|---|---|
| MP4 | .mp4 | 1 FPS, max. 100 images |
| WebM | .webm | 1 FPS, max. 100 images |
| MOV | .mov | 1 FPS, max. 100 images |
| AVI | .avi | 1 FPS, max. 100 images |
| MKV | .mkv | 1 FPS, max. 100 images |
| M4V | .m4v | 1 FPS, max. 100 images |
Limites de taille des fichiers
| Type | Taille maximale |
|---|---|
| Images | 50 Mo chacun |
| Vidéos | 1 Go chacun |
| fichiers ZIP | 50 Go |
Archives
Les fichiers ZIP jusqu'à 50 Go sont pris en charge avec conservation de la structure des dossiers et extraction et traitement automatiques.
Préparation de votre jeu de données
Pour les jeux de données étiquetés, utilisez le format YOLO standard :
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Le fichier yaml définit la configuration de votre jeu de données :
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Processus de téléversement
- Accédez à Jeux de données dans la barre latérale
- Cliquez sur Téléverser un jeu de données ou faites glisser des fichiers dans la zone de téléversement
- Sélectionnez le type de tâche (detect, segment, pose, obb, classify)
- Ajoutez un nom et une description facultative
- Cliquez sur Téléverser
Après le téléversement, la Plateforme traite vos données :
- Normalisation : Images volumineuses redimensionnées (max 4096px)
- Miniatures : Aperçus de 256px générés
- Analyse des étiquettes : Étiquettes au format YOLO extraites
- Statistiques : Distributions de classes calculées
Valider avant le téléversement
Vous pouvez valider votre jeu de données localement avant de le téléverser :
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Parcourir les images
Visualisez les images de votre jeu de données dans plusieurs mises en page :
| Afficher | Description |
|---|---|
| Grille | Grille de vignettes avec superpositions d'annotations |
| Compact | Vignettes réduites pour un aperçu rapide |
| Tableau | Liste avec nom de fichier, dimensions et nombre d'étiquettes |
Visionneuse plein écran
Cliquez sur n'importe quelle image pour ouvrir la visionneuse plein écran avec :
- Navigation : Touches fléchées ou clic pour parcourir
- Métadonnées : Nom de fichier, dimensions, division, nombre d'étiquettes
- Annotations : Activer/désactiver la visibilité des annotations
- Répartition par classe : Nombre d'étiquettes par classe
Filtrer par partition
Filtrer les images par leur division de jeu de données :
| Division | Objectif |
|---|---|
| Entraîner | Utilisé pour l'entraînement du modèle |
| Valider | Utilisé pour la validation pendant l'entraînement |
| Test | Utilisé pour l'évaluation finale |
| Inconnu | Aucune division assignée |
Statistiques du jeu de données
L'onglet Statistiques fournit une analyse automatique de votre jeu de données :
Distribution des classes
Diagramme à barres affichant le nombre d'annotations par classe :
Carte thermique des emplacements
Visualisation de l'emplacement des annotations dans les images :
Analyse des dimensions
Nuage de points des dimensions d'image (largeur vs hauteur) :
Mise en cache des statistiques
Les statistiques sont mises en cache pendant 5 minutes. Les modifications apportées aux annotations seront reflétées après l'expiration du cache.
Exporter le jeu de données
Exportez votre jeu de données au format NDJSON pour une utilisation hors ligne :
- Ouvrir le menu d'actions du jeu de données
- Cliquer sur Exporter
- Télécharger le fichier NDJSON
Le format NDJSON stocke un objet JSON par ligne :
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Consulter la documentation du format NDJSON d'Ultralytics pour une spécification complète.
URI du jeu de données
Référencer les jeux de données de la Plateforme en utilisant le ul:// format URI :
ul://username/datasets/dataset-slug
Utilisez cet URI pour entraîner des modèles depuis n'importe quel endroit :
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Entraîner partout avec les données de la Plateforme
L'argument ul:// L'URI fonctionne depuis n'importe quel environnement :
- Machine locale : Entraînez sur votre matériel, les données sont téléchargées automatiquement
- Google Colab : Accédez à vos jeux de données de la Plateforme dans des notebooks
- Serveurs distants : Entraînez sur des VM cloud avec un accès complet aux jeux de données
Paramètres de visibilité
Contrôlez qui peut voir votre jeu de données :
| Paramètre | Description |
|---|---|
| Privé | Seul vous pouvez y accéder |
| Public | Tout le monde peut consulter sur la page Explorer |
Pour modifier la visibilité :
- Ouvrir le menu d'actions du jeu de données
- Cliquez sur Modifier
- Basculer le paramètre de visibilité
- Cliquez sur Enregistrer
Modifier l'ensemble de données
Mettre à jour le nom, la description ou la visibilité du jeu de données :
- Ouvrir le menu d'actions du jeu de données
- Cliquez sur Modifier
- Apporter des modifications
- Cliquez sur Enregistrer
Supprimer l'ensemble de données
Supprimer un jeu de données dont vous n'avez plus besoin :
- Ouvrir le menu d'actions du jeu de données
- Cliquez sur Supprimer
- Confirmer la suppression
Corbeille et Restauration
Les jeux de données supprimés sont déplacés vers la Corbeille pendant 30 jours. Vous pouvez les restaurer depuis la page Corbeille dans les Paramètres.
Entraîner sur le jeu de données
Démarrer l'entraînement directement depuis votre jeu de données :
- Cliquer sur Entraîner le modèle sur la page du jeu de données
- Sélectionner un projet ou en créer un nouveau
- Configurer les paramètres d'entraînement
- Démarrer l'entraînement
Consultez l'entraînement dans le cloud pour plus de détails.
FAQ
Qu'advient-il de mes données après le téléversement ?
Vos données sont traitées et stockées dans la région sélectionnée (US, EU ou AP). Les images sont :
- Validé pour le format et la taille
- Normalisé si la taille dépasse 4096px (en préservant le rapport d'aspect)
- Stocké à l'aide du stockage adressable par contenu (CAS) avec hachage SHA-256
- Miniatures générées à 256px pour une navigation rapide
Comment fonctionne le stockage ?
La plateforme Ultralytics utilise le stockage adressable par contenu (CAS) pour un stockage efficace :
- Déduplication : Les images identiques téléchargées par différents utilisateurs ne sont stockées qu'une seule fois
- Intégrité : Le hachage SHA-256 garantit l'intégrité des données
- Efficacité : Réduit les coûts de stockage et accélère le traitement
- Régional : Les données restent dans la région sélectionnée (US, EU ou AP)
Puis-je ajouter des images à un jeu de données existant ?
Oui, utilisez le bouton Ajouter des images sur la page du jeu de données pour télécharger des images supplémentaires. De nouvelles statistiques seront calculées automatiquement.
Comment déplacer des images entre les jeux de données ?
Utilisez la fonction de sélection en masse :
- Sélectionnez les images dans la galerie
- Cliquez sur Déplacer ou Copier
- Sélectionnez le jeu de données de destination
Quels formats d'étiquettes sont pris en charge ?
La plateforme Ultralytics prend en charge les étiquettes au format YOLO :
| Tâche | Format | Exemple |
|---|---|---|
| Détecter | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmenter | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classifier | Structure du répertoire | train/cats/, train/dogs/ |
Toutes les coordonnées sont normalisées (plage 0-1). Indicateurs de visibilité des poses : 0 = non étiqueté, 1 = étiqueté mais occulté, 2 = étiqueté et visible.