Jeux de données
Les jeux de données de la Plateforme Ultralytics offrent une solution simplifiée pour la gestion de vos données d'entraînement. Une fois téléversés, les jeux de données peuvent être immédiatement utilisés pour l'entraînement de modèles, avec un traitement automatique et la génération de statistiques.
Télécharger l'ensemble de données
Ultralytics accepte plusieurs formats de téléchargement pour plus de flexibilité.
Formats pris en charge
| Format | Extensions | Remarques | Taille maximale |
|---|---|---|---|
| JPEG | .jpg, .jpeg | Le plus courant, recommandé | 50 Mo |
| PNG | .png | Favorise la transparence | 50 Mo |
| WebP | .webp | Moderne, bonne compression | 50 Mo |
| BMP | .bmp | Non compressé | 50 Mo |
| TIFF | .tiff, .tif | Haute qualité | 50 Mo |
| HEIC | .heic | photos iPhone | 50 Mo |
| AVIF | .avif | Format nouvelle génération | 50 Mo |
| JP2 | .jp2 | JPEG 2000 | 50 Mo |
| DNG | .dng | Caméra brute | 50 Mo |
| MPO | .mpo | Objet multi-images | 50 Mo |
Les vidéos sont automatiquement extraites en images côté client à une fréquence de 1 image par seconde (maximum 100 images par vidéo).
| Format | Extensions | Extraction | Taille maximale |
|---|---|---|---|
| MP4 | .mp4 | 1 FPS, max. 100 images | 1 Go |
| WebM | .webm | 1 FPS, max. 100 images | 1 Go |
| MOV | .mov | 1 FPS, max. 100 images | 1 Go |
| AVI | .avi | 1 FPS, max. 100 images | 1 Go |
| MKV | .mkv | 1 FPS, max. 100 images | 1 Go |
| M4V | .m4v | 1 FPS, max. 100 images | 1 Go |
Extraction de trames vidéo
Les images vidéo sont extraites à raison d'une image par seconde dans le navigateur avant le téléchargement. Une vidéo de 60 secondes produit 60 images. Le maximum est de 100 images par vidéo, donc les vidéos de plus de 100 secondes environ seront échantillonnées.
Les archives sont extraites et traitées automatiquement.
| Format | Extensions | Remarques | Taille maximale |
|---|---|---|---|
| ZIP | .zip | Le plus courant | 10 Go |
| TAR | .tar | Archive non compressée | 10 Go |
| TAR.GZ | .tar.gz, .tgz | Archive compressée | 10 Go |
| GZ | .gz | Compressé avec Gzip | 10 Go |
Préparation de votre jeu de données
La plateforme prend en charge deux formats d'annotation ainsi que les téléchargements bruts : Ultralytics YOLO, COCOet brut (images non annotées) :
Utilisez la structure YOLO standard avec un data.yaml fichier :
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Le fichier yaml définit la configuration de votre jeu de données :
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Utilisez des fichiers d'annotation JSON avec la COCO standard :
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
Le fichier JSON contient images, annotations, et categories tableaux :
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
COCO sont automatiquement converties lors du téléchargement. Détection (bbox), segmentation (segmentation polygones) et la pose (keypoints) sont prises en charge. Les identifiants de catégorie sont remappés vers une séquence dense indexée à partir de 0 dans tous les fichiers d'annotation. Pour la conversion entre les formats, voir outils de conversion de format.
Téléchargements bruts
Raw: téléchargez des images non annotées (sans étiquettes). Utile lorsque vous prévoyez d'annoter directement sur la plateforme à l'aide de l'éditeur d'annotation.
Structure de répertoires plate
Vous pouvez également télécharger des images sans la structure de dossiers train/val. Les images téléchargées sans dossiers séparés sont attribuées au dossier train divisés par défaut. Vous pouvez les réattribuer ultérieurement à l'aide de la fonctionnalité de déplacement groupé vers la division.
Détection automatique du format
Le format est détecté automatiquement : les ensembles de données avec un data.yaml contenant names, train, ou val Les clés sont traitées comme YOLO. Les ensembles de données avec des fichiers COCO (contenant images, annotations, et categories Les tableaux) sont traités comme COCO. Les ensembles de données contenant uniquement des images et aucune annotation sont traités comme des données brutes.
Pour plus d'informations sur les formats spécifiques à chaque tâche, consultez la liste des tâches prises en charge et la présentation des ensembles de données.
Processus de téléversement
- Accéder à
Datasetsdans la barre latérale - Cliquez
New Datasetou faites glisser les fichiers dans la zone de téléchargement - Sélectionnez le type de tâche (voir les tâches prises en charge)
- Ajoutez un nom et une description facultative
- Définissez la visibilité (publique ou privée) et la licence facultative (voir les licences disponibles)
- Cliquez
Create

Après le téléchargement, la plateforme traite vos données via un pipeline en plusieurs étapes :
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- Validation: vérification du format et de la taille
- Normalisation: images volumineuses redimensionnées (max. 4096 px, dimension minimale 28 px)
- Vignettes: aperçus WebP de 256 pixels générés
- Analyse des étiquettes: YOLO et étiquettes COCO extraites
- Statistiques: répartition des classes et dimensions des images calculées

Valider avant le téléversement
Vous pouvez valider votre jeu de données localement avant de le téléverser :
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Exigences relatives à la taille des images
Les images doivent avoir une taille minimale de 28 pixels sur leur côté le plus court. Les images plus petites que cette taille sont rejetées lors du traitement. Les images dont le côté le plus long dépasse 4096 pixels sont automatiquement redimensionnées tout en conservant leur rapport hauteur/largeur.
Parcourir les images
Visualisez les images de votre jeu de données dans plusieurs mises en page :
| Afficher | Description |
|---|---|
| Grille | Grille de vignettes avec annotations superposées (par défaut) |
| Compact | Vignettes réduites pour un aperçu rapide |
| Tableau | Liste avec vignette, nom de fichier, dimensions, taille, fractionnement, classes et nombre d'étiquettes |

Tri et filtrage
Les images peuvent être triées et filtrées pour une navigation efficace :
| Trier | Description |
|---|---|
| Le plus récent | Derniers ajouts |
| Le plus ancien | Ajouté le plus tôt |
| Nom A-Z | Par ordre alphabétique |
| Nom Z-A | Alphabetique inversé |
| Taille (la plus petite) | Les fichiers les plus petits en premier |
| Taille (la plus grande) | Les fichiers les plus volumineux en premier |
| La plupart des étiquettes | La plupart des annotations |
| Le moins d'étiquettes possible | Le moins d'annotations |
| Filtrer | Options |
|---|---|
| Filtre divisé | Train, Val, Test ou Tout |
| Filtre d'étiquette | Toutes les images, annotées ou non annotées |
| Rechercher | Filtrer les images par nom de fichier |
Recherche d'images non étiquetées
Utilisez le filtre d'étiquette défini sur Unannotated pour trouver rapidement les images qui doivent encore être annotées. Cela est particulièrement utile pour les grands ensembles de données où vous souhaitez track la progression track .
Visionneuse plein écran
Cliquez sur n'importe quelle image pour ouvrir la visionneuse plein écran avec :
- Navigation: touches fléchées ou aperçus miniatures pour parcourir
- Métadonnées: nom de fichier, dimensions, badge divisé, nombre d'annotations
- Annotations: Activer/désactiver l'affichage des annotations
- Répartition par classe: nombre d'étiquettes par classe avec indicateurs de couleur
- Modifier: Entrez en mode annotation pour ajouter ou modifier des étiquettes.
- Télécharger: Télécharger le fichier image original
- Supprimer: Supprimer l'image du jeu de données
- Zoom:
Cmd/Ctrl+Scrollpour agrandir/réduire - Affichage pixelisé: activez le rendu pixelisé pour une inspection minutieuse.

Filtrer par partition
Filtrer les images par leur division de jeu de données :
| Division | Objectif |
|---|---|
| Entraîner | Utilisé pour l'entraînement du modèle |
| Valider | Utilisé pour la validation pendant l'entraînement |
| Test | Utilisé pour l'évaluation finale |
Onglets des ensembles de données
Chaque page de jeu de données comporte cinq onglets accessibles depuis la barre d'onglets :
Onglet Images
Affichage par défaut montrant la galerie d'images avec des annotations superposées. Prend en charge les modes d'affichage en grille, compact et tableau. Glissez-déposez des fichiers ici pour ajouter d'autres images.
Onglet Classes
Gérez les classes d'annotation pour votre ensemble de données :
- Histogramme des classes: graphique à barres indiquant le nombre d'annotations par classe avec possibilité de basculer entre une échelle linéaire et une échelle logarithmique.
- Tableau des classes: tableau triable et consultable avec nom de classe, nombre d'étiquettes et nombre d'images
- Modifier les noms de classe: cliquez sur n'importe quel nom de classe pour le renommer en ligne.
- Modifier les couleurs des classes: cliquez sur un échantillon de couleur pour modifier la couleur de la classe.
- Ajouter une nouvelle classe: utilisez le champ de saisie en bas pour ajouter des classes.

Échelle logarithmique pour les ensembles de données déséquilibrés
Si votre ensemble de données présente un déséquilibre entre les classes (par exemple, 10 000 annotations « personne » mais seulement 50 « vélo »), utilisez le Log Scale Activez l'histogramme des classes pour visualiser clairement toutes les classes.
Onglet Graphiques
Statistiques automatiques calculées à partir de votre ensemble de données :
| Graphique | Description |
|---|---|
| Distribution fractionnée | Graphique en anneau représentant le nombre d'images train/val/test et le pourcentage étiqueté |
| Cours de haut niveau | Graphique en anneau des 10 classes d'annotation les plus fréquentes |
| Largeurs d'image | Histogramme de la distribution de la largeur des images avec moyenne |
| Hauteurs de l'image | Histogramme de la distribution des hauteurs d'image avec moyenne |
| Points par instance | Nombre de sommets ou de points clés par annotation (segment) |
| Emplacements des annotations | Carte thermique 2D des positions centrales des cadres de sélection |
| Dimensions de l'image | Carte thermique 2D largeur/hauteur avec lignes de guidage pour le rapport d'aspect |

Mise en cache des statistiques
Les statistiques sont mises en cache pendant 5 minutes. Les modifications apportées aux annotations seront reflétées après l'expiration du cache.
Cartes thermiques plein écran
Cliquez sur le bouton « Agrandir » de n'importe quelle carte thermique pour l'afficher en mode plein écran. Vous obtiendrez ainsi une vue plus grande et plus détaillée, utile pour comprendre les schémas spatiaux dans les grands ensembles de données.
Onglet Modèles
Affichez tous les modèles entraînés sur cet ensemble de données dans un tableau consultable :
| Colonne | Description |
|---|---|
| Nom | Nom du modèle avec lien |
| Projet | Projet parent avec icône |
| Statut | Badge de statut de formation |
| Tâche | Type YOLO |
| Époques | Meilleure époque / total des époques |
| mAP50-95 | Précision moyenne |
| mAP50 | mAP IoU ,50 |
| Créée | Date de création |

Onglet Erreurs
Les images dont le traitement a échoué sont répertoriées ici avec :
- Bannière d'erreur: nombre total d'images ayant échoué et conseils
- Tableau des erreurs: nom du fichier, description conviviale de l'erreur, conseils de correction et vignette d'aperçu
- Les erreurs courantes comprennent les fichiers corrompus, les formats non pris en charge, les images trop petites (minimum 28 pixels) et les modes couleur non pris en charge.
Erreurs courantes de traitement
| Erreur | Cause | Correction |
|---|---|---|
| Impossible de lire le fichier image | Format corrompu ou non pris en charge | Réexporter depuis l'éditeur d'images |
| Incomplet ou corrompu | Le fichier a été tronqué pendant le transfert. | Télécharger à nouveau le fichier original |
| Image trop petite | Dimension minimale inférieure à 28px | Utilisez des images sources à plus haute résolution. |
| Mode couleur non pris en charge | Mode couleur CMJN ou indexé | Convertir en mode RVB |
Exporter le jeu de données
Exportez votre ensemble de données au format NDJSON pour une utilisation hors ligne :
- Cliquez sur l'icône de téléchargement dans l'en-tête de l'ensemble de données.
- Le fichier NDJSON se télécharge automatiquement.

Le format NDJSON stocke un objet JSON par ligne. La première ligne contient les métadonnées de l'ensemble de données, suivies d'une ligne par image :
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
URL signées
Les URL des images dans le fichier NDJSON exporté sont signées et valables pendant 7 jours. Si vous avez besoin de nouvelles URL, réexportez l'ensemble de données.
Consulter la documentation du format NDJSON d'Ultralytics pour une spécification complète.
Opérations groupées
Gérez les images en masse à l'aide du menu contextuel de la vue tableau :
Déménager à Split
Réattribuer les images sélectionnées à une autre division au sein du même ensemble de données :
- Passer à l'affichage tableau
- Sélectionnez les images à l'aide des cases à cocher.
- Cliquez avec le bouton droit pour ouvrir le menu contextuel.
- Choisissez
Move to split> Entraîner, Validation, ou Test
Vous pouvez également glisser-déposer des images sur les onglets de filtres fractionnés dans la vue en grille.
Organisation des divisions Train/Val
Téléchargez toutes les images dans un seul ensemble de données, puis utilisez la fonction « bulk move-to-split » pour organiser les sous-ensembles en segments d'entraînement, de validation et de test.
Suppression groupée
Supprimer plusieurs images à la fois :
- Sélectionner des images dans la vue tableau
- Cliquez avec le bouton droit et sélectionnez
Delete - Confirmer la suppression
URI du jeu de données
Référencer les jeux de données de la Plateforme en utilisant le ul:// Format URI (voir Utilisation des jeux de données de la plateforme) :
ul://username/datasets/dataset-slug
Utilisez cet URI pour entraîner des modèles depuis n'importe quel endroit :
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Entraîner partout avec les données de la Plateforme
L'argument ul:// L'URI fonctionne depuis n'importe quel environnement :
- Machine locale : Entraînez sur votre matériel, les données sont téléchargées automatiquement
- Google Colab : Accédez à vos jeux de données de la Plateforme dans des notebooks
- Serveurs distants : Entraînez sur des VM cloud avec un accès complet aux jeux de données
Licences disponibles
La plateforme prend en charge les licences suivantes pour les ensembles de données :
| Licence | Type |
|---|---|
| Aucun | Aucune licence sélectionnée |
| CC0-1.0 | Domaine public |
| CC-BY-2.5 | Permissif |
| CC-BY-4.0 | Permissif |
| CC-BY-SA-4.0 | Copyleft |
| CC-BY-NC-4.0 | Non commercial |
| CC-BY-NC-SA-4.0 | Copyleft |
| CC-BY-ND-4.0 | Pas de dérivés |
| CC-BY-NC-ND-4.0 | Non commercial |
| Apache-2.0 | Permissif |
| MIT | Permissif |
| AGPL-3.0 | Copyleft |
| GPL-3.0 | Copyleft |
| Recherche uniquement | Restreint |
| Autre | Personnalisé |
Licences Copyleft
Lors du clonage d'un ensemble de données sous licence copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), le clone hérite de la licence et le sélecteur de licence est verrouillé.
Paramètres de visibilité
Contrôlez qui peut voir votre jeu de données :
| Paramètre | Description |
|---|---|
| Privé | Seul vous pouvez y accéder |
| Public | Tout le monde peut consulter sur la page Explorer |
La visibilité est définie lors de la création d'un ensemble de données dans le New Dataset dialogue à l'aide d'un commutateur à bascule. Les ensembles de données publics sont visibles sur le Explorer page.
Modifier l'ensemble de données
Les métadonnées du jeu de données sont modifiées directement sur la page du jeu de données, sans boîte de dialogue :
- Nom: Cliquez sur le nom de l'ensemble de données pour le modifier. Les modifications sont automatiquement enregistrées lorsque vous quittez le champ.
Enter. - Description: cliquez sur la description (ou sur l'espace réservé « Ajouter une description... ») pour la modifier. Les modifications sont enregistrées automatiquement.
- Type de tâche: cliquez sur l'icône de la tâche pour sélectionner un autre type de tâche.
- Licence: cliquez sur le sélecteur de licence pour modifier la licence du jeu de données.
Modification du type de tâche
La modification du type de tâche peut avoir une incidence sur la manière dont les annotations existantes sont visualisées. Les annotations incompatibles ne seront pas affichées.
Cloner le jeu de données
Lorsque vous consultez un ensemble de données publiques dont vous n'êtes pas propriétaire, cliquez sur Clone Dataset pour créer une copie dans votre espace de travail. Le clone comprend toutes les images, annotations et définitions de classe. Si l'ensemble de données d'origine dispose d'une licence copyleft, le clone en hérite et le sélecteur de licence est verrouillé.
Star et Partager
- Étoile: cliquez sur le bouton étoile pour ajouter un ensemble de données à vos favoris. Le nombre d'étoiles est visible par tous les utilisateurs.
- Partager: pour les ensembles de données publics, cliquez sur le bouton Partager pour copier un lien ou partager sur les réseaux sociaux.
Supprimer l'ensemble de données
Supprimer un jeu de données dont vous n'avez plus besoin :
- Ouvrir le menu d'actions du jeu de données
- Cliquez
Delete - Confirmez dans la boîte de dialogue : « Cela déplacera [nom] vers la corbeille. Vous pouvez le restaurer dans les 30 jours. »
Corbeille et Restauration
Les ensembles de données supprimés sont déplacés vers la corbeille, mais ne sont pas définitivement supprimés. Vous pouvez les restaurer dans les 30 jours suivant leur suppression. Settings > Trash.
Entraîner sur le jeu de données
Démarrer l'entraînement directement depuis votre jeu de données :
- Cliquez
New Modelsur la page des ensembles de données - Sélectionner un projet ou en créer un nouveau
- Configurer les paramètres d'entraînement
- Démarrer l'entraînement
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
Consultez l'entraînement dans le cloud pour plus de détails.
FAQ
Qu'advient-il de mes données après le téléversement ?
Vos données sont traitées et stockées dans la région sélectionnée (US, EU ou AP). Les images sont :
- Validé pour le format et la taille
- Rejeté si la dimension minimale est inférieure à 28 px
- Normalisé s'il est supérieur à 4096 px (en conservant le rapport hauteur/largeur ; encodé pour un stockage optimisé)
- Stocké à l'aide d'un système de stockage adressable par le contenu (CAS) avec hachage XXH3-128
- Miniatures générées à 256 px WebP pour une navigation rapide
Comment fonctionne le stockage ?
La plateforme Ultralytics utilise le stockage adressable par contenu (CAS) pour un stockage efficace :
- Déduplication : Les images identiques téléchargées par différents utilisateurs ne sont stockées qu'une seule fois
- Intégrité: le hachage XXH3-128 garantit l'intégrité des données.
- Efficacité : Réduit les coûts de stockage et accélère le traitement
- Régional : Les données restent dans la région sélectionnée (US, EU ou AP)
Puis-je ajouter des images à un jeu de données existant ?
Oui, glissez-déposez les fichiers sur la page du jeu de données ou utilisez le bouton de téléchargement pour ajouter des images supplémentaires. De nouvelles statistiques seront calculées automatiquement.
Comment déplacer des images entre les divisions ?
Utilisez la fonctionnalité de déplacement groupé vers fractionnement :
- Sélectionner des images dans la vue tableau
- Cliquez avec le bouton droit et sélectionnez
Move to split - Sélectionnez la division cible (entraînement, validation ou test).
Quels formats d'étiquettes sont pris en charge ?
Ultralytics prend en charge deux formats d'annotation pour le téléchargement :
Un .txt fichier par image avec coordonnées normalisées (plage 0-1) :
| Tâche | Format | Exemple |
|---|---|---|
| Détecter | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmenter | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classifier | Structure du répertoire | train/cats/, train/dogs/ |
Indicateurs de visibilité des poses : 0 = non étiqueté, 1 = étiqueté mais masqué, 2 = étiqueté et visible.
Fichiers JSON avec images, annotations, et categories tableaux. Prend en charge la détection (bbox), segmentation (polygone) et pose (keypoints). COCO des coordonnées absolues en pixels qui sont automatiquement converties au format normalisé lors du téléchargement.