Passer au contenu

Jeux de données

Les jeux de données de la Plateforme Ultralytics offrent une solution simplifiée pour la gestion de vos données d'entraînement. Une fois téléversés, les jeux de données peuvent être immédiatement utilisés pour l'entraînement de modèles, avec un traitement automatique et la génération de statistiques.

Télécharger l'ensemble de données

Ultralytics accepte plusieurs formats de téléchargement pour plus de flexibilité.

Formats pris en charge

FormatExtensionsRemarquesTaille maximale
JPEG.jpg, .jpegLe plus courant, recommandé50 Mo
PNG.pngFavorise la transparence50 Mo
WebP.webpModerne, bonne compression50 Mo
BMP.bmpNon compressé50 Mo
TIFF.tiff, .tifHaute qualité50 Mo
HEIC.heicphotos iPhone50 Mo
AVIF.avifFormat nouvelle génération50 Mo
JP2.jp2JPEG 200050 Mo
DNG.dngCaméra brute50 Mo
MPO.mpoObjet multi-images50 Mo

Les vidéos sont automatiquement extraites en images côté client à une fréquence de 1 image par seconde (maximum 100 images par vidéo).

FormatExtensionsExtractionTaille maximale
MP4.mp41 FPS, max. 100 images1 Go
WebM.webm1 FPS, max. 100 images1 Go
MOV.mov1 FPS, max. 100 images1 Go
AVI.avi1 FPS, max. 100 images1 Go
MKV.mkv1 FPS, max. 100 images1 Go
M4V.m4v1 FPS, max. 100 images1 Go

Extraction de trames vidéo

Les images vidéo sont extraites à raison d'une image par seconde dans le navigateur avant le téléchargement. Une vidéo de 60 secondes produit 60 images. Le maximum est de 100 images par vidéo, donc les vidéos de plus de 100 secondes environ seront échantillonnées.

Les archives sont extraites et traitées automatiquement.

FormatExtensionsRemarquesTaille maximale
ZIP.zipLe plus courant10 Go
TAR.tarArchive non compressée10 Go
TAR.GZ.tar.gz, .tgzArchive compressée10 Go
GZ.gzCompressé avec Gzip10 Go

Préparation de votre jeu de données

La plateforme prend en charge deux formats d'annotation ainsi que les téléchargements bruts : Ultralytics YOLO, COCOet brut (images non annotées) :

Utilisez la structure YOLO standard avec un data.yaml fichier :

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Le fichier yaml définit la configuration de votre jeu de données :

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Utilisez des fichiers d'annotation JSON avec la COCO standard :

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

Le fichier JSON contient images, annotations, et categories tableaux :

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO sont automatiquement converties lors du téléchargement. Détection (bbox), segmentation (segmentation polygones) et la pose (keypoints) sont prises en charge. Les identifiants de catégorie sont remappés vers une séquence dense indexée à partir de 0 dans tous les fichiers d'annotation. Pour la conversion entre les formats, voir outils de conversion de format.

Téléchargements bruts

Raw: téléchargez des images non annotées (sans étiquettes). Utile lorsque vous prévoyez d'annoter directement sur la plateforme à l'aide de l'éditeur d'annotation.

Structure de répertoires plate

Vous pouvez également télécharger des images sans la structure de dossiers train/val. Les images téléchargées sans dossiers séparés sont attribuées au dossier train divisés par défaut. Vous pouvez les réattribuer ultérieurement à l'aide de la fonctionnalité de déplacement groupé vers la division.

Détection automatique du format

Le format est détecté automatiquement : les ensembles de données avec un data.yaml contenant names, train, ou val Les clés sont traitées comme YOLO. Les ensembles de données avec des fichiers COCO (contenant images, annotations, et categories Les tableaux) sont traités comme COCO. Les ensembles de données contenant uniquement des images et aucune annotation sont traités comme des données brutes.

Pour plus d'informations sur les formats spécifiques à chaque tâche, consultez la liste des tâches prises en charge et la présentation des ensembles de données.

Processus de téléversement

  1. Accéder à Datasets dans la barre latérale
  2. Cliquez New Dataset ou faites glisser les fichiers dans la zone de téléchargement
  3. Sélectionnez le type de tâche (voir les tâches prises en charge)
  4. Ajoutez un nom et une description facultative
  5. Définissez la visibilité (publique ou privée) et la licence facultative (voir les licences disponibles)
  6. Cliquez Create

Ultralytics Sélectionneur de tâches de la boîte de dialogue de téléchargement des ensembles de données

Après le téléchargement, la plateforme traite vos données via un pipeline en plusieurs étapes :

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Validation: vérification du format et de la taille
  2. Normalisation: images volumineuses redimensionnées (max. 4096 px, dimension minimale 28 px)
  3. Vignettes: aperçus WebP de 256 pixels générés
  4. Analyse des étiquettes: YOLO et étiquettes COCO extraites
  5. Statistiques: répartition des classes et dimensions des images calculées

Barre de progression du téléchargement des ensembles de données Ultralytics

Valider avant le téléversement

Vous pouvez valider votre jeu de données localement avant de le téléverser :

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Exigences relatives à la taille des images

Les images doivent avoir une taille minimale de 28 pixels sur leur côté le plus court. Les images plus petites que cette taille sont rejetées lors du traitement. Les images dont le côté le plus long dépasse 4096 pixels sont automatiquement redimensionnées tout en conservant leur rapport hauteur/largeur.

Parcourir les images

Visualisez les images de votre jeu de données dans plusieurs mises en page :

AfficherDescription
GrilleGrille de vignettes avec annotations superposées (par défaut)
CompactVignettes réduites pour un aperçu rapide
TableauListe avec vignette, nom de fichier, dimensions, taille, fractionnement, classes et nombre d'étiquettes

Galerie des ensembles de données Ultralytics Affichage en grille avec annotations

Tri et filtrage

Les images peuvent être triées et filtrées pour une navigation efficace :

TrierDescription
Le plus récentDerniers ajouts
Le plus ancienAjouté le plus tôt
Nom A-ZPar ordre alphabétique
Nom Z-AAlphabetique inversé
Taille (la plus petite)Les fichiers les plus petits en premier
Taille (la plus grande)Les fichiers les plus volumineux en premier
La plupart des étiquettesLa plupart des annotations
Le moins d'étiquettes possibleLe moins d'annotations
FiltrerOptions
Filtre diviséTrain, Val, Test ou Tout
Filtre d'étiquetteToutes les images, annotées ou non annotées
RechercherFiltrer les images par nom de fichier

Recherche d'images non étiquetées

Utilisez le filtre d'étiquette défini sur Unannotated pour trouver rapidement les images qui doivent encore être annotées. Cela est particulièrement utile pour les grands ensembles de données où vous souhaitez track la progression track .

Visionneuse plein écran

Cliquez sur n'importe quelle image pour ouvrir la visionneuse plein écran avec :

  • Navigation: touches fléchées ou aperçus miniatures pour parcourir
  • Métadonnées: nom de fichier, dimensions, badge divisé, nombre d'annotations
  • Annotations: Activer/désactiver l'affichage des annotations
  • Répartition par classe: nombre d'étiquettes par classe avec indicateurs de couleur
  • Modifier: Entrez en mode annotation pour ajouter ou modifier des étiquettes.
  • Télécharger: Télécharger le fichier image original
  • Supprimer: Supprimer l'image du jeu de données
  • Zoom: Cmd/Ctrl+Scroll pour agrandir/réduire
  • Affichage pixelisé: activez le rendu pixelisé pour une inspection minutieuse.

Visionneuse plein écran des ensembles de données Ultralytics avec panneau de métadonnées

Filtrer par partition

Filtrer les images par leur division de jeu de données :

DivisionObjectif
EntraînerUtilisé pour l'entraînement du modèle
ValiderUtilisé pour la validation pendant l'entraînement
TestUtilisé pour l'évaluation finale

Onglets des ensembles de données

Chaque page de jeu de données comporte cinq onglets accessibles depuis la barre d'onglets :

Onglet Images

Affichage par défaut montrant la galerie d'images avec des annotations superposées. Prend en charge les modes d'affichage en grille, compact et tableau. Glissez-déposez des fichiers ici pour ajouter d'autres images.

Onglet Classes

Gérez les classes d'annotation pour votre ensemble de données :

  • Histogramme des classes: graphique à barres indiquant le nombre d'annotations par classe avec possibilité de basculer entre une échelle linéaire et une échelle logarithmique.
  • Tableau des classes: tableau triable et consultable avec nom de classe, nombre d'étiquettes et nombre d'images
  • Modifier les noms de classe: cliquez sur n'importe quel nom de classe pour le renommer en ligne.
  • Modifier les couleurs des classes: cliquez sur un échantillon de couleur pour modifier la couleur de la classe.
  • Ajouter une nouvelle classe: utilisez le champ de saisie en bas pour ajouter des classes.

Ultralytics Ensembles de données Onglet Classes Histogramme et tableau

Échelle logarithmique pour les ensembles de données déséquilibrés

Si votre ensemble de données présente un déséquilibre entre les classes (par exemple, 10 000 annotations « personne » mais seulement 50 « vélo »), utilisez le Log Scale Activez l'histogramme des classes pour visualiser clairement toutes les classes.

Onglet Graphiques

Statistiques automatiques calculées à partir de votre ensemble de données :

GraphiqueDescription
Distribution fractionnéeGraphique en anneau représentant le nombre d'images train/val/test et le pourcentage étiqueté
Cours de haut niveauGraphique en anneau des 10 classes d'annotation les plus fréquentes
Largeurs d'imageHistogramme de la distribution de la largeur des images avec moyenne
Hauteurs de l'imageHistogramme de la distribution des hauteurs d'image avec moyenne
Points par instanceNombre de sommets ou de points clés par annotation (segment)
Emplacements des annotationsCarte thermique 2D des positions centrales des cadres de sélection
Dimensions de l'imageCarte thermique 2D largeur/hauteur avec lignes de guidage pour le rapport d'aspect

Ultralytics Ensembles de données Onglet Graphiques Grille statistique

Mise en cache des statistiques

Les statistiques sont mises en cache pendant 5 minutes. Les modifications apportées aux annotations seront reflétées après l'expiration du cache.

Cartes thermiques plein écran

Cliquez sur le bouton « Agrandir » de n'importe quelle carte thermique pour l'afficher en mode plein écran. Vous obtiendrez ainsi une vue plus grande et plus détaillée, utile pour comprendre les schémas spatiaux dans les grands ensembles de données.

Onglet Modèles

Affichez tous les modèles entraînés sur cet ensemble de données dans un tableau consultable :

ColonneDescription
NomNom du modèle avec lien
ProjetProjet parent avec icône
StatutBadge de statut de formation
TâcheType YOLO
ÉpoquesMeilleure époque / total des époques
mAP50-95Précision moyenne
mAP50mAP IoU ,50
CrééeDate de création

Ultralytics Ensembles de données Onglet Modèles Tableau des modèles entraînés

Onglet Erreurs

Les images dont le traitement a échoué sont répertoriées ici avec :

  • Bannière d'erreur: nombre total d'images ayant échoué et conseils
  • Tableau des erreurs: nom du fichier, description conviviale de l'erreur, conseils de correction et vignette d'aperçu
  • Les erreurs courantes comprennent les fichiers corrompus, les formats non pris en charge, les images trop petites (minimum 28 pixels) et les modes couleur non pris en charge.
Erreurs courantes de traitement
ErreurCauseCorrection
Impossible de lire le fichier imageFormat corrompu ou non pris en chargeRéexporter depuis l'éditeur d'images
Incomplet ou corrompuLe fichier a été tronqué pendant le transfert.Télécharger à nouveau le fichier original
Image trop petiteDimension minimale inférieure à 28pxUtilisez des images sources à plus haute résolution.
Mode couleur non pris en chargeMode couleur CMJN ou indexéConvertir en mode RVB

Exporter le jeu de données

Exportez votre ensemble de données au format NDJSON pour une utilisation hors ligne :

  1. Cliquez sur l'icône de téléchargement dans l'en-tête de l'ensemble de données.
  2. Le fichier NDJSON se télécharge automatiquement.

Exportation des ensembles de données Ultralytics Téléchargement Ndjson

Le format NDJSON stocke un objet JSON par ligne. La première ligne contient les métadonnées de l'ensemble de données, suivies d'une ligne par image :

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

URL signées

Les URL des images dans le fichier NDJSON exporté sont signées et valables pendant 7 jours. Si vous avez besoin de nouvelles URL, réexportez l'ensemble de données.

Consulter la documentation du format NDJSON d'Ultralytics pour une spécification complète.

Opérations groupées

Gérez les images en masse à l'aide du menu contextuel de la vue tableau :

Déménager à Split

Réattribuer les images sélectionnées à une autre division au sein du même ensemble de données :

  1. Passer à l'affichage tableau
  2. Sélectionnez les images à l'aide des cases à cocher.
  3. Cliquez avec le bouton droit pour ouvrir le menu contextuel.
  4. Choisissez Move to split > Entraîner, Validation, ou Test

Vous pouvez également glisser-déposer des images sur les onglets de filtres fractionnés dans la vue en grille.

Organisation des divisions Train/Val

Téléchargez toutes les images dans un seul ensemble de données, puis utilisez la fonction « bulk move-to-split » pour organiser les sous-ensembles en segments d'entraînement, de validation et de test.

Suppression groupée

Supprimer plusieurs images à la fois :

  1. Sélectionner des images dans la vue tableau
  2. Cliquez avec le bouton droit et sélectionnez Delete
  3. Confirmer la suppression

URI du jeu de données

Référencer les jeux de données de la Plateforme en utilisant le ul:// Format URI (voir Utilisation des jeux de données de la plateforme) :

ul://username/datasets/dataset-slug

Utilisez cet URI pour entraîner des modèles depuis n'importe quel endroit :

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Entraîner partout avec les données de la Plateforme

L'argument ul:// L'URI fonctionne depuis n'importe quel environnement :

  • Machine locale : Entraînez sur votre matériel, les données sont téléchargées automatiquement
  • Google Colab : Accédez à vos jeux de données de la Plateforme dans des notebooks
  • Serveurs distants : Entraînez sur des VM cloud avec un accès complet aux jeux de données

Licences disponibles

La plateforme prend en charge les licences suivantes pour les ensembles de données :

LicenceType
AucunAucune licence sélectionnée
CC0-1.0Domaine public
CC-BY-2.5Permissif
CC-BY-4.0Permissif
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0Non commercial
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Pas de dérivés
CC-BY-NC-ND-4.0Non commercial
Apache-2.0Permissif
MITPermissif
AGPL-3.0Copyleft
GPL-3.0Copyleft
Recherche uniquementRestreint
AutrePersonnalisé

Licences Copyleft

Lors du clonage d'un ensemble de données sous licence copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), le clone hérite de la licence et le sélecteur de licence est verrouillé.

Paramètres de visibilité

Contrôlez qui peut voir votre jeu de données :

ParamètreDescription
PrivéSeul vous pouvez y accéder
PublicTout le monde peut consulter sur la page Explorer

La visibilité est définie lors de la création d'un ensemble de données dans le New Dataset dialogue à l'aide d'un commutateur à bascule. Les ensembles de données publics sont visibles sur le Explorer page.

Modifier l'ensemble de données

Les métadonnées du jeu de données sont modifiées directement sur la page du jeu de données, sans boîte de dialogue :

  • Nom: Cliquez sur le nom de l'ensemble de données pour le modifier. Les modifications sont automatiquement enregistrées lorsque vous quittez le champ. Enter.
  • Description: cliquez sur la description (ou sur l'espace réservé « Ajouter une description... ») pour la modifier. Les modifications sont enregistrées automatiquement.
  • Type de tâche: cliquez sur l'icône de la tâche pour sélectionner un autre type de tâche.
  • Licence: cliquez sur le sélecteur de licence pour modifier la licence du jeu de données.

Modification du type de tâche

La modification du type de tâche peut avoir une incidence sur la manière dont les annotations existantes sont visualisées. Les annotations incompatibles ne seront pas affichées.

Cloner le jeu de données

Lorsque vous consultez un ensemble de données publiques dont vous n'êtes pas propriétaire, cliquez sur Clone Dataset pour créer une copie dans votre espace de travail. Le clone comprend toutes les images, annotations et définitions de classe. Si l'ensemble de données d'origine dispose d'une licence copyleft, le clone en hérite et le sélecteur de licence est verrouillé.

Star et Partager

  • Étoile: cliquez sur le bouton étoile pour ajouter un ensemble de données à vos favoris. Le nombre d'étoiles est visible par tous les utilisateurs.
  • Partager: pour les ensembles de données publics, cliquez sur le bouton Partager pour copier un lien ou partager sur les réseaux sociaux.

Supprimer l'ensemble de données

Supprimer un jeu de données dont vous n'avez plus besoin :

  1. Ouvrir le menu d'actions du jeu de données
  2. Cliquez Delete
  3. Confirmez dans la boîte de dialogue : « Cela déplacera [nom] vers la corbeille. Vous pouvez le restaurer dans les 30 jours. »

Corbeille et Restauration

Les ensembles de données supprimés sont déplacés vers la corbeille, mais ne sont pas définitivement supprimés. Vous pouvez les restaurer dans les 30 jours suivant leur suppression. Settings > Trash.

Entraîner sur le jeu de données

Démarrer l'entraînement directement depuis votre jeu de données :

  1. Cliquez New Model sur la page des ensembles de données
  2. Sélectionner un projet ou en créer un nouveau
  3. Configurer les paramètres d'entraînement
  4. Démarrer l'entraînement
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Consultez l'entraînement dans le cloud pour plus de détails.

FAQ

Qu'advient-il de mes données après le téléversement ?

Vos données sont traitées et stockées dans la région sélectionnée (US, EU ou AP). Les images sont :

  1. Validé pour le format et la taille
  2. Rejeté si la dimension minimale est inférieure à 28 px
  3. Normalisé s'il est supérieur à 4096 px (en conservant le rapport hauteur/largeur ; encodé pour un stockage optimisé)
  4. Stocké à l'aide d'un système de stockage adressable par le contenu (CAS) avec hachage XXH3-128
  5. Miniatures générées à 256 px WebP pour une navigation rapide

Comment fonctionne le stockage ?

La plateforme Ultralytics utilise le stockage adressable par contenu (CAS) pour un stockage efficace :

  • Déduplication : Les images identiques téléchargées par différents utilisateurs ne sont stockées qu'une seule fois
  • Intégrité: le hachage XXH3-128 garantit l'intégrité des données.
  • Efficacité : Réduit les coûts de stockage et accélère le traitement
  • Régional : Les données restent dans la région sélectionnée (US, EU ou AP)

Puis-je ajouter des images à un jeu de données existant ?

Oui, glissez-déposez les fichiers sur la page du jeu de données ou utilisez le bouton de téléchargement pour ajouter des images supplémentaires. De nouvelles statistiques seront calculées automatiquement.

Comment déplacer des images entre les divisions ?

Utilisez la fonctionnalité de déplacement groupé vers fractionnement :

  1. Sélectionner des images dans la vue tableau
  2. Cliquez avec le bouton droit et sélectionnez Move to split
  3. Sélectionnez la division cible (entraînement, validation ou test).

Quels formats d'étiquettes sont pris en charge ?

Ultralytics prend en charge deux formats d'annotation pour le téléchargement :

Un .txt fichier par image avec coordonnées normalisées (plage 0-1) :

TâcheFormatExemple
Détecterclass cx cy w h0 0.5 0.5 0.2 0.3
Segmenterclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassifierStructure du répertoiretrain/cats/, train/dogs/

Indicateurs de visibilité des poses : 0 = non étiqueté, 1 = étiqueté mais masqué, 2 = étiqueté et visible.

Fichiers JSON avec images, annotations, et categories tableaux. Prend en charge la détection (bbox), segmentation (polygone) et pose (keypoints). COCO des coordonnées absolues en pixels qui sont automatiquement converties au format normalisé lors du téléchargement.



📅 Créé il y a 1 mois ✏️ Mis à jour il y a 5 jours
glenn-jochersergiuwaxmannLaughing-q

Commentaires