Préparation des données
La préparation des données est le fondement des modèles de vision par ordinateur réussis. La plateforme Ultralytics fournit des outils complets pour gérer vos données d'entraînement, du téléversement à l'analyse, en passant par l'annotation.
Regarder : Premiers pas avec Ultralytics - Données
Aperçu
La section Données de la plateforme Ultralytics vous aide à :
- Téléversement images, vidéos et fichiers de données (ZIP, TAR, y compris
.tar.gz/.tgz, NDJSON) - Annoter avec des outils de dessin manuel et l'étiquetage intelligent alimenté par SAM — choisissez parmi SAM 2.1 ou le nouveau SAM 3
- Analyser vos données avec des statistiques et des visualisations
- Exporter au format NDJSON pour l'entraînement local

Flux de travail
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Étape | Description |
|---|---|
| Téléversement | Importez des images, des vidéos ou des archives avec traitement automatique |
| Annotation | Étiquetez les données à l'aide d'outils manuels pour les 5 types de tâches, ou utilisez SAM pour detect, segment et l'OBB. |
| Analyse | Visualiser les distributions de classes, les cartes thermiques spatiales et les statistiques de dimensions |
| Exporter | Télécharger au format NDJSON pour une utilisation hors ligne |
Tâches prises en charge
La plateforme Ultralytics prend en charge les 5 types de tâches YOLO :
| Tâche | Description | Outil d'annotation |
|---|---|---|
| Détecter | Détection d'objets avec des boîtes englobantes | Outil rectangle |
| Segmenter | Segmentation d'instances avec des masques de pixels | Outil polygone |
| Pose | Estimation des points clés à l'aide de modèles de squelettes intégrés et personnalisés | Outil de points clés |
| OBB | Boîtes englobantes orientées pour les objets en rotation | Outil de boîtes orientées |
| Classifier | Classification au niveau de l'image | Sélecteur de classe |
Sélection du type de tâche
Le type de tâche est défini lors de la création d'un ensemble de données et détermine les outils d'annotation disponibles. Vous pouvez le modifier ultérieurement à partir des paramètres de l'ensemble de données, mais les annotations incompatibles ne s'afficheront plus après le changement.
Principales caractéristiques
Stockage intelligent
Ultralytics utilise le stockage adressable par contenu (CAS) pour une gestion efficace des données :
- Déduplication : Les images identiques sont stockées une seule fois via le hachage XXH3-128.
- Intégrité : L'adressage basé sur le hachage assure l'intégrité des données.
- Efficacité : Stockage optimisé et traitement rapide
URI de jeux de données
Référencer des jeux de données en utilisant le ul:// Format URI (voir Utilisation des jeux de données de la plateforme) :
yolo train data=ul://username/datasets/my-dataset
Cela permet de s'entraîner sur les ensembles de données de la plateforme à partir de n'importe quelle machine sur laquelle votre clé API est configurée.
Utiliser les données de la plateforme depuis Python
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Gestion des versions des jeux de données
Créer des instantanés NDJSON immuables de votre jeu de données pour un entraînement reproductible. Chaque version enregistre le nombre d'images, le nombre de classes et le nombre d'annotations au moment de sa création. Consulter l'onglet Versions pour plus de détails.
Onglets des jeux de données
Chaque page de jeu de données comporte six onglets :
| Onglet | Description |
|---|---|
| Images | Parcourir les images en vue grille, compacte ou tableau avec superpositions d'annotations |
| Classes | Afficher et modifier les noms des classes, les couleurs et le nombre d'étiquettes par classe |
| Graphiques | Statistiques automatiques : répartition des ensembles, comptages de classes, cartes thermiques |
| Modèles | Modèles entraînés sur ce jeu de données avec métriques et statut |
| Versions | Créer et télécharger des instantanés NDJSON immuables pour un entraînement reproductible |
| Erreurs | Images dont le traitement a échoué, avec détails de l'erreur et conseils pour la résoudre |
Statistiques et visualisation
L'argument Charts L'onglet fournit une analyse automatique comprenant :
- Répartition des ensembles : Diagramme en anneau des nombres d'images d'entraînement/validation/test.
- Classes principales : Diagramme en anneau des classes d'annotation les plus fréquentes
- Largeurs d'image : Histogramme de la distribution des largeurs d'image
- Hauteurs d'image : Histogramme de la distribution des hauteurs d'image
- Points par Instance: Distribution du nombre de sommets de polygones ou de points clés (jeux de données de segment/pose)
- Emplacements des annotations : Carte thermique 2D des positions centrales des boîtes englobantes
- Dimensions de l'image : Carte thermique 2D de la largeur vs la hauteur avec des lignes de guidage de rapport d'aspect
Liens rapides
- Jeux de données: Importez, gérez et exportez vos données d'entraînement
- Annotation : Étiquetage des données avec des outils manuels et assistés par l'IA
- Entraînement dans le cloud: Entraînez des modèles sur vos jeux de données annotés
- URI du jeu de données: Utilisez
ul://Des URI pour s'entraîner où que vous soyez
FAQ
Quels formats de fichier sont pris en charge pour le téléversement ?
La plateforme Ultralytics prend en charge :
Images : JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (50 Mo max chacun)
Vidéos : MP4, WebM, MOV, AVI, MKV, M4V (max. 1 Go, images extraites à 1 image par seconde, max. 100 images)
Fichiers du jeu de données : Archives ZIP ou TAR contenant .tar.gz et .tgz (max 10 Go en version Gratuite, 20 Go en version Pro, 50 Go en version Entreprise) contenant des images avec des options Étiquettes YOLO, plus les exportations NDJSON
Quelle est la taille maximale d'un jeu de données ?
Les limites de stockage dépendent de votre plan :
| Forfait | Limite de stockage |
|---|---|
| Gratuit | 100 Go |
| Pro | 500 Go |
| Entreprise | Illimité |
Limites par fichier : images 50 Mo, vidéos 1 Go, ensembles de données 10 Go pour la version gratuite / 20 Go pour la version Pro / 50 Go pour la version Entreprise
Puis-je utiliser mes jeux de données de la Plateforme pour l'entraînement local ?
Oui ! Utilisez le format URI du jeu de données pour l'entraînement local :
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os
os.environ["ULTRALYTICS_API_KEY"] = "YOUR_API_KEY"
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Ou exportez votre ensemble de données au format NDJSON pour une formation entièrement hors ligne.