Passer au contenu

Préparation des données

La préparation des données est le fondement des modèles de vision par ordinateur réussis. La plateforme Ultralytics fournit des outils complets pour gérer vos données d'entraînement, du téléversement à l'analyse, en passant par l'annotation.



Regarder : Premiers pas avec Ultralytics - Données

Aperçu

La section Données de la plateforme Ultralytics vous aide à :

  • Téléversement images, vidéos et fichiers de données (ZIP, TAR, y compris .tar.gz/.tgz, NDJSON)
  • Annoter avec des outils de dessin manuel et l'étiquetage intelligent alimenté par SAM — choisissez parmi SAM 2.1 ou le nouveau SAM 3
  • Analyser vos données avec des statistiques et des visualisations
  • Exporter au format NDJSON pour l'entraînement local

Aperçu des données Ultralytics Encadré Ensembles de données

Flux de travail

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ÉtapeDescription
TéléversementImportez des images, des vidéos ou des archives avec traitement automatique
AnnotationÉtiquetez les données à l'aide d'outils manuels pour les 5 types de tâches, ou utilisez SAM pour detect, segment et l'OBB.
AnalyseVisualiser les distributions de classes, les cartes thermiques spatiales et les statistiques de dimensions
ExporterTélécharger au format NDJSON pour une utilisation hors ligne

Tâches prises en charge

La plateforme Ultralytics prend en charge les 5 types de tâches YOLO :

TâcheDescriptionOutil d'annotation
DétecterDétection d'objets avec des boîtes englobantesOutil rectangle
SegmenterSegmentation d'instances avec des masques de pixelsOutil polygone
PoseEstimation des points clés à l'aide de modèles de squelettes intégrés et personnalisésOutil de points clés
OBBBoîtes englobantes orientées pour les objets en rotationOutil de boîtes orientées
ClassifierClassification au niveau de l'imageSélecteur de classe

Sélection du type de tâche

Le type de tâche est défini lors de la création d'un ensemble de données et détermine les outils d'annotation disponibles. Vous pouvez le modifier ultérieurement à partir des paramètres de l'ensemble de données, mais les annotations incompatibles ne s'afficheront plus après le changement.

Principales caractéristiques

Stockage intelligent

Ultralytics utilise le stockage adressable par contenu (CAS) pour une gestion efficace des données :

  • Déduplication : Les images identiques sont stockées une seule fois via le hachage XXH3-128.
  • Intégrité : L'adressage basé sur le hachage assure l'intégrité des données.
  • Efficacité : Stockage optimisé et traitement rapide

URI de jeux de données

Référencer des jeux de données en utilisant le ul:// Format URI (voir Utilisation des jeux de données de la plateforme) :

yolo train data=ul://username/datasets/my-dataset

Cela permet de s'entraîner sur les ensembles de données de la plateforme à partir de n'importe quelle machine sur laquelle votre clé API est configurée.

Utiliser les données de la plateforme depuis Python

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Gestion des versions des jeux de données

Créer des instantanés NDJSON immuables de votre jeu de données pour un entraînement reproductible. Chaque version enregistre le nombre d'images, le nombre de classes et le nombre d'annotations au moment de sa création. Consulter l'onglet Versions pour plus de détails.

Onglets des jeux de données

Chaque page de jeu de données comporte six onglets :

OngletDescription
ImagesParcourir les images en vue grille, compacte ou tableau avec superpositions d'annotations
ClassesAfficher et modifier les noms des classes, les couleurs et le nombre d'étiquettes par classe
GraphiquesStatistiques automatiques : répartition des ensembles, comptages de classes, cartes thermiques
ModèlesModèles entraînés sur ce jeu de données avec métriques et statut
VersionsCréer et télécharger des instantanés NDJSON immuables pour un entraînement reproductible
ErreursImages dont le traitement a échoué, avec détails de l'erreur et conseils pour la résoudre

Statistiques et visualisation

L'argument Charts L'onglet fournit une analyse automatique comprenant :

  • Répartition des ensembles : Diagramme en anneau des nombres d'images d'entraînement/validation/test.
  • Classes principales : Diagramme en anneau des classes d'annotation les plus fréquentes
  • Largeurs d'image : Histogramme de la distribution des largeurs d'image
  • Hauteurs d'image : Histogramme de la distribution des hauteurs d'image
  • Points par Instance: Distribution du nombre de sommets de polygones ou de points clés (jeux de données de segment/pose)
  • Emplacements des annotations : Carte thermique 2D des positions centrales des boîtes englobantes
  • Dimensions de l'image : Carte thermique 2D de la largeur vs la hauteur avec des lignes de guidage de rapport d'aspect

FAQ

Quels formats de fichier sont pris en charge pour le téléversement ?

La plateforme Ultralytics prend en charge :

Images : JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (50 Mo max chacun)

Vidéos : MP4, WebM, MOV, AVI, MKV, M4V (max. 1 Go, images extraites à 1 image par seconde, max. 100 images)

Fichiers du jeu de données : Archives ZIP ou TAR contenant .tar.gz et .tgz (max 10 Go en version Gratuite, 20 Go en version Pro, 50 Go en version Entreprise) contenant des images avec des options Étiquettes YOLO, plus les exportations NDJSON

Quelle est la taille maximale d'un jeu de données ?

Les limites de stockage dépendent de votre plan :

ForfaitLimite de stockage
Gratuit100 Go
Pro500 Go
EntrepriseIllimité

Limites par fichier : images 50 Mo, vidéos 1 Go, ensembles de données 10 Go pour la version gratuite / 20 Go pour la version Pro / 50 Go pour la version Entreprise

Puis-je utiliser mes jeux de données de la Plateforme pour l'entraînement local ?

Oui ! Utilisez le format URI du jeu de données pour l'entraînement local :

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "YOUR_API_KEY"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Ou exportez votre ensemble de données au format NDJSON pour une formation entièrement hors ligne.



📅 Créé il y a 2 mois ✏️ Mis à jour il y a 4 jours
glenn-jocherRizwanMunawaramanharshxsergiuwaxmann

Commentaires