Link to this sectionJeu de données ImageNet#

Name: Jeu de données de classification d'images ImageNet
Creator: ImageNet
License: https://www.image-net.org/download.php
Keywords: ImageNet, ILSVRC-2012, classification d'images, deep learning, computer vision, modèles pré-entraînés, YOLO, jeu de données, WordNet

Le jeu de données Ultralytics ImageNet (data="imagenet") est le sous-ensemble ImageNet-1k / ILSVRC-2012 utilisé pour entraîner et évaluer des modèles de classification d'images. Il contient 1 000 classes d'objets avec 1 281 167 images d'entraînement et 50 000 images de validation dans une taille d'image de 224x224, et le téléchargement représente environ 144 Go de données. La base de données plus large ImageNet est bien plus vaste — plus de 14 millions d'images haute résolution annotées avec des synsets WordNet sur plus de 20 000 catégories — mais Ultralytics s'entraîne sur le sous-ensemble standardisé de 1 000 classes ILSVRC qui est devenu la référence de facto pour le deep learning en computer vision.

Link to this sectionModèles pré-entraînés ImageNet#

Modèle	taille ^(pixels)	acc ^top1	acc ^top5	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^{(B) à 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Link to this sectionFonctionnalités clés#

Le jeu de données Ultralytics imagenet fournit 1 000 classes avec 1 281 167 images d'entraînement et 50 000 images de validation (ILSVRC-2012), la référence de pré-entraînement standard pour la classification d'images.
Les classes sont organisées selon la hiérarchie WordNet, où chaque classe correspond à un synset (un ensemble de termes synonymes).
Les images sont entraînées en 224x224, et le jeu de données complet représente un téléchargement important d'environ ~144 Go.
Le défi annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC) a joué un rôle déterminant dans l'avancement de la recherche en computer vision.

Link to this sectionStructure du jeu de données#

Le jeu de données Ultralytics ImageNet utilise le découpage ILSVRC-2012 :

Split	Images	Classes
Entraîner (Train)	1 281 167	1 000
Validation	50 000	1 000

Les images sont stockées dans des dossiers par classe nommés selon l'ID du synset WordNet (par exemple, n01440764), la structure attendue pour l'entraînement à la classification Ultralytics. Chacune des 1 000 classes correspond à un synset WordNet, et il n'y a pas de découpage de test séparé, donc le jeu de validation de 50 000 images est utilisé pour mesurer l'accuracy.

Taille du téléchargement

ImageNet-1k représente un téléchargement d'environ ~144 Go, assure-toi donc d'avoir assez d'espace disque avant de lancer l'entraînement. Pour des expériences rapides, les sous-ensembles plus petits ImageNette et ImageNet10 utilisent le même format de dossier et s'entraînent en une fraction du temps.

Link to this sectionImageNet Large Scale Visual Recognition Challenge (ILSVRC)#

Le ImageNet Large Scale Visual Recognition Challenge (ILSVRC) annuel a permis aux chercheurs d'évaluer des algorithmes sur un jeu de données à grande échelle et standardisé avec des métriques d'évaluation cohérentes. Il a propulsé des avancées majeures en deep learning pour la classification d'images, la object detection et d'autres tâches de vision — notamment la victoire d'AlexNet en 2012, qui a contribué à lancer l'ère moderne du deep learning.

Link to this sectionApplications#

Le jeu de données ImageNet est largement utilisé pour entraîner et évaluer des modèles de deep learning pour la classification d'images, la détection d'objets et la localisation d'objets. Des architectures phares comme AlexNet, VGG et ResNet ont toutes été développées et évaluées sur ImageNet, et les poids pré-entraînés sur ImageNet restent un point de départ courant pour l'apprentissage par transfert dans les tâches de vision.

Link to this sectionUtilisation#

Pour entraîner un modèle de classification YOLO sur ImageNet pendant 100 epochs à une taille d'image de 224x224, utilise les extraits de code ci-dessous. Pour une liste exhaustive des arguments disponibles, consulte la page Training du modèle.

Exemple d'entraînement

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Tu peux également gérer tes jeux de données de classification et lancer l'entraînement dans le cloud avec Ultralytics Platform.

Link to this sectionExemples d'images et annotations#

Le jeu de données ImageNet couvre les 1 000 classes ILSVRC-2012, offrant une ressource variée et étendue pour entraîner et évaluer des modèles de computer vision. Voici quelques exemples d'images issues du jeu de données :

Exemples d'images du jeu de données de classification ImageNet

Link to this sectionCitations et remerciements#

Si tu utilises le jeu de données ImageNet dans tes travaux de recherche ou de développement, merci de citer l'article suivant :

Citation

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Nous tenons à remercier l'équipe ImageNet, dirigée par Olga Russakovsky, Jia Deng et Li Fei-Fei, pour avoir créé et maintenu le jeu de données ImageNet en tant que ressource précieuse pour la communauté de recherche en machine learning et en computer vision. Pour plus d'informations sur le jeu de données ImageNet et ses créateurs, visite le site web d'ImageNet.

Link to this sectionFAQ#

Link to this sectionQu'est-ce que le jeu de données ImageNet et comment est-il utilisé en computer vision ?#

Le ImageNet dataset est une base de données d'images à grande échelle dont la collection globale contient plus de 14 millions d'images haute résolution annotées avec des synsets WordNet. Dans Ultralytics, data="imagenet" entraîne sur le sous-ensemble standardisé de 1 000 classes ILSVRC-2012, qui est la référence de facto pour le pré-entraînement en image classification. Des modèles phares tels qu'AlexNet, VGG et ResNet ont été entraînés et évalués sur ImageNet, soulignant son rôle dans l'avancement de la computer vision.

Link to this sectionCombien de classes et d'images contient le jeu de données ImageNet ?#

Le jeu de données Ultralytics imagenet utilise le sous-ensemble ILSVRC-2012 avec 1 000 classes, 1 281 167 images d'entraînement et 50 000 images de validation dans une taille d'image de 224x224, pour un téléchargement total d'environ 144 Go. La base de données complète ImageNet est beaucoup plus grande (plus de 14 millions d'images sur plus de 20 000 synsets WordNet), mais le sous-ensemble de 1 000 classes est celui utilisé pour l'entraînement et l'évaluation de la classification.

Link to this sectionComment puis-je entraîner un modèle YOLO pour la classification d'images sur le jeu de données ImageNet ?#

Pour entraîner un modèle Ultralytics YOLO sur ImageNet, charge un modèle de classification pré-entraîné et pointe data vers imagenet :

Exemple d'entraînement

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Pour des instructions d'entraînement plus approfondies, consulte notre page Training.

Link to this sectionPourquoi devrais-je utiliser les modèles pré-entraînés Ultralytics YOLO26 pour mes projets sur le jeu de données ImageNet ?#

Les modèles pré-entraînés Ultralytics YOLO26 offrent des performances de pointe en termes de vitesse et d'accuracy pour diverses tâches de computer vision. Par exemple, le modèle YOLO26n-cls, avec une top-1 accuracy de 71,4% et une top-5 accuracy de 90,1%, est optimisé pour les applications en temps réel. Les modèles pré-entraînés réduisent les ressources informatiques nécessaires pour un entraînement complet et accélèrent les cycles de développement. Apprends-en plus sur les métriques de performance des modèles YOLO26 dans la section ImageNet Pretrained Models.

Link to this sectionQuel rôle joue le ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en computer vision ?#

Le ImageNet Large Scale Visual Recognition Challenge (ILSVRC) annuel a stimulé les avancées en computer vision en offrant une plateforme compétitive pour évaluer des algorithmes sur un jeu de données standardisé et à grande échelle. Ses métriques d'évaluation cohérentes ont favorisé l'innovation en classification d'images, en détection d'objets et en image segmentation, repoussant continuellement les limites du deep learning et de la computer vision.

Contributeurs

GLglenn-jocher¹⁶ RIRizwanMunawar² RAraimbekovm¹ AMambitious-octopus¹ MAMatthewNoyce¹ JKjk4e¹

Créé 12 nov. 2023Mis à jour il y a 3 jours