Ensemble de données ImageNet

Q: What is the ImageNet dataset and how is it used in computer vision?

L'ensemble de données ImageNet est une base de données à grande échelle comprenant plus de 14 millions d'images haute résolution classées à l'aide de synsets WordNet. Il est largement utilisé dans la recherche sur la reconnaissance visuelle d'objets, y compris la classification d'images et la détection d'objets. Les annotations et le volume considérable de l'ensemble de données fournissent une ressource riche pour l'entraînement des modèles d'apprentissage profond. Notamment, des modèles tels qu'AlexNet, VGG et ResNet ont été entraînés et évalués à l'aide d'ImageNet, ce qui témoigne de son rôle dans l'avancement de la vision par ordinateur.

Q: How is the ImageNet dataset structured, and why is it important?

L'ensemble de données ImageNet est organisé à l'aide de la hiérarchie WordNet, où chaque nœud de la hiérarchie représente une catégorie décrite par un synset (un ensemble de termes synonymes). Cette structure permet des annotations détaillées, ce qui la rend idéale pour l'entraînement de modèles afin de reconnaître une grande variété d'objets. La diversité et la richesse des annotations d'ImageNet en font un ensemble de données précieux pour le développement de modèles d'apprentissage profond robustes et généralisables. Vous trouverez plus d'informations sur cette organisation dans la section Structure de l'ensemble de données.

ImageNet est une base de données à grande échelle d’images annotées conçue pour être utilisée dans la recherche sur la reconnaissance visuelle d’objets. Elle contient plus de 14 millions d’images, chaque image étant annotée à l’aide de synsets WordNet, ce qui en fait l’une des ressources les plus complètes disponibles pour la formation de modèles d’apprentissage profond dans les tâches de vision par ordinateur.

Modèles pré-entraînés ImageNet

Modèle	Taille ^(pixels)	acc ^top1	acc ^top5	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^{(B) à 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Principales caractéristiques

ImageNet contient plus de 14 millions d'images haute résolution couvrant des milliers de catégories d'objets.
Le jeu de données est organisé selon la hiérarchie WordNet, chaque synset représentant une catégorie.
ImageNet est largement utilisé pour l'entraînement et l'évaluation comparative dans le domaine de la vision par ordinateur, en particulier pour les tâches de classification d'images et de détection d'objets.
Le concours annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC) a contribué à faire progresser la recherche en vision par ordinateur.

Structure du jeu de données

Le jeu de données ImageNet est organisé selon la hiérarchie WordNet. Chaque nœud de la hiérarchie représente une catégorie, et chaque catégorie est décrite par un synset (un ensemble de termes synonymes). Les images d'ImageNet sont annotées avec un ou plusieurs synsets, ce qui constitue une ressource riche pour entraîner des modèles à reconnaître divers objets et leurs relations.

Défi de reconnaissance visuelle à grande échelle ImageNet (ILSVRC)

Le concours annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC) a été un événement important dans le domaine de la vision par ordinateur. Il a fourni une plateforme permettant aux chercheurs et aux développeurs d'évaluer leurs algorithmes et modèles sur un ensemble de données à grande échelle avec des métriques d'évaluation standardisées. L'ILSVRC a conduit à des avancées significatives dans le développement de modèles d'apprentissage profond pour la classification d'images, la détection d'objets et d'autres tâches de vision par ordinateur.

Applications

Le jeu de données ImageNet est largement utilisé pour l'entraînement et l'évaluation de modèles d'apprentissage profond dans diverses tâches de vision par ordinateur, telles que la classification d'images, la détection d'objets et la localisation d'objets. Certaines architectures d'apprentissage profond populaires, telles que AlexNet, VGG et ResNet, ont été développées et évaluées à l'aide du jeu de données ImageNet.

Utilisation

Pour entraîner un modèle d'apprentissage profond sur le dataset ImageNet pendant 100 epochs avec une taille d'image de 224x224, vous pouvez utiliser les extraits de code suivants. Pour une liste complète des arguments disponibles, consultez la page Training (Entraînement) du modèle.

Exemple d'entraînement

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Images et annotations d'exemple

L'ensemble de données ImageNet contient des images haute résolution couvrant des milliers de catégories d'objets, fournissant un ensemble de données diversifié et étendu pour l'entraînement et l'évaluation des modèles de vision par ordinateur. Voici quelques exemples d'images de l'ensemble de données :

Exemples d'images issues de l'ensemble de données ImageNet

L'exemple illustre la variété et la complexité des images dans l'ensemble de données ImageNet, soulignant l'importance d'un ensemble de données diversifié pour l'entraînement de modèles de vision par ordinateur robustes.

Citations et remerciements

Si vous utilisez l'ensemble de données ImageNet dans vos travaux de recherche ou de développement, veuillez citer l'article suivant :

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Nous tenons à remercier l'équipe ImageNet, dirigée par Olga Russakovsky, Jia Deng et Li Fei-Fei, pour la création et la maintenance du jeu de données ImageNet, une ressource précieuse pour la communauté de recherche en apprentissage automatique et en vision par ordinateur. Pour plus d'informations sur le jeu de données ImageNet et ses créateurs, consultez le site web d'ImageNet.

FAQ

Qu'est-ce que l'ensemble de données ImageNet et comment est-il utilisé en vision par ordinateur ?

Le ImageNet dataset est une base de données à grande échelle comprenant plus de 14 millions d'images haute résolution classées à l'aide de synsets WordNet. Il est largement utilisé dans la recherche sur la reconnaissance visuelle d'objets, y compris la classification d'images et la détection d'objets. Les annotations du dataset et son volume considérable fournissent une ressource riche pour l'entraînement des modèles de deep learning. Notamment, des modèles comme AlexNet, VGG et ResNet ont été entraînés et évalués à l'aide d'ImageNet, ce qui témoigne de son rôle dans l'avancement de la vision par ordinateur.

Comment puis-je utiliser un modèle YOLO pré-entraîné pour la classification d'images sur l'ensemble de données ImageNet ?

Pour utiliser un modèle Ultralytics YOLO pré-entraîné pour la classification d'images sur l'ensemble de données ImageNet, suivez ces étapes :

Exemple d'entraînement

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Pour des instructions d'entraînement plus approfondies, consultez notre page d'entraînement.

Pourquoi devrais-je utiliser les modèles pré-entraînés Ultralytics YOLO26 pour mes projets de jeux de données ImageNet ?

Les modèles pré-entraînés Ultralytics YOLO26 offrent des performances de pointe en termes de vitesse et de précision pour diverses tâches de vision par ordinateur. Par exemple, le modèle YOLO26n-cls, avec une précision top-1 de 70,0 % et une précision top-5 de 89,4 %, est optimisé pour les applications en temps réel. Les modèles pré-entraînés réduisent les ressources de calcul nécessaires pour un entraînement à partir de zéro et accélèrent les cycles de développement. Apprenez-en davantage sur les métriques de performance des modèles YOLO26 dans la section Modèles pré-entraînés ImageNet.

Comment l'ensemble de données ImageNet est-il structuré et pourquoi est-il important ?

Le jeu de données ImageNet est organisé selon la hiérarchie WordNet, où chaque nœud de la hiérarchie représente une catégorie décrite par un synset (un ensemble de termes synonymes). Cette structure permet des annotations détaillées, ce qui la rend idéale pour entraîner des modèles à reconnaître une grande variété d'objets. La diversité et la richesse des annotations d'ImageNet en font un jeu de données précieux pour développer des modèles d'apprentissage profond robustes et généralisables. Vous trouverez plus d'informations sur cette organisation dans la section Structure du jeu de données.

Quel rôle joue le défi ImageNet Large Scale Visual Recognition Challenge (ILSVRC) dans la vision par ordinateur ?

Le concours annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC) a joué un rôle essentiel dans l'avancement de la vision par ordinateur en fournissant une plateforme compétitive pour l'évaluation des algorithmes sur un ensemble de données standardisé à grande échelle. Il offre des métriques d'évaluation standardisées, favorisant l'innovation et le développement dans des domaines tels que la classification d'images, la détection d'objets et la segmentation d'images. Le défi a continuellement repoussé les limites de ce qui est possible avec l'apprentissage profond et les technologies de vision par ordinateur.

📅 Créé il y a 2 ans ✍️ Mis à jour il y a 3 mois