Jeu de données ImageNet
ImageNet est une base de données à grande échelle d'images annotées, conçue pour être utilisée dans la recherche sur la reconnaissance visuelle d'objets. Elle contient plus de 14 millions d'images, chacune annotée à l'aide de synsets WordNet, ce qui en fait l'une des ressources les plus complètes disponibles pour entraîner des modèles de deep learning pour des tâches de computer vision.
Modèles pré-entraînés ImageNet
| Modèle | taille (pixels) | acc top1 | acc top5 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) à 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Fonctionnalités clés
- ImageNet contient plus de 14 millions d'images haute résolution couvrant des milliers de catégories d'objets.
- Le jeu de données est organisé selon la hiérarchie WordNet, chaque synset représentant une catégorie.
- ImageNet est largement utilisé pour l'entraînement et l'évaluation comparative dans le domaine de la computer vision, en particulier pour les tâches de image classification et de object detection.
- Le défi annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC) a joué un rôle déterminant dans l'avancement de la recherche en computer vision.
Structure du jeu de données
Le jeu de données ImageNet est organisé en utilisant la hiérarchie WordNet. Chaque nœud de la hiérarchie représente une catégorie, et chaque catégorie est décrite par un synset (un ensemble de termes synonymes). Les images dans ImageNet sont annotées avec un ou plusieurs synsets, offrant une ressource riche pour entraîner des modèles à reconnaître divers objets et leurs relations.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
Le ImageNet Large Scale Visual Recognition Challenge (ILSVRC) annuel a été un événement important dans le domaine de la computer vision. Il a fourni une plateforme aux chercheurs et aux développeurs pour évaluer leurs algorithmes et modèles sur un jeu de données à grande échelle avec des métriques d'évaluation standardisées. L'ILSVRC a conduit à des avancées significatives dans le développement de modèles de deep learning pour la classification d'images, la détection d'objets et d'autres tâches de computer vision.
Applications
Le jeu de données ImageNet est largement utilisé pour entraîner et évaluer des modèles de deep learning dans diverses tâches de computer vision, telles que la classification d'images, la détection d'objets et la localisation d'objets. Certaines architectures de deep learning populaires, telles que AlexNet, VGG et ResNet, ont été développées et évaluées en utilisant le jeu de données ImageNet.
Utilisation
Pour entraîner un modèle de deep learning sur le jeu de données ImageNet pendant 100 epochs avec une taille d'image de 224x224, tu peux utiliser les extraits de code suivants. Pour une liste complète des arguments disponibles, réfère-toi à la page Training du modèle.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Exemples d'images et d'annotations
Le jeu de données ImageNet contient des images haute résolution couvrant des milliers de catégories d'objets, fournissant un jeu de données diversifié et étendu pour entraîner et évaluer des modèles de computer vision. Voici quelques exemples d'images du jeu de données :

L'exemple illustre la variété et la complexité des images du jeu de données ImageNet, soulignant l'importance d'un jeu de données diversifié pour entraîner des modèles de computer vision robustes.
Citations et remerciements
Si tu utilises le jeu de données ImageNet dans ton travail de recherche ou de développement, merci de citer le papier suivant :
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Nous tenons à remercier l'équipe ImageNet, dirigée par Olga Russakovsky, Jia Deng et Li Fei-Fei, pour avoir créé et maintenu le jeu de données ImageNet en tant que ressource précieuse pour la communauté de recherche en machine learning et en computer vision. Pour plus d'informations sur le jeu de données ImageNet et ses créateurs, visite le site web d'ImageNet.
FAQ
Qu'est-ce que le jeu de données ImageNet et comment est-il utilisé en computer vision ?
Le ImageNet dataset est une base de données à grande échelle composée de plus de 14 millions d'images haute résolution classées en utilisant des synsets WordNet. Il est largement utilisé dans la recherche sur la reconnaissance visuelle d'objets, incluant la classification d'images et la détection d'objets. Les annotations du jeu de données et son volume impressionnant offrent une ressource riche pour entraîner des modèles de deep learning. Notamment, des modèles comme AlexNet, VGG et ResNet ont été entraînés et évalués en utilisant ImageNet, démontrant son rôle dans l'avancement de la computer vision.
Comment puis-je utiliser un modèle YOLO pré-entraîné pour la classification d'images sur le jeu de données ImageNet ?
Pour utiliser un modèle Ultralytics YOLO pré-entraîné pour la classification d'images sur le jeu de données ImageNet, suis ces étapes :
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Pour des instructions d'entraînement plus approfondies, réfère-toi à notre page Training.
Pourquoi devrais-je utiliser les modèles pré-entraînés Ultralytics YOLO26 pour mes projets avec le jeu de données ImageNet ?
Les modèles pré-entraînés Ultralytics YOLO26 offrent des performances de pointe en termes de vitesse et de accuracy pour diverses tâches de computer vision. Par exemple, le modèle YOLO26n-cls, avec une précision top-1 de 70,0 % et une précision top-5 de 89,4 %, est optimisé pour les applications en temps réel. Les modèles pré-entraînés réduisent les ressources de calcul nécessaires pour un entraînement à partir de zéro et accélèrent les cycles de développement. Apprends-en plus sur les métriques de performance des modèles YOLO26 dans la section ImageNet Pretrained Models.
Comment le jeu de données ImageNet est-il structuré, et pourquoi est-il important ?
Le jeu de données ImageNet est organisé en utilisant la hiérarchie WordNet, où chaque nœud dans la hiérarchie représente une catégorie décrite par un synset (un ensemble de termes synonymes). Cette structure permet des annotations détaillées, le rendant idéal pour entraîner des modèles à reconnaître une grande variété d'objets. La diversité et la richesse des annotations d'ImageNet en font un jeu de données précieux pour développer des modèles de deep learning robustes et généralisables. Tu peux en apprendre davantage sur cette organisation dans la section Dataset Structure.
Quel rôle joue le ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en computer vision ?
Le ImageNet Large Scale Visual Recognition Challenge (ILSVRC) annuel a été essentiel pour favoriser les avancées en computer vision en fournissant une plateforme compétitive pour évaluer des algorithmes sur un jeu de données standardisé à grande échelle. Il offre des métriques d'évaluation standardisées, favorisant l'innovation et le développement dans des domaines tels que la classification d'images, la détection d'objets et la image segmentation. Le défi a continuellement repoussé les limites de ce qui est possible avec les technologies de deep learning et de computer vision.