Ensemble de données ImageNet
ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.
Modèles préformés ImageNet
Modèle | taille (pixels) |
acc top1 |
acc top5 |
Vitesse CPU ONNX (ms) |
Speed T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) à 640 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 1.6 | 3.3 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 5.5 | 12.1 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 10.4 | 39.3 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 12.9 | 49.4 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 28.4 | 110.4 |
Caractéristiques principales
- ImageNet contient plus de 14 millions d'images haute résolution couvrant des milliers de catégories d'objets.
- L'ensemble de données est organisé selon la hiérarchie WordNet, chaque synset représentant une catégorie.
- ImageNet is widely used for training and benchmarking in the field of computer vision, particularly for image classification and object detection tasks.
- Le défi annuel de reconnaissance visuelle à grande échelle ImageNet (ILSVRC) a joué un rôle déterminant dans l'avancement de la recherche sur la vision par ordinateur.
Structure de l'ensemble de données
L'ensemble de données ImageNet est organisé selon la hiérarchie WordNet. Chaque nœud de la hiérarchie représente une catégorie, et chaque catégorie est décrite par un synset (une collection de termes synonymes). Les images d'ImageNet sont annotées avec un ou plusieurs synsets, ce qui constitue une ressource riche pour l'entraînement des modèles à la reconnaissance de divers objets et de leurs relations.
Défi ImageNet de reconnaissance visuelle à grande échelle (ILSVRC)
Le défi annuel de reconnaissance visuelle à grande échelle ImageNet (ILSVRC ) a été un événement important dans le domaine de la vision par ordinateur. Il a offert une plateforme aux chercheurs et aux développeurs pour évaluer leurs algorithmes et leurs modèles sur un ensemble de données à grande échelle avec des métriques d'évaluation normalisées. L'ILSVRC a permis des avancées significatives dans le développement de modèles d'apprentissage profond pour la classification d'images, la détection d'objets et d'autres tâches de vision par ordinateur.
Applications
L'ensemble de données ImageNet est largement utilisé pour former et évaluer des modèles d'apprentissage profond dans diverses tâches de vision par ordinateur, telles que la classification d'images, la détection d'objets et la localisation d'objets. Certaines architectures d'apprentissage profond populaires, telles que AlexNet, VGG et ResNet, ont été développées et évaluées à l'aide de l'ensemble de données ImageNet.
Utilisation
To train a deep learning model on the ImageNet dataset for 100 epochs with an image size of 224x224, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.
Exemple de train
Exemples d'images et d'annotations
L'ensemble de données ImageNet contient des images haute résolution couvrant des milliers de catégories d'objets, ce qui constitue un ensemble de données diversifié et étendu pour l'entraînement et l'évaluation des modèles de vision par ordinateur. Voici quelques exemples d'images tirées de l'ensemble de données :
L'exemple met en évidence la variété et la complexité des images de l'ensemble de données ImageNet, soulignant l'importance d'un ensemble de données diversifié pour former des modèles de vision par ordinateur robustes.
Citations et remerciements
Si tu utilises le jeu de données ImageNet dans tes travaux de recherche ou de développement, cite l'article suivant :
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
We would like to acknowledge the ImageNet team, led by Olga Russakovsky, Jia Deng, and Li Fei-Fei, for creating and maintaining the ImageNet dataset as a valuable resource for the machine learning and computer vision research community. For more information about the ImageNet dataset and its creators, visit the ImageNet website.
FAQ
Qu'est-ce que l'ensemble de données ImageNet et comment est-il utilisé dans le domaine de la vision artificielle ?
L'ensemble de données ImageNet est une base de données à grande échelle composée de plus de 14 millions d'images haute résolution catégorisées à l'aide des synsets WordNet. Il est largement utilisé dans la recherche sur la reconnaissance visuelle d'objets, notamment la classification d'images et la détection d'objets. Les annotations et le volume même de l'ensemble de données constituent une ressource riche pour la formation de modèles d'apprentissage profond. Notamment, des modèles comme AlexNet, VGG et ResNet ont été formés et évalués à l'aide d'ImageNet, mettant en évidence son rôle dans l'avancement de la vision par ordinateur.
Comment puis-je utiliser un modèle YOLO pré-entraîné pour la classification d'images sur l'ensemble de données ImageNet ?
Pour utiliser un modèle pré-entraîné Ultralytics YOLO pour la classification d'images sur l'ensemble de données ImageNet, suis les étapes suivantes :
Exemple de train
Pour des instructions de formation plus approfondies, reporte-toi à notre page Formation.
Why should I use the Ultralytics YOLO11 pretrained models for my ImageNet dataset projects?
Ultralytics YOLO11 pretrained models offer state-of-the-art performance in terms of speed and accuracy for various computer vision tasks. For example, the YOLO11n-cls model, with a top-1 accuracy of 69.0% and a top-5 accuracy of 88.3%, is optimized for real-time applications. Pretrained models reduce the computational resources required for training from scratch and accelerate development cycles. Learn more about the performance metrics of YOLO11 models in the ImageNet Pretrained Models section.
Comment l'ensemble de données ImageNet est-il structuré et pourquoi est-il important ?
L'ensemble de données ImageNet est organisé selon la hiérarchie WordNet, où chaque nœud de la hiérarchie représente une catégorie décrite par un synset (une collection de termes synonymes). Cette structure permet des annotations détaillées, ce qui la rend idéale pour former des modèles de reconnaissance d'une grande variété d'objets. La diversité et la richesse des annotations d'ImageNet en font un ensemble de données précieux pour développer des modèles d'apprentissage profond robustes et généralisables. Tu trouveras plus d'informations sur cette organisation dans la section Structure du jeu de données.
Quel rôle joue le défi de reconnaissance visuelle à grande échelle ImageNet (ILSVRC) dans la vision par ordinateur ?
The annual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) has been pivotal in driving advancements in computer vision by providing a competitive platform for evaluating algorithms on a large-scale, standardized dataset. It offers standardized evaluation metrics, fostering innovation and development in areas such as image classification, object detection, and image segmentation. The challenge has continuously pushed the boundaries of what is possible with deep learning and computer vision technologies.