Skip to content

Ensemble de données ImageNet

ImageNet est une base de données à grande échelle d'images annotées conçue pour être utilisée dans la recherche sur la reconnaissance visuelle des objets. Elle contient plus de 14 millions d'images, chaque image étant annotée à l'aide de synsets WordNet, ce qui en fait l'une des ressources les plus complètes disponibles pour la formation de modèles d'apprentissage profond dans les tâches de vision par ordinateur.

Modèles préformés ImageNet

Modèle taille
(pixels)
acc
top1
acc
top5
Vitesse
CPU ONNX
(ms
)
Vitesse
A100 TensorRT
(ms
)
params
(M)
FLOPs
(B) Ă  640
YOLOv8n-cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-cls 224 79.0 94.6 232.0 1.01 57.4 154.8

Caractéristiques principales

  • ImageNet contient plus de 14 millions d'images haute rĂ©solution couvrant des milliers de catĂ©gories d'objets.
  • L'ensemble de donnĂ©es est organisĂ© selon la hiĂ©rarchie WordNet, chaque synset reprĂ©sentant une catĂ©gorie.
  • ImageNet est largement utilisĂ© pour la formation et l'analyse comparative dans le domaine de la vision par ordinateur, en particulier pour les tâches de classification d'images et de dĂ©tection d'objets.
  • Le dĂ©fi annuel de reconnaissance visuelle Ă  grande Ă©chelle ImageNet (ILSVRC) a jouĂ© un rĂ´le dĂ©terminant dans l'avancement de la recherche sur la vision par ordinateur.

Structure de l'ensemble de données

L'ensemble de données ImageNet est organisé selon la hiérarchie WordNet. Chaque nœud de la hiérarchie représente une catégorie, et chaque catégorie est décrite par un synset (une collection de termes synonymes). Les images d'ImageNet sont annotées avec un ou plusieurs synsets, ce qui constitue une ressource riche pour l'entraînement des modèles à la reconnaissance de divers objets et de leurs relations.

DĂ©fi ImageNet de reconnaissance visuelle Ă  grande Ă©chelle (ILSVRC)

Le défi annuel de reconnaissance visuelle à grande échelle ImageNet (ILSVRC ) a été un événement important dans le domaine de la vision par ordinateur. Il a offert une plateforme aux chercheurs et aux développeurs pour évaluer leurs algorithmes et leurs modèles sur un ensemble de données à grande échelle avec des métriques d'évaluation normalisées. L'ILSVRC a permis des avancées significatives dans le développement de modèles d'apprentissage profond pour la classification d'images, la détection d'objets et d'autres tâches de vision par ordinateur.

Applications

L'ensemble de données ImageNet est largement utilisé pour former et évaluer des modèles d'apprentissage profond dans diverses tâches de vision par ordinateur, telles que la classification d'images, la détection d'objets et la localisation d'objets. Certaines architectures d'apprentissage profond populaires, telles que AlexNet, VGG et ResNet, ont été développées et évaluées à l'aide de l'ensemble de données ImageNet.

Utilisation

Pour former un modèle d'apprentissage profond sur l'ensemble de données ImageNet pendant 100 époques avec une taille d'image de 224x224, tu peux utiliser les extraits de code suivants. Pour obtenir une liste complète des arguments disponibles, reporte-toi à la page Formation du modèle.

Exemple de train

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Exemples d'images et d'annotations

L'ensemble de données ImageNet contient des images haute résolution couvrant des milliers de catégories d'objets, ce qui constitue un ensemble de données diversifié et étendu pour l'entraînement et l'évaluation des modèles de vision par ordinateur. Voici quelques exemples d'images tirées de l'ensemble de données :

Exemple d'images de l'ensemble de données

L'exemple met en évidence la variété et la complexité des images de l'ensemble de données ImageNet, soulignant l'importance d'un ensemble de données diversifié pour former des modèles de vision par ordinateur robustes.

Citations et remerciements

Si tu utilises le jeu de données ImageNet dans tes travaux de recherche ou de développement, cite l'article suivant :

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Nous tenons à remercier l'équipe ImageNet, dirigée par Olga Russakovsky, Jia Deng et Li Fei-Fei, pour la création et la maintenance de l'ensemble de données ImageNet, qui constitue une ressource précieuse pour la communauté de recherche sur l'apprentissage automatique et la vision par ordinateur. Pour plus d'informations sur l'ensemble de données ImageNet et ses créateurs, visite le site Web d'ImageNet.

FAQ

Qu'est-ce que l'ensemble de données ImageNet et comment est-il utilisé dans le domaine de la vision artificielle ?

L'ensemble de données ImageNet est une base de données à grande échelle composée de plus de 14 millions d'images haute résolution catégorisées à l'aide des synsets WordNet. Il est largement utilisé dans la recherche sur la reconnaissance visuelle d'objets, notamment la classification d'images et la détection d'objets. Les annotations et le volume même de l'ensemble de données constituent une ressource riche pour la formation de modèles d'apprentissage profond. Notamment, des modèles comme AlexNet, VGG et ResNet ont été formés et évalués à l'aide d'ImageNet, mettant en évidence son rôle dans l'avancement de la vision par ordinateur.

Comment puis-je utiliser un modèle YOLO pré-entraîné pour la classification d'images sur l'ensemble de données ImageNet ?

Pour utiliser un modèle pré-entraîné Ultralytics YOLO pour la classification d'images sur l'ensemble de données ImageNet, suis les étapes suivantes :

Exemple de train

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Pour des instructions de formation plus approfondies, reporte-toi Ă  notre page Formation.

Pourquoi devrais-je utiliser les modèles pré-entraînés de Ultralytics YOLOv8 pour mes projets sur le jeu de données ImageNet ?

Ultralytics YOLOv8 Les modèles pré-entraînés offrent des performances de pointe en termes de vitesse et de précision pour diverses tâches de vision par ordinateur. Par exemple, le modèle YOLOv8n-cls, avec une précision de 69,0 % dans le top 1 et de 88,3 % dans le top 5, est optimisé pour les applications en temps réel. Les modèles pré-entraînés réduisent les ressources informatiques nécessaires à l'entraînement à partir de zéro et accélèrent les cycles de développement. Pour en savoir plus sur les mesures de performance des modèles YOLOv8 , consulte la section Modèles préformés ImageNet.

Comment l'ensemble de données ImageNet est-il structuré et pourquoi est-il important ?

L'ensemble de données ImageNet est organisé selon la hiérarchie WordNet, où chaque nœud de la hiérarchie représente une catégorie décrite par un synset (une collection de termes synonymes). Cette structure permet des annotations détaillées, ce qui la rend idéale pour former des modèles de reconnaissance d'une grande variété d'objets. La diversité et la richesse des annotations d'ImageNet en font un ensemble de données précieux pour développer des modèles d'apprentissage profond robustes et généralisables. Tu trouveras plus d'informations sur cette organisation dans la section Structure du jeu de données.

Quel rôle joue le défi de reconnaissance visuelle à grande échelle ImageNet (ILSVRC) dans la vision par ordinateur ?

Le défi annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC ) a joué un rôle central dans les progrès réalisés dans le domaine de la vision par ordinateur en fournissant une plateforme compétitive pour l'évaluation des algorithmes sur un ensemble de données normalisées à grande échelle. Il offre des mesures d'évaluation standardisées, encourageant l'innovation et le développement dans des domaines tels que la classification d'images, la détection d'objets et la segmentation d'images. Le défi a continuellement repoussé les limites de ce qui est possible avec les technologies d'apprentissage profond et de vision par ordinateur.



Créé le 2023-11-12, Mis à jour le 2024-07-04
Auteurs : glenn-jocher (8), RizwanMunawar (1)

Commentaires