コンテンツへスキップ

イメージネットデータセット

ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.

ImageNet学習済みモデル

モデルサイズ
(ピクセル)
acc
top1
acc
top5
速度
CPU ONNX
(ms
)
Speed
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B) at 640
YOLO11n-cls22470.089.45.0 ± 0.31.1 ± 0.01.63.3
YOLO11s-cls22475.492.77.9 ± 0.21.3 ± 0.05.512.1
YOLO11m-cls22477.393.917.2 ± 0.42.0 ± 0.010.439.3
YOLO11l-cls22478.394.323.2 ± 0.32.8 ± 0.012.949.4
YOLO11x-cls22479.594.941.4 ± 0.93.8 ± 0.028.4110.4

主な特徴

  • ImageNetには、何千ものオブジェクトカテゴリにまたがる1400万以上の高解像度画像が含まれています。
  • データセットはWordNetの階層に従って構成されており、各シンセットがカテゴリーを表す。
  • ImageNet is widely used for training and benchmarking in the field of computer vision, particularly for image classification and object detection tasks.
  • 毎年開催されるImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、コンピュータビジョン研究の発展に貢献してきました。

データセット構造

ImageNet データセットは WordNet の階層構造を用いて構成されている。階層の各ノードはカテゴリを表し、各カテゴリは synset(同義語の集合)によって記述される。ImageNetの画像は1つまたは複数のシセットで注釈されており、さまざまなオブジェクトとその関係を認識するモデルを学習するための豊富なリソースを提供する。

ImageNet大規模視覚認識チャレンジ(ILSVRC)

毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、コンピュータビジョンの分野で重要なイベントとなっている。ILSVRCは、標準化された評価指標を持つ大規模なデータセット上で、研究者や開発者がアルゴリズムやモデルを評価するためのプラットフォームを提供してきました。ILSVRCは、画像分類、物体検出、その他のコンピュータビジョンタスクのためのディープラーニングモデルの開発に大きな進歩をもたらしました。

アプリケーション

ImageNetデータセットは、画像分類、物体検出、物体定位などの様々なコンピュータビジョンタスクにおけるディープラーニングモデルの訓練と評価に広く使用されている。AlexNet、VGG、ResNetなどのいくつかの一般的なディープラーニングアーキテクチャが開発され、ImageNetデータセットを使用してベンチマークされた。

使用方法

To train a deep learning model on the ImageNet dataset for 100 epochs with an image size of 224x224, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

列車の例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

サンプル画像と注釈

ImageNetデータセットには、何千ものオブジェクトカテゴリにまたがる高解像度の画像が含まれており、コンピュータビジョンモデルの学習と評価のための多様で広範なデータセットを提供します。以下にデータセットからの画像の例を示します:

データセットサンプル画像

この例は、ImageNetデータセットの画像の多様性と複雑性を示しており、ロバストなコンピュータビジョンモデルをトレーニングするための多様なデータセットの重要性を強調している。

引用と謝辞

研究開発においてImageNetデータセットを使用する場合は、以下の論文を引用してください:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

We would like to acknowledge the ImageNet team, led by Olga Russakovsky, Jia Deng, and Li Fei-Fei, for creating and maintaining the ImageNet dataset as a valuable resource for the machine learning and computer vision research community. For more information about the ImageNet dataset and its creators, visit the ImageNet website.

よくあるご質問

ImageNetデータセットとは何ですか?

ImageNetデータセットは、1400万枚以上の高解像度画像をWordNet synsetsを用いて分類した大規模なデータベースである。画像分類や物体検出など、視覚物体認識の研究に広く利用されている。このデータセットのアノテーションと膨大な量は、ディープラーニングモデルの学習に豊富なリソースを提供する。特に、AlexNet、VGG、ResNetのようなモデルは、ImageNetを使用して訓練され、ベンチマークされており、コンピュータビジョンの進歩におけるImageNetの役割を示しています。

ImageNetデータセットの画像分類に、事前に学習されたYOLO モデルを使用するにはどうすればよいですか?

ImageNetデータセットでの画像分類に、事前に訓練されたUltralytics YOLO モデルを使用するには、以下の手順に従います:

列車の例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

より詳細なトレーニング指導については、トレーニングのページをご参照ください。

Why should I use the Ultralytics YOLO11 pretrained models for my ImageNet dataset projects?

Ultralytics YOLO11 pretrained models offer state-of-the-art performance in terms of speed and accuracy for various computer vision tasks. For example, the YOLO11n-cls model, with a top-1 accuracy of 69.0% and a top-5 accuracy of 88.3%, is optimized for real-time applications. Pretrained models reduce the computational resources required for training from scratch and accelerate development cycles. Learn more about the performance metrics of YOLO11 models in the ImageNet Pretrained Models section.

ImageNetデータセットはどのような構造になっているのですか?

ImageNetデータセットはWordNetの階層構造を用いて構成されており、階層内の各ノードはsynset(同義語の集まり)によって記述されたカテゴリを表している。この構造により詳細なアノテーションが可能になり、多種多様なオブジェクトを認識するモデルの学習に最適です。ImageNetの多様性と注釈の豊富さは、ロバストで一般化可能なディープラーニングモデルを開発するための貴重なデータセットとなっている。この構成の詳細については、「データセットの構造」のセクションを参照してください。

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)はコンピュータビジョンにおいてどのような役割を果たしているのでしょうか?

The annual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) has been pivotal in driving advancements in computer vision by providing a competitive platform for evaluating algorithms on a large-scale, standardized dataset. It offers standardized evaluation metrics, fostering innovation and development in areas such as image classification, object detection, and image segmentation. The challenge has continuously pushed the boundaries of what is possible with deep learning and computer vision technologies.

📅 Created 1 year ago ✏️ Updated 1 month ago

コメント