コンテンツへスキップ

イメージネットデータセット

ImageNetは、視覚的物体認識の研究に使用するために設計された、注釈付き画像の大規模なデータベースです。1,400万以上の画像が含まれており、各画像はWordNet synsetsを使用して注釈が付けられているため、コンピュータビジョンタスクのディープラーニングモデルの学習に利用できる最も広範なリソースの1つとなっている。

ImageNet学習済みモデル

モデル サイズ
(ピクセル)
acc
top1
acc
top5
速度
CPUONNX
(ms
)
速度
A100 TensorRT
(ms
)
params
(M)
FLOPs
(B) at 640
YOLOv8n-cls(クルス 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-cls(クルス 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-cls(クルス 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-cls(クルス 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-cls(クルス 224 79.0 94.6 232.0 1.01 57.4 154.8

主な特徴

  • ImageNetには、何千ものオブジェクトカテゴリにまたがる1400万以上の高解像度画像が含まれています。
  • データセットはWordNetの階層に従って構成されており、各シンセットがカテゴリーを表す。
  • ImageNetは、コンピュータビジョンの分野、特に画像分類や物体検出タスクのトレーニングやベンチマークに広く利用されている。
  • 毎年開催されるImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、コンピュータビジョン研究の発展に貢献してきました。

データセット構造

ImageNet データセットは WordNet の階層構造を用いて構成されている。階層の各ノードはカテゴリを表し、各カテゴリは synset(同義語の集合)によって記述される。ImageNetの画像は1つまたは複数のシセットで注釈されており、さまざまなオブジェクトとその関係を認識するモデルを学習するための豊富なリソースを提供する。

ImageNet大規模視覚認識チャレンジ(ILSVRC)

毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、コンピュータビジョンの分野で重要なイベントとなっている。ILSVRCは、標準化された評価指標を持つ大規模なデータセット上で、研究者や開発者がアルゴリズムやモデルを評価するためのプラットフォームを提供してきました。ILSVRCは、画像分類、物体検出、その他のコンピュータビジョンタスクのためのディープラーニングモデルの開発に大きな進歩をもたらしました。

アプリケーション

ImageNetデータセットは、画像分類、物体検出、物体定位などの様々なコンピュータビジョンタスクにおけるディープラーニングモデルの訓練と評価に広く使用されている。AlexNet、VGG、ResNetなどのいくつかの一般的なディープラーニングアーキテクチャが開発され、ImageNetデータセットを使用してベンチマークされた。

使用方法

ImageNetデータセットでディープラーニングモデルを画像サイズ224x224で100エポック学習するには、以下のコードスニペットを使用できます。利用可能な引数の包括的なリストについては、モデルのトレーニングページを参照してください。

列車の例

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

サンプル画像と注釈

ImageNetデータセットには、何千ものオブジェクトカテゴリにまたがる高解像度の画像が含まれており、コンピュータビジョンモデルの学習と評価のための多様で広範なデータセットを提供します。以下にデータセットからの画像の例を示します:

データセットサンプル画像

この例は、ImageNetデータセットの画像の多様性と複雑性を示しており、ロバストなコンピュータビジョンモデルをトレーニングするための多様なデータセットの重要性を強調している。

引用と謝辞

研究開発においてImageNetデータセットを使用する場合は、以下の論文を引用してください:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Olga Russakovsky、Jia Deng、Li Fei-Feiが率いるImageNetチームが、機械学習とコンピュータビジョンの研究コミュニティにとって貴重なリソースであるImageNetデータセットを作成し、維持してくれていることに感謝したい。ImageNetデータセットとその作成者の詳細については、ImageNetのウェブサイトをご覧ください。



Created 2023-11-12, Updated 2024-06-02
Authors: glenn-jocher (7), RizwanMunawar (1)

コメント