コンテンツへスキップ

イメージネットデータセット

ImageNetは、視覚的物体認識の研究に使用するために設計された、注釈付き画像の大規模なデータベースです。1,400万以上の画像が含まれており、各画像はWordNet synsetsを使用して注釈が付けられているため、コンピュータビジョンタスクの ディープラーニングモデルの学習に利用できる最も広範なリソースの1つとなっている。

ImageNet学習済みモデル

モデル サイズ
(ピクセル)
acc
top1
acc
top5
速度
CPU ONNX
(ms)
スピード
T4TensorRT10
(ms)
params
(M)
FLOPs
(B) at 640
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 110.4

主な特徴

  • ImageNetには、何千ものオブジェクトカテゴリにまたがる1400万以上の高解像度画像が含まれています。
  • データセットはWordNetの階層に従って構成されており、各シンセットがカテゴリーを表す。
  • ImageNetは、コンピュータビジョンの分野、特に画像分類や 物体検出タスクのトレーニングやベンチマークに広く使用されています。
  • 毎年開催されるImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、コンピュータビジョン研究の発展に貢献してきました。

データセット構造

ImageNet データセットは WordNet の階層構造を用いて構成されている。階層の各ノードはカテゴリを表し、各カテゴリは synset(同義語の集合)によって記述される。ImageNetの画像は1つまたは複数のシセットで注釈されており、さまざまなオブジェクトとその関係を認識するモデルを学習するための豊富なリソースを提供する。

ImageNet大規模視覚認識チャレンジ(ILSVRC)

毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、コンピュータビジョンの分野で重要なイベントとなっている。ILSVRCは、標準化された評価指標を持つ大規模なデータセット上で、研究者や開発者がアルゴリズムやモデルを評価するためのプラットフォームを提供してきました。ILSVRCは、画像分類、物体検出、その他のコンピュータビジョンタスクのためのディープラーニングモデルの開発に大きな進歩をもたらしました。

アプリケーション

ImageNetデータセットは、画像分類、物体検出、物体定位などの様々なコンピュータビジョンタスクにおけるディープラーニングモデルの訓練と評価に広く使用されている。AlexNet、VGG、ResNetなどのいくつかの一般的なディープラーニングアーキテクチャが開発され、ImageNetデータセットを使用してベンチマークされた。

使用方法

ImageNetデータセットでディープラーニングモデルを画像サイズ224x224で100エポック学習するには、以下のコードスニペットを使用できます。利用可能な引数の包括的なリストについては、モデルのトレーニングページを参照してください。

列車の例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

サンプル画像と注釈

ImageNetデータセットには、何千ものオブジェクトカテゴリにまたがる高解像度の画像が含まれており、コンピュータビジョンモデルの学習と評価のための多様で広範なデータセットを提供します。以下にデータセットからの画像の例を示します:

データセットサンプル画像

この例は、ImageNetデータセットの画像の多様性と複雑性を示しており、ロバストなコンピュータビジョンモデルをトレーニングするための多様なデータセットの重要性を強調している。

引用と謝辞

研究開発でImageNetデータセットを使用する場合は、以下の論文を引用してください:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Olga Russakovsky、Jia Deng、Li Fei-Feiが率いるImageNetチームが、機械学習とコンピュータビジョンの研究コミュニティにとって貴重なリソースであるImageNetデータセットを作成し、維持してくれていることに感謝したい。ImageNetデータセットとその作成者の詳細については、ImageNetのウェブサイトをご覧ください。

よくあるご質問

ImageNetデータセットとは何ですか?

ImageNetデータセットは、1400万枚以上の高解像度画像をWordNet synsetsを用いて分類した大規模なデータベースである。画像分類や物体検出など、視覚物体認識の研究に広く利用されている。このデータセットのアノテーションと膨大な量は、ディープラーニングモデルの学習に豊富なリソースを提供する。特に、AlexNet、VGG、ResNetのようなモデルは、ImageNetを使用して訓練され、ベンチマークされており、コンピュータビジョンの進歩におけるImageNetの役割を示しています。

ImageNetデータセットの画像分類に、事前に学習されたYOLO モデルを使用するにはどうすればよいですか?

ImageNet データセットの画像分類に、事前に学習されたUltralytics YOLO モデルを使用するには、以下の手順に従います:

列車の例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

より詳細なトレーニング指導については、トレーニングのページをご参照ください。

なぜImageNetデータセットプロジェクトにUltralytics YOLO11 の事前学習済みモデルを使用する必要があるのですか?

Ultralytics YOLO11 事前学習されたモデルは、様々なコンピュータビジョンタスクに対して、速度と精度の面で最先端の性能を提供します。例えば、YOLO11n-clsモデルは、トップ1の精度が69.0%、トップ5の精度が88.3%で、リアルタイムアプリケーションに最適化されています。事前学習済みモデルは、ゼロからの学習に必要な計算リソースを削減し、開発サイクルを加速します。YOLO11 モデルのパフォーマンスメトリクスの詳細については、ImageNet Pretrained Modelsのセクションをご覧ください。

ImageNetデータセットはどのような構造になっているのですか?

ImageNetデータセットはWordNetの階層構造を用いて構成されており、階層内の各ノードはsynset(同義語の集まり)によって記述されたカテゴリを表している。この構造により詳細なアノテーションが可能になり、多種多様なオブジェクトを認識するモデルの学習に最適です。ImageNetの多様性と注釈の豊富さは、ロバストで一般化可能なディープラーニングモデルを開発するための貴重なデータセットとなっている。この構成の詳細については、「データセットの構造」のセクションを参照してください。

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)はコンピュータビジョンにおいてどのような役割を果たしているのでしょうか?

毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、大規模で標準化されたデータセット上でアルゴリズムを評価するための競争プラットフォームを提供することで、コンピュータビジョンの進歩を推進する上で極めて重要な役割を担ってきました。標準化された評価基準を提供することで、画像分類、物体検出、画像セグメンテーションなどの分野における技術革新と開発を促進しています。このチャレンジは、ディープラーニングとコンピュータビジョン技術で可能なことの限界を押し広げ続けてきました。

📅作成:1年前 ✏️更新しました 2ヶ月前

コメント