ImageNet データセット

ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.

ImageNet 学習済みモデル

モデルサイズ
(ピクセル)
acc
top1
acc
top5
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B) at 224
YOLO26n-cls22471.490.15.0 ± 0.31.1 ± 0.02.80.5
YOLO26s-cls22476.092.97.9 ± 0.21.3 ± 0.06.71.6
YOLO26m-cls22478.194.217.2 ± 0.42.0 ± 0.011.64.9
YOLO26l-cls22479.094.623.2 ± 0.32.8 ± 0.014.16.2
YOLO26x-cls22479.995.041.4 ± 0.93.8 ± 0.029.613.6

主な特徴

  • ImageNet には、数千のカテゴリにわたる1,400万枚以上の高解像度画像が含まれています。
  • このデータセットはWordNetの階層構造に従って整理されており、各シンセットが1つのカテゴリを表しています。
  • ImageNet はコンピュータビジョンの分野におけるトレーニングやベンチマークに広く使用されており、特に 画像分類物体検出 のタスクで活用されています。
  • 毎年開催される ImageNet Large Scale Visual Recognition Challenge (ILSVRC) は、コンピュータビジョン研究の発展において重要な役割を果たしてきました。

データセットの構造

ImageNet データセットはWordNetの階層構造を使用して整理されています。階層内の各ノードはカテゴリを表し、各カテゴリはシンセット(同義語の集合)によって記述されます。ImageNet の画像には1つ以上のシンセットでアノテーションが施されており、さまざまな物体やその関係を認識するようにモデルをトレーニングするための豊富なリソースを提供しています。

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

毎年開催される ImageNet Large Scale Visual Recognition Challenge (ILSVRC) は、コンピュータビジョンの分野において重要なイベントです。これは、標準化された評価指標を用いて大規模なデータセット上でアルゴリズムやモデルを評価するためのプラットフォームを研究者や開発者に提供してきました。ILSVRC は、画像分類、物体検出、およびその他のコンピュータビジョンタスク向けのディープラーニングモデルの開発において、大きな進歩をもたらしました。

アプリケーション

ImageNet データセットは、画像分類、物体検出、物体位置特定など、さまざまなコンピュータビジョンタスクにおいて、ディープラーニングモデルのトレーニングと評価に広く使用されています。AlexNetVGGResNet といった一般的なディープラーニングアーキテクチャの多くは、ImageNet データセットを使用して開発およびベンチマークが行われました。

使用方法

ImageNet データセットで224x224の画像サイズを使用して100 エポック 分のディープラーニングモデルをトレーニングするには、以下のコードスニペットを使用できます。利用可能な引数の詳細なリストについては、モデルの トレーニング ページを参照してください。

トレーニングの例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

サンプル画像とアノテーション

ImageNet データセットには、数千の物体カテゴリにわたる高解像度画像が含まれており、コンピュータビジョンモデルのトレーニングと評価のための多様かつ広範なデータセットを提供しています。以下は、データセット内の画像の例です。

ImageNet 分類データセットのサンプル画像

この例は、ImageNet データセットに含まれる画像の多様性と複雑さを示しており、堅牢なコンピュータビジョンモデルをトレーニングするために多様なデータセットが重要であることを強調しています。

引用と謝辞

研究や開発作業で ImageNet データセットを使用する場合は、以下の論文を引用してください。

引用
@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

機械学習 およびコンピュータビジョンの研究コミュニティにとって価値のあるリソースとして ImageNet データセットを作成・維持してきた、Olga Russakovsky、Jia Deng、Li Fei-Fei が率いる ImageNet チームに感謝の意を表します。ImageNet データセットとその作成者に関する詳細については、ImageNet ウェブサイト をご覧ください。

FAQ

ImageNet データセットとは何か、そしてコンピュータビジョンでどのように使用されますか?

ImageNet データセット は、WordNetシンセットを使用して分類された1,400万枚以上の高解像度画像からなる大規模データベースです。画像分類や物体検出を含む、視覚的物体認識の研究で広く使用されています。このデータセットのアノテーションと圧倒的なボリュームは、ディープラーニングモデルをトレーニングするための豊富なリソースとなります。特に、AlexNet、VGG、ResNet などのモデルは ImageNet を使用してトレーニングおよびベンチマークされており、コンピュータビジョンの進歩における役割を証明しています。

ImageNet データセットで画像分類を行うために、事前学習済みの YOLO モデルを使用するにはどうすればよいですか?

ImageNet データセットで画像分類を行うために事前学習済みの Ultralytics YOLO モデルを使用するには、以下の手順に従ってください。

トレーニングの例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

トレーニングの詳細な手順については、トレーニングページ を参照してください。

ImageNet データセットプロジェクトに Ultralytics YOLO26 事前学習済みモデルを使用すべき理由は何ですか?

Ultralytics YOLO26 事前学習済みモデルは、さまざまなコンピュータビジョンタスクにおいて、速度と 精度 の両面で最先端のパフォーマンスを提供します。例えば、Top-1精度70.0%、Top-5精度89.4%を誇る YOLO26n-cls モデルは、リアルタイムアプリケーション向けに最適化されています。事前学習済みモデルは、ゼロからトレーニングするために必要な計算リソースを削減し、開発サイクルを加速させます。YOLO26 モデルのパフォーマンス指標に関する詳細は、ImageNet 学習済みモデルセクション を参照してください。

ImageNet データセットはどのように構成されており、なぜ重要なのでしょうか?

ImageNet データセットはWordNetの階層構造を使用して整理されており、階層内の各ノードはシンセット(同義語の集合)によって記述されるカテゴリを表します。この構造により詳細なアノテーションが可能となり、幅広い種類の物体を認識するようにモデルをトレーニングするのに最適です。ImageNet の多様性と豊富なアノテーションは、堅牢で汎用性の高いディープラーニングモデルを開発するための価値あるデータセットとなっています。この構造に関する詳細は、データセット構造 セクションをご覧ください。

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) はコンピュータビジョンにおいてどのような役割を果たしていますか?

毎年開催される ImageNet Large Scale Visual Recognition Challenge (ILSVRC) は、大規模で標準化されたデータセット上でアルゴリズムを評価するための競争的なプラットフォームを提供することで、コンピュータビジョンの進歩を促進する上で重要な役割を果たしてきました。標準化された評価指標を提供し、画像分類、物体検出、および 画像セグメンテーション などの分野におけるイノベーションと開発を推進しています。このコンペティションは、ディープラーニングとコンピュータビジョン技術を用いて可能なことの境界を常に押し広げてきました。

コメント