コンテンツにスキップ

ImageNet

ImageNetは、視覚的な物体認識の研究で使用するために設計された、注釈付き画像のラージスケールデータベースです。1,400万を超える画像が含まれており、各画像はWordNet synsetを使用して注釈が付けられているため、コンピュータービジョンタスクで深層学習モデルをトレーニングするために利用できる最も広範なリソースの1つとなっています。

ImageNet 学習済みモデル

モデルサイズ
(ピクセル)
acc
top1
acc
top5
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B) at 224
YOLO11n-cls22470.089.45.0 ± 0.31.1 ± 0.02.80.5
YOLO11s-cls22475.492.77.9 ± 0.21.3 ± 0.06.71.6
YOLO11m-cls22477.393.917.2 ± 0.42.0 ± 0.011.64.9
YOLO11l-cls22478.394.323.2 ± 0.32.8 ± 0.014.16.2
YOLO11x-cls22479.594.941.4 ± 0.93.8 ± 0.029.613.6

主な特徴

  • ImageNet 、何千ものオブジェクトカテゴリにまたがる1400万以上の高解像度画像が含まれています。
  • このデータセットはWordNetの階層構造に従って構成されており、各シンセットがカテゴリを表しています。
  • ImageNet 、コンピュータビジョンの分野、特に画像分類や 物体検出タスクのトレーニングやベンチマークに広く使用されています。
  • 毎年開催されるImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、コンピュータビジョン研究の発展に貢献してきました。

データセットの構造

ImageNet データセットは WordNet の階層構造を用いて構成されている。階層の各ノードはカテゴリを表し、各カテゴリは synset(同義語の集合)によって記述される。ImageNet 画像は1つまたは複数のシセットで注釈されており、さまざまなオブジェクトとその関係を認識するモデルを学習するための豊富なリソースを提供する。

ImageNet 大規模視覚認識チャレンジ(ILSVRC)

毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、コンピュータビジョンの分野で重要なイベントとなっている。ILSVRCは、標準化された評価指標を持つ大規模なデータセット上で、研究者や開発者がアルゴリズムやモデルを評価するためのプラットフォームを提供してきました。ILSVRCは、画像分類、物体検出、その他のコンピュータビジョンタスクのためのディープラーニングモデルの開発に大きな進歩をもたらしました。

アプリケーション

ImageNet データセットは、画像分類、物体検出、物体定位などの様々なコンピュータビジョンタスクにおけるディープラーニングモデルの訓練と評価に広く使用されている。AlexNetVGGResNetなどのいくつかの一般的なディープラーニングアーキテクチャが開発され、ImageNet データセットを使用してベンチマークされた。

使用法

ImageNet データセットでディープラーニングモデルを画像サイズ224x224で100エポック学習するには、以下のコードスニペットを使用できます。利用可能な引数の包括的なリストについては、モデルのトレーニングページを参照してください。

学習の例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

サンプル画像とアノテーション

ImageNet データセットには、何千ものオブジェクトカテゴリにまたがる高解像度の画像が含まれており、コンピュータビジョンモデルの学習と評価のための多様で広範なデータセットを提供します。以下にデータセットからの画像の例を示します:

データセットのサンプル画像

この例は、ImageNet データセットの画像の多様性と複雑性を示しており、ロバストなコンピュータビジョンモデルをトレーニングするための多様なデータセットの重要性を強調している。

引用と謝辞

研究開発でImageNet データセットを使用する場合は、以下の論文を引用してください:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Olga Russakovsky、Jia Deng、Li Fei-Feiが率いるImageNet チームが、機械学習とコンピュータビジョンの研究コミュニティにとって貴重なリソースであるImageNet データセットを作成し、維持してくれていることに感謝したい。ImageNet データセットとその作成者の詳細については、ImageNet ウェブサイトをご覧ください。

よくある質問

ImageNet データセットとは何ですか?

ImageNet データセットは、1400万枚以上の高解像度画像をWordNet synsetsを用いて分類した大規模なデータベースである。画像分類や物体検出など、視覚物体認識の研究に広く利用されている。このデータセットのアノテーションと膨大な量は、ディープラーニングモデルの学習に豊富なリソースを提供する。特に、AlexNet、VGG、ResNetのようなモデルは、ImageNet使用して訓練され、ベンチマークされており、コンピュータビジョンの進歩におけるその役割を示しています。

ImageNet データセットの画像分類に、事前に学習させたYOLO モデルを使用するにはどうすればよいですか?

ImageNet データセットの画像分類に事前学習済みのUltralytics YOLO モデルを使用するには、以下の手順に従います:

学習の例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

より詳細なトレーニング方法については、トレーニングページをご覧ください。

なぜUltralytics YOLO11 事前学習済みモデルをImageNet データセットプロジェクトに使用する必要があるのですか?

Ultralytics YOLO11 事前学習済みモデルは、様々なコンピュータビジョンタスクに対して、速度と精度の面で最先端の性能を提供します。例えば、トップ1の精度が70.0%、トップ5の精度が89.4%のYOLO11n-clsモデルは、リアルタイムアプリケーションに最適化されています。事前学習済みモデルは、ゼロからの学習に必要な計算リソースを削減し、開発サイクルを加速します。YOLO11 モデルの性能指標については、ImageNet 事前学習済みモデルのセクションをご覧ください。

ImageNet データセットはどのような構造になっているのですか?

ImageNet データセットはWordNetの階層構造を用いて構成されており、階層内の各ノードはsynset(同義語の集まり)によって記述されたカテゴリを表している。この構造により詳細なアノテーションが可能になり、多種多様なオブジェクトを認識するモデルの学習に最適です。ImageNet 多様性と注釈の豊富さは、ロバストで一般化可能なディープラーニングモデルを開発するための貴重なデータセットとなっている。この構成の詳細については、「データセットの構造」のセクションを参照してください。

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)はコンピュータビジョンにおいてどのような役割を果たしているのでしょうか?

毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、大規模で標準化されたデータセット上でアルゴリズムを評価するための競争プラットフォームを提供することで、コンピュータビジョンの進歩を推進する上で極めて重要な役割を担ってきました。標準化された評価基準を提供することで、画像分類、物体検出、画像セグメンテーションなどの分野における技術革新と開発を促進しています。このチャレンジは、ディープラーニングとコンピュータビジョン技術で可能なことの限界を押し広げ続けてきました。



📅 2年前に作成✏️ 8か月前に更新
glenn-jocherambitious-octopusUltralyticsAssistantMatthewNoyceRizwanMunawarjk4e

コメント