ImageNetデータセット
ImageNetは、視覚的なオブジェクト認識の研究で使用するために設計された、アノテーション付き画像のラージスケールデータベースです。1400万を超える画像が含まれており、各画像はWordNetシノセットを使用してアノテーションが付けられています。これにより、深層学習モデルをコンピュータビジョンタスクでトレーニングするために利用できる最も広範なリソースの1つとなっています。
ImageNet事前学習済みモデル
モデル | サイズ (ピクセル) |
acc top1 |
acc top5 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) at 224 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 1.6 | 0.5 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 5.5 | 1.6 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 10.4 | 5.0 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 12.9 | 6.2 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 28.4 | 13.7 |
主な特徴
- ImageNetには、数千のオブジェクトカテゴリにわたる1400万枚以上の高解像度画像が含まれています。
- このデータセットはWordNetの階層構造に従って構成されており、各シンセットがカテゴリを表しています。
- ImageNetは、コンピュータビジョンの分野、特に画像分類や物体検出タスクにおいて、トレーニングとベンチマークに広く使用されています。
- 年次ImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、コンピュータビジョンの研究を進歩させる上で重要な役割を果たしてきました。
データセットの構造
ImageNetデータセットは、WordNet階層を使用して編成されています。階層内の各ノードはカテゴリを表し、各カテゴリはシノニムセット(同義語のコレクション)で記述されています。ImageNetの画像には、1つ以上のシノニムセットでアノテーションが付けられており、さまざまなオブジェクトとその関係を認識するためのモデルをトレーニングするための豊富なリソースを提供します。
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
年次ImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、コンピュータビジョンの分野で重要なイベントとなっています。研究者や開発者が、標準化された評価指標を備えた大規模なデータセットでアルゴリズムとモデルを評価するためのプラットフォームを提供してきました。ILSVRCは、画像分類、オブジェクト検出、およびその他のコンピュータビジョンタスクのための深層学習モデルの開発における重要な進歩につながりました。
アプリケーション
ImageNetデータセットは、画像分類、オブジェクト検出、オブジェクトローカリゼーションなど、さまざまなコンピュータビジョンタスクにおける深層学習モデルのトレーニングと評価に広く使用されています。AlexNet、VGG、ResNetなど、いくつかの一般的な深層学習アーキテクチャは、ImageNetデータセットを使用して開発およびベンチマークされました。
使用法
画像サイズ224x224でImageNetデータセットで深層学習モデルを100エポックトレーニングするには、次のコードスニペットを使用できます。利用可能な引数の包括的なリストについては、モデルのトレーニングページを参照してください。
学習の例
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
サンプル画像とアノテーション
ImageNetデータセットには、数千のオブジェクトカテゴリに及ぶ高解像度画像が含まれており、コンピュータビジョンモデルのトレーニングと評価のための多様で広範なデータセットを提供します。以下に、データセットからの画像の例をいくつか示します。
この例は、ImageNetデータセット内の画像の多様性と複雑さを示しており、堅牢なコンピュータビジョンモデルをトレーニングするための多様なデータセットの重要性を強調しています。
引用と謝辞
ImageNetデータセットを研究または開発にご利用の際は、以下の論文を引用してください。
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
機械学習とコンピュータビジョン研究コミュニティにとって貴重なリソースであるImageNetデータセットを作成および管理している、Olga Russakovsky、Jia Deng、Li Fei-Feiが率いるImageNetチームに感謝いたします。ImageNetデータセットとその作成者の詳細については、ImageNetのWebサイトをご覧ください。
よくある質問
ImageNetデータセットとは何ですか?また、コンピュータビジョンでどのように使用されますか?
ImageNetデータセットは、WordNetシノセットを使用して分類された1400万を超える高解像度画像で構成される大規模なデータベースです。画像分類やオブジェクト検出など、視覚オブジェクト認識の研究で広く使用されています。データセットのアノテーションと膨大な量は、深層学習モデルをトレーニングするための豊富なリソースを提供します。特に、AlexNet、VGG、ResNetなどのモデルは、ImageNetを使用してトレーニングおよびベンチマークされており、コンピュータビジョンの進歩におけるその役割を示しています。
ImageNet データセットで、事前学習済みの YOLO モデルを画像分類に利用するにはどうすればよいですか?
ImageNetデータセットで画像分類を行うために、事前学習済みのUltralytics YOLOモデルを使用するには、以下の手順に従ってください。
学習の例
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
より詳細なトレーニング方法については、トレーニングページをご覧ください。
ImageNetデータセットプロジェクトでUltralytics YOLO11の事前学習済みモデルを使用する理由は何ですか?
Ultralytics YOLO11の事前学習済みモデルは、さまざまなコンピュータビジョンタスクにおいて、速度と精度の点で最先端のパフォーマンスを提供します。たとえば、YOLO11n-clsモデルは、トップ1精度が70.0%、トップ5精度が89.4%で、リアルタイムアプリケーションに最適化されています。事前学習済みモデルは、スクラッチからのトレーニングに必要な計算リソースを削減し、開発サイクルを加速します。YOLO11モデルのパフォーマンス指標の詳細については、ImageNetの事前学習済みモデルセクションをご覧ください。
ImageNetデータセットはどのように構成されており、なぜ重要ですか?
ImageNetデータセットは、WordNet階層を使用して編成されており、階層内の各ノードは、シノニムセット(同義語のコレクション)で記述されたカテゴリを表します。この構造により、詳細なアノテーションが可能になり、さまざまなオブジェクトを認識するためのモデルのトレーニングに最適です。ImageNetの多様性とアノテーションの豊富さは、堅牢で汎化可能な深層学習モデルを開発するための貴重なデータセットとなっています。この組織の詳細については、データセット構造セクションをご覧ください。
ImageNet Large Scale Visual Recognition Challenge (ILSVRC) は、コンピュータビジョンにおいてどのような役割を果たしていますか?
年次ImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、大規模で標準化されたデータセットでアルゴリズムを評価するための競争力のあるプラットフォームを提供することにより、コンピュータビジョンの進歩を推進する上で極めて重要な役割を果たしてきました。標準化された評価指標を提供し、画像分類、オブジェクト検出、および画像セグメンテーションなどの分野でのイノベーションと開発を促進します。このチャレンジは、深層学習とコンピュータビジョンテクノロジーで可能なことの限界を常に押し広げてきました。