ImageNetデータセット
ImageNetは、視覚的な物体認識の研究で使用するために設計された、注釈付き画像のラージスケールデータベースです。1,400万を超える画像が含まれており、各画像はWordNet synsetを使用して注釈が付けられているため、コンピュータービジョンタスクで深層学習モデルをトレーニングするために利用できる最も広範なリソースの1つとなっています。
ImageNet 事前学習済みモデル
| モデル | サイズ (ピクセル) | acc top1 | acc top5 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) at 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
主な特徴
- ImageNet には、数千の物体カテゴリにわたる1400万枚以上の高解像度画像が含まれています。
- このデータセットはWordNetの階層構造に従って構成されており、各シンセットがカテゴリを表しています。
- ImageNet は、コンピュータービジョンの分野で、特に 画像分類 および 物体検出 タスクのトレーニングとベンチマークに広く利用されています。
- 毎年開催される ImageNet 大規模視覚認識チャレンジ (ILSVRC) は、コンピュータービジョン研究の進歩に大きく貢献してきました。
データセットの構造
ImageNet データセットは WordNet 階層を用いて整理されています。階層内の各ノードはカテゴリを表し、各カテゴリはシノニムセット(同義語の集合)によって記述されます。ImageNet の画像には1つ以上のシノニムセットがアノテーションされており、様々な物体とその関係性を認識するモデルをトレーニングするための豊富なリソースを提供します。
ImageNet 大規模視覚認識チャレンジ (ILSVRC)
毎年開催される ImageNet 大規模視覚認識チャレンジ (ILSVRC) は、コンピュータービジョンの分野で重要なイベントでした。これは、研究者や開発者が大規模なデータセット上で標準化された評価指標を用いて自身のアルゴリズムやモデルを評価するためのプラットフォームを提供してきました。ILSVRC は、画像分類、物体検出、その他のコンピュータービジョンタスクにおける深層学習モデルの開発に大きな進歩をもたらしました。
アプリケーション
ImageNet データセットは、画像分類、物体検出、物体位置特定などの様々なコンピュータービジョンタスクにおける深層学習モデルのトレーニングと評価に広く利用されています。AlexNet、VGG、ResNet などのいくつかの人気のある深層学習アーキテクチャは、ImageNet データセットを使用して開発およびベンチマークされました。
使用法
ImageNet データセット上で、224x224 の画像サイズで100 エポック の深層学習モデルをトレーニングするには、以下のコードスニペットを使用できます。利用可能な引数の包括的なリストについては、モデルの トレーニング ページを参照してください。
学習の例
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224
サンプル画像とアノテーション
ImageNet データセットには、数千の物体カテゴリにわたる高解像度画像が含まれており、コンピュータービジョンモデルのトレーニングと評価のための多様で広範なデータセットを提供します。以下に、データセットからの画像例をいくつか示します。

この例は、ImageNet データセット内の画像の多様性と複雑さを示しており、堅牢なコンピュータービジョンモデルをトレーニングするための多様なデータセットの重要性を強調しています。
引用と謝辞
研究または開発作業で ImageNet データセットを使用する場合は、以下の論文を引用してください:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Olga Russakovsky、Jia Deng、Li Fei-Fei が率いる ImageNet チームに、機械学習 およびコンピュータービジョン研究コミュニティにとって貴重なリソースとして ImageNet データセットを作成および維持していただいたことに感謝いたします。ImageNet データセットとその作成者に関する詳細については、ImageNet ウェブサイトをご覧ください。
よくある質問
ImageNet データセットとは何か、そしてコンピュータービジョンでどのように利用されているか?
ImageNet データセットは、WordNet シノニムセットを使用して分類された1400万枚以上の高解像度画像で構成される大規模なデータベースです。これは、画像分類や物体検出を含む視覚物体認識研究で広く利用されています。データセットのアノテーションと膨大な量は、深層学習モデルをトレーニングするための豊富なリソースを提供します。特に、AlexNet、VGG、ResNet などのモデルは ImageNet を使用してトレーニングおよびベンチマークされており、コンピュータービジョンの進歩におけるその役割を示しています。
ImageNet データセット上で画像分類のために事前学習済み YOLO モデルをどのように使用できますか?
ImageNet データセット上で画像分類のために事前学習済みの Ultralytics YOLO モデルを使用するには、以下の手順に従ってください:
学習の例
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224
より詳細なトレーニング方法については、トレーニングページをご覧ください。
私の ImageNet データセットプロジェクトに Ultralytics YOLO26 事前学習済みモデルを使用すべき理由は何ですか?
Ultralytics YOLO26 事前学習済みモデルは、様々なコンピュータービジョンタスクにおいて、速度と 精度 に関して最先端のパフォーマンスを提供します。例えば、YOLO26n-cls モデルは、トップ1精度70.0%、トップ5精度89.4%を達成し、リアルタイムアプリケーション向けに最適化されています。事前学習済みモデルは、ゼロからのトレーニングに必要な計算リソースを削減し、開発サイクルを加速します。YOLO26 モデルのパフォーマンス指標については、ImageNet 事前学習済みモデルセクションで詳しく学ぶことができます。
ImageNet データセットはどのように構造化されており、なぜ重要なのでしょうか?
ImageNet データセットは WordNet 階層を用いて整理されており、階層内の各ノードはシノニムセット(同義語の集合)によって記述されるカテゴリを表します。この構造により詳細なアノテーションが可能となり、多種多様な物体を認識するモデルのトレーニングに最適です。ImageNet の多様性とアノテーションの豊富さは、堅牢で汎用性の高い深層学習モデルを開発するための貴重なデータセットとなっています。この構成の詳細については、データセット構造セクションで確認できます。
ImageNet 大規模視覚認識チャレンジ (ILSVRC) はコンピュータービジョンにおいてどのような役割を果たしますか?
毎年開催される ImageNet 大規模視覚認識チャレンジ (ILSVRC) は、大規模で標準化されたデータセット上でアルゴリズムを評価するための競争プラットフォームを提供することで、コンピュータービジョンの進歩を推進する上で極めて重要な役割を果たしてきました。これは標準化された評価指標を提供し、画像分類、物体検出、画像セグメンテーションなどの分野における革新と開発を促進しています。このチャレンジは、深層学習およびコンピュータービジョン技術で可能なことの限界を常に押し広げてきました。