Link to this sectionImageNetデータセット#
ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.
Link to this sectionImageNet事前学習済みモデル#
| モデル | サイズ (ピクセル) | 精度 top1 | 精度 top5 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) at 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Link to this section主な特徴#
- ImageNetには、数千の物体カテゴリにわたる1,400万枚以上の高解像度画像が含まれています。
- このデータセットはWordNet階層に従って構成されており、各シンセットが1つのカテゴリを表しています。
- ImageNetは、コンピュータビジョンの分野、特に画像分類や物体検出タスクのトレーニングやベンチマークに広く使用されています。
- 毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、コンピュータビジョン研究の進歩に貢献してきました。
Link to this sectionデータセット構造#
ImageNetデータセットはWordNet階層を使用して構成されています。階層内の各ノードはカテゴリを表し、各カテゴリはシンセット(同義語の集合)によって記述されます。ImageNetの画像には1つ以上のシンセットがアノテーションされており、さまざまな物体とその関係を認識するようにモデルをトレーニングするための豊富なリソースを提供しています。
Link to this sectionImageNet Large Scale Visual Recognition Challenge (ILSVRC)#
毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、コンピュータビジョン分野において重要なイベントです。これは、標準化された評価指標を用いて大規模データセット上でアルゴリズムやモデルを評価するためのプラットフォームを研究者や開発者に提供してきました。ILSVRCは、画像分類、物体検出、およびその他のコンピュータビジョンタスクに向けたディープラーニングモデルの開発において、多大な進歩をもたらしました。
Link to this sectionアプリケーション#
ImageNetデータセットは、画像分類、物体検出、物体位置特定など、さまざまなコンピュータビジョンタスクにおけるディープラーニングモデルのトレーニングや評価に広く使用されています。AlexNet、VGG、ResNetといった有名なディープラーニングアーキテクチャの一部は、ImageNetデータセットを使用して開発およびベンチマークが行われました。
Link to this section使用方法#
ImageNetデータセットで100エポック、画像サイズ224x224でディープラーニングモデルをトレーニングするには、以下のコードスニペットを使用できます。利用可能な引数の包括的なリストについては、モデルのトレーニングページを参照してください。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Link to this sectionサンプル画像とアノテーション#
ImageNetデータセットには、数千の物体カテゴリにわたる高解像度画像が含まれており、コンピュータビジョンモデルのトレーニングや評価のための多様かつ広範なデータセットを提供します。以下は、データセット内の画像の例です。

この例は、ImageNetデータセット内の画像の多様性と複雑さを示しており、堅牢なコンピュータビジョンモデルをトレーニングするために多様なデータセットが重要であることを強調しています。
Link to this section引用と謝辞#
研究や開発活動でImageNetデータセットを使用する場合は、以下の論文を引用してください。
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}私たちは、機械学習およびコンピュータビジョン研究コミュニティにとって貴重なリソースとしてImageNetデータセットを作成・維持している、Olga Russakovsky、Jia Deng、Li Fei-Feiらが率いるImageNetチームに感謝の意を表します。ImageNetデータセットとその作成者に関する詳細については、ImageNetウェブサイトをご覧ください。
Link to this sectionよくある質問(FAQ)#
Link to this sectionImageNetデータセットとは何ですか?また、どのようにコンピュータビジョンで使用されますか?#
ImageNetデータセットは、WordNetシンセットを使用して分類された1,400万枚以上の高解像度画像で構成される大規模データベースです。これは、画像分類や物体検出を含む視覚的物体認識研究において広範に使用されています。データセットのアノテーションとその膨大な量は、ディープラーニングモデルのトレーニングに豊富なリソースを提供します。特に、AlexNet、VGG、ResNetなどのモデルはImageNetを使用してトレーニングおよびベンチマークが行われており、コンピュータビジョンの進歩における役割が示されています。
Link to this sectionImageNetデータセットで画像分類を行うために、事前学習済みのYOLOモデルをどのように使用できますか?#
事前学習済みのUltralytics YOLOモデルをImageNetデータセットでの画像分類に使用するには、以下の手順に従ってください。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)詳細なトレーニング手順については、トレーニングページを参照してください。
Link to this sectionImageNetデータセットプロジェクトにUltralytics YOLO26事前学習済みモデルを使用すべき理由は何ですか?#
Ultralytics YOLO26事前学習済みモデルは、さまざまなコンピュータビジョンタスクにおいて、速度と精度の面で最先端のパフォーマンスを提供します。例えば、Top-1精度71.4%、Top-5精度90.1%を誇るYOLO26n-clsモデルは、リアルタイムアプリケーション向けに最適化されています。事前学習済みモデルは、ゼロからトレーニングするために必要な計算リソースを削減し、開発サイクルを加速させます。YOLO26モデルのパフォーマンス指標に関する詳細は、ImageNet事前学習済みモデルセクションで確認してください。
Link to this sectionImageNetデータセットはどのように構成されており、なぜ重要なのでしょうか?#
ImageNetデータセットはWordNet階層を使用して構成されており、階層内の各ノードはシンセット(同義語の集合)によって記述されるカテゴリを表しています。この構造により詳細なアノテーションが可能になり、幅広い物体を認識するようにモデルをトレーニングするのに最適です。ImageNetの多様性とアノテーションの豊富さは、堅牢で汎用性の高いディープラーニングモデルを開発するための貴重なデータセットとなっています。この構成に関する詳細は、データセット構造セクションで確認できます。
Link to this sectionImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、コンピュータビジョンにおいてどのような役割を果たしていますか?#
毎年開催されるImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、大規模かつ標準化されたデータセットでアルゴリズムを評価するための競争力のあるプラットフォームを提供することで、コンピュータビジョンの進歩を促進する上で極めて重要な役割を果たしてきました。標準化された評価指標を提供し、画像分類、物体検出、画像セグメンテーションなどの分野でのイノベーションと開発を促進しています。このチャレンジは、ディープラーニングおよびコンピュータビジョン技術で何が可能かという境界線を継続的に押し広げてきました。