ImageNet データセット
ImageNetは、視覚的物体認識研究での使用を目的として設計された大規模なアノテーション付き画像データベースです。1400万枚以上の画像が含まれており、各画像はWordNetシンセットを使用してアノテーションされています。これにより、コンピュータビジョンタスクにおける深層学習モデルのトレーニングに利用できる最も充実したリソースの一つとなっています。
ImageNet 事前学習済みモデル
| モデル | サイズ (ピクセル) | 精度 top1 | 精度 top5 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ数 (M) | FLOPs (B) at 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
主な特徴
- ImageNetには数千の物体カテゴリにわたる1400万枚以上の高解像度画像が含まれています。
- データセットはWordNetの階層構造に従って整理されており、各シンセットがカテゴリを表しています。
- ImageNetはコンピュータビジョン分野のトレーニングとベンチマーク、特に画像分類と物体検知タスクに広く使用されています。
- 毎年開催されるImageNet Large Scale Visual Recognition Challenge(ILSVRC)はコンピュータビジョン研究の発展において重要な役割を果たしてきました。
データセット構造
ImageNetデータセットはWordNetの階層構造を使用して整理されています。階層の各ノードはカテゴリを表し、各カテゴリはシンセット(同義語の集合)で記述されています。ImageNet内の画像は1つ以上のシンセットでアノテーションされており、様々な物体とその関係を認識するモデルをトレーニングするための豊富なリソースを提供しています。
ImageNet Large Scale Visual Recognition Challenge(ILSVRC)
毎年開催されるImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、コンピュータビジョン分野における重要なイベントです。研究者や開発者が標準化された評価指標を持つ大規模データセットでアルゴリズムやモデルを評価するプラットフォームを提供してきました。ILSVRCは画像分類、物体検知、その他のコンピュータビジョンタスクにおける深層学習モデルの発展に大きく貢献してきました。
応用例
ImageNetデータセットは、画像分類、物体検知、物体位置特定など、様々なコンピュータビジョンタスクにおける深層学習モデルのトレーニングと評価に広く使用されています。AlexNet、VGG、ResNetなどの人気のある深層学習アーキテクチャは、ImageNetデータセットを使用して開発・ベンチマークされました。
使用方法
ImageNetデータセットで画像サイズ224x224、100エポックの深層学習モデルをトレーニングするには、以下のコードスニペットを使用できます。利用可能な引数の包括的なリストについては、モデルのトレーニングページを参照してください。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)サンプル画像とアノテーション
ImageNetデータセットには数千の物体カテゴリにわたる高解像度画像が含まれており、コンピュータビジョンモデルのトレーニングと評価のための多様で充実したデータセットを提供しています。以下にデータセットからの画像例を示します。

この例はImageNetデータセット内の画像の多様性と複雑さを示しており、堅牢なコンピュータビジョンモデルのトレーニングには多様なデータセットが重要であることを強調しています。
引用と謝辞
研究や開発作業でImageNetデータセットを使用する場合は、以下の論文を引用してください。
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Olga Russakovsky、Jia Deng、Li Fei-Feiが率いるImageNetチームが、機械学習とコンピュータビジョン研究コミュニティにとって価値あるリソースとしてImageNetデータセットを作成・維持してきたことに感謝します。ImageNetデータセットとその作成者の詳細については、ImageNetウェブサイトをご覧ください。
よくある質問
ImageNetデータセットとは何ですか?コンピュータビジョンにおいてどのように使用されますか?
ImageNetデータセットはWordNetシンセットを使用して分類された1400万枚以上の高解像度画像からなる大規模データベースです。画像分類や物体検知を含む視覚的物体認識研究に広く使用されています。データセットのアノテーションと膨大な量は、深層学習モデルのトレーニングに豊富なリソースを提供しています。特にAlexNet、VGG、ResNetなどのモデルはImageNetを使用してトレーニング・ベンチマークされており、コンピュータビジョンの発展における役割を示しています。
ImageNetデータセットで画像分類に事前学習済みYOLOモデルを使用するにはどうすればよいですか?
ImageNetデータセットで画像分類に事前学習済みUltralytics YOLOモデルを使用するには、以下の手順に従ってください。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)より詳細なトレーニング手順については、トレーニングページを参照してください。
ImageNetデータセットプロジェクトにUltralytics YOLO26の事前学習済みモデルを使用すべき理由は?
Ultralytics YOLO26の事前学習済みモデルは、様々なコンピュータビジョンタスクにおいて速度と精度の両面で最先端のパフォーマンスを提供します。例えばYOLO26n-clsモデルは、top-1精度70.0%、top-5精度89.4%でリアルタイムアプリケーション向けに最適化されています。事前学習済みモデルはスクラッチからのトレーニングに必要な計算リソースを削減し、開発サイクルを加速させます。YOLO26モデルのパフォーマンス指標の詳細についてはImageNet事前学習済みモデルセクションをご覧ください。
ImageNetデータセットの構造はどのようになっており、なぜ重要なのですか?
ImageNetデータセットはWordNetの階層構造を使用して整理されており、階層内の各ノードはシンセット(同義語の集合)で記述されたカテゴリを表しています。この構造により詳細なアノテーションが可能となり、多様な物体を認識するモデルのトレーニングに最適です。ImageNetの多様性とアノテーションの豊富さは、堅牢で汎化可能な深層学習モデルを開発するための価値あるデータセットとしています。この構造の詳細についてはデータセット構造セクションをご覧ください。
ImageNet Large Scale Visual Recognition Challenge(ILSVRC)はコンピュータビジョンにおいてどのような役割を果たしていますか?
毎年開催されるImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、大規模な標準化データセットでアルゴリズムを評価する競争的なプラットフォームを提供することで、コンピュータビジョンの発展を推進する上で重要な役割を果たしてきました。標準化された評価指標を提供し、画像分類、物体検知、画像セグメンテーションなどの分野でのイノベーションと発展を促してきました。このチャレンジは深層学習とコンピュータビジョン技術で可能なことの限界を継続的に押し広げてきました。