ImageNet 데이터셋
ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.
ImageNet 사전 학습 모델
| 모델 | 크기 (픽셀) | 정확도 top1 | 정확도 top5 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) at 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
주요 특징
- ImageNet은 수천 개의 객체 카테고리에 걸친 1,400만 개 이상의 고해상도 이미지를 포함하고 있습니다.
- 데이터셋은 WordNet 계층 구조에 따라 구성되며, 각 synset은 하나의 카테고리를 나타냅니다.
- ImageNet은 컴퓨터 비전 분야, 특히 이미지 분류 및 객체 탐지 작업의 학습 및 벤치마킹에 널리 사용됩니다.
- 연례 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)는 컴퓨터 비전 연구 발전에 중요한 역할을 해왔습니다.
데이터셋 구조
ImageNet 데이터셋은 WordNet 계층 구조를 사용하여 구성됩니다. 계층 구조의 각 노드는 카테고리를 나타내며, 각 카테고리는 synset(동의어 집합)으로 설명됩니다. ImageNet의 이미지는 하나 이상의 synset으로 주석이 달려 있어, 다양한 객체와 그 관계를 인식하도록 모델을 학습시키는 풍부한 리소스를 제공합니다.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
연례 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)는 컴퓨터 비전 분야에서 중요한 행사였습니다. 이 챌린지는 연구자와 개발자가 표준화된 평가 지표를 갖춘 대규모 데이터셋에서 알고리즘과 모델을 평가할 수 있는 플랫폼을 제공했습니다. ILSVRC는 이미지 분류, 객체 탐지 및 기타 컴퓨터 비전 작업을 위한 딥러닝 모델 개발에 중요한 진전을 가져왔습니다.
응용 분야
ImageNet 데이터셋은 이미지 분류, 객체 탐지, 객체 위치 추정과 같은 다양한 컴퓨터 비전 작업에서 딥러닝 모델을 학습하고 평가하는 데 널리 사용됩니다. AlexNet, VGG, ResNet과 같은 몇몇 대중적인 딥러닝 아키텍처들은 ImageNet 데이터셋을 사용하여 개발되고 벤치마크되었습니다.
사용법
ImageNet 데이터셋에서 이미지 크기 224x224로 100 에포크(epoch) 동안 딥러닝 모델을 학습하려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수에 대한 자세한 목록은 모델 학습(Training) 페이지를 참조하십시오.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)샘플 이미지 및 주석
ImageNet 데이터셋은 수천 개의 객체 카테고리에 걸친 고해상도 이미지를 포함하고 있으며, 컴퓨터 비전 모델을 학습하고 평가하기 위한 다양하고 방대한 데이터셋을 제공합니다. 다음은 데이터셋 이미지의 몇 가지 예시입니다.

이 예시는 ImageNet 데이터셋 이미지의 다양성과 복잡성을 보여주며, 강력한 컴퓨터 비전 모델을 학습하기 위한 다양한 데이터셋의 중요성을 강조합니다.
인용 및 감사의 글
연구 또는 개발 작업에 ImageNet 데이터셋을 사용하는 경우 다음 논문을 인용해 주십시오:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}저희는 머신러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 소중한 리소스로 ImageNet 데이터셋을 만들고 유지 관리해 온 Olga Russakovsky, Jia Deng, Li Fei-Fei가 이끄는 ImageNet 팀에 감사를 표합니다. ImageNet 데이터셋과 제작자에 대한 자세한 내용은 ImageNet 웹사이트를 방문하십시오.
FAQ
ImageNet 데이터셋이란 무엇이며 컴퓨터 비전에서 어떻게 사용됩니까?
ImageNet 데이터셋은 WordNet synset을 사용하여 분류된 1,400만 개 이상의 고해상도 이미지로 구성된 대규모 데이터베이스입니다. 이미지 분류 및 객체 탐지를 포함한 시각적 객체 인식 연구에 광범위하게 사용됩니다. 데이터셋의 주석과 엄청난 양은 딥러닝 모델을 학습시키기 위한 풍부한 리소스를 제공합니다. 특히 AlexNet, VGG, ResNet과 같은 모델들이 ImageNet을 사용하여 학습 및 벤치마크되었으며, 이는 컴퓨터 비전 발전에 있어 이 데이터셋의 역할을 보여줍니다.
ImageNet 데이터셋에서 이미지 분류를 위해 사전 학습된 YOLO 모델을 어떻게 사용할 수 있습니까?
ImageNet 데이터셋에서 이미지 분류를 위해 사전 학습된 Ultralytics YOLO 모델을 사용하려면 다음 단계를 따르십시오:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)더 자세한 학습 지침은 학습 페이지를 참조하십시오.
ImageNet 데이터셋 프로젝트에 Ultralytics YOLO26 사전 학습 모델을 사용해야 하는 이유는 무엇입니까?
Ultralytics YOLO26 사전 학습 모델은 다양한 컴퓨터 비전 작업에서 속도와 정확도 측면에서 최첨단 성능을 제공합니다. 예를 들어, Top-1 정확도 70.0%와 Top-5 정확도 89.4%를 자랑하는 YOLO26n-cls 모델은 실시간 애플리케이션에 최적화되어 있습니다. 사전 학습 모델은 처음부터 학습하는 데 필요한 컴퓨팅 리소스를 줄이고 개발 주기를 가속화합니다. YOLO26 모델의 성능 지표에 대한 자세한 내용은 ImageNet 사전 학습 모델 섹션에서 확인하십시오.
ImageNet 데이터셋은 어떻게 구성되어 있으며, 왜 중요한가요?
ImageNet 데이터셋은 WordNet 계층 구조를 사용하여 구성되며, 계층 구조의 각 노드는 synset(동의어 집합)으로 설명되는 카테고리를 나타냅니다. 이 구조는 상세한 주석을 가능하게 하여 다양한 객체를 인식하도록 모델을 학습시키는 데 이상적입니다. ImageNet의 다양성과 풍부한 주석은 강력하고 일반화 가능한 딥러닝 모델을 개발하는 데 귀중한 데이터셋이 됩니다. 이러한 구성에 대한 자세한 내용은 데이터셋 구조 섹션에서 확인할 수 있습니다.
컴퓨터 비전에서 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)는 어떤 역할을 합니까?
연례 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)는 대규모 표준화 데이터셋에서 알고리즘을 평가하기 위한 경쟁 플랫폼을 제공함으로써 컴퓨터 비전 발전을 주도하는 데 중추적인 역할을 해왔습니다. 이 챌린지는 표준화된 평가 지표를 제공하여 이미지 분류, 객체 탐지, 이미지 분할(image segmentation) 분야의 혁신과 개발을 촉진합니다. 이 챌린지는 딥러닝 및 컴퓨터 비전 기술로 가능한 것의 한계를 지속적으로 넓혀왔습니다.