콘텐츠로 건너뛰기

이미지넷 데이터 세트

ImageNet은 시각적 객체 인식 연구에 사용하도록 설계된 주석이 달린 이미지의 대규모 데이터베이스입니다. 1,400만 개 이상의 이미지가 포함되어 있으며, 각 이미지에는 WordNet 동기화 세트를 사용하여 주석을 달아 컴퓨터 비전 작업에서 딥러닝 모델을 훈련하는 데 사용할 수 있는 가장 광범위한 리소스 중 하나입니다.

ImageNet 사전 학습 모델

모델 크기
(픽셀)
acc
top1
ACC
TOP5
속도
CPU ONNX
(ms)
속도
T4TensorRT10
(ms)
매개변수
(M)
플롭
(B) at 224
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 0.5
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 1.6
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 5.0
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 6.2
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 13.7

주요 기능

  • ImageNet에는 수천 개의 개체 카테고리에 걸쳐 1,400만 개 이상의 고해상도 이미지가 포함되어 있습니다.
  • 데이터 세트는 워드넷 계층 구조에 따라 구성되며, 각 동의어는 카테고리를 나타냅니다.
  • ImageNet은 컴퓨터 비전 분야의 교육 및 벤치마킹, 특히 이미지 분류객체 감지 작업에 널리 사용됩니다.
  • 매년 열리는 ILSVRC(ImageNet 대규모 시각 인식 챌린지)는 컴퓨터 비전 연구를 발전시키는 데 중요한 역할을 해왔습니다.

데이터 세트 구조

이미지넷 데이터 세트는 워드넷 계층구조를 사용해 구성됩니다. 계층 구조의 각 노드는 카테고리를 나타내며, 각 카테고리는 동의어 모음인 신셋(synset)으로 설명됩니다. 이미지넷의 이미지에는 하나 이상의 신셋으로 주석이 추가되어 다양한 객체와 그 관계를 인식하기 위한 훈련 모델에 풍부한 리소스를 제공합니다.

이미지넷 대규모 시각 인식 챌린지(ILSVRC)

매년 열리는 ImageNet 대규모 시각 인식 챌린지(ILSVRC) 는 컴퓨터 비전 분야에서 중요한 행사입니다. 이 행사는 연구자와 개발자가 표준화된 평가 지표를 통해 대규모 데이터 세트에서 알고리즘과 모델을 평가할 수 있는 플랫폼을 제공해 왔습니다. ILSVRC는 이미지 분류, 물체 감지 및 기타 컴퓨터 비전 작업을 위한 딥러닝 모델 개발에서 상당한 발전을 이끌어냈습니다.

애플리케이션

이미지넷 데이터 세트는 이미지 분류, 물체 감지, 물체 위치 파악 등 다양한 컴퓨터 비전 작업에서 딥러닝 모델을 훈련하고 평가하는 데 널리 사용됩니다. AlexNet, VGG, ResNet과 같이 널리 사용되는 딥 러닝 아키텍처는 ImageNet 데이터 세트를 사용하여 개발되고 벤치마킹되었습니다.

사용법

이미지 크기가 224x224인 이미지넷 데이터 세트에서 100개의 에포크에 대한 딥러닝 모델을 훈련하려면 다음 코드 조각을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 학습 페이지를 참조하세요.

열차 예시

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

샘플 이미지 및 주석

ImageNet 데이터 세트에는 수천 개의 물체 카테고리를 아우르는 고해상도 이미지가 포함되어 있어 컴퓨터 비전 모델을 훈련하고 평가할 수 있는 다양하고 광범위한 데이터 세트를 제공합니다. 다음은 데이터 세트의 몇 가지 이미지 예시입니다:

데이터 세트 샘플 이미지

이 예는 이미지넷 데이터 세트에 포함된 이미지의 다양성과 복잡성을 보여주며, 강력한 컴퓨터 비전 모델을 훈련하는 데 있어 다양한 데이터 세트의 중요성을 강조합니다.

인용 및 감사

연구 또는 개발 작업에 ImageNet 데이터셋을 사용하는 경우 다음 논문을 인용해 주세요:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

머신 러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 귀중한 리소스인 ImageNet 데이터 세트를 만들고 유지 관리해 주신 Olga Russakovsky, Jia Deng, Li Fei-Fei가 이끄는 ImageNet 팀에 감사의 말씀을 전합니다. ImageNet 데이터 세트와 제작자에 대한 자세한 내용은 ImageNet 웹사이트를 참조하세요.

자주 묻는 질문

이미지넷 데이터 세트는 무엇이며 컴퓨터 비전에서 어떻게 사용되나요?

이미지넷 데이터 세트는 워드넷 싱셋을 사용해 분류된 1,400만 개 이상의 고해상도 이미지로 구성된 대규모 데이터베이스입니다. 이미지 분류 및 객체 감지를 포함한 시각적 객체 인식 연구에 광범위하게 사용됩니다. 데이터 세트의 주석과 방대한 양은 딥러닝 모델 학습을 위한 풍부한 리소스를 제공합니다. 특히 AlexNet, VGG, ResNet과 같은 모델은 ImageNet을 사용하여 훈련되고 벤치마킹되어 컴퓨터 비전을 발전시키는 데 있어 그 역할을 보여주고 있습니다.

이미지넷 데이터 세트에서 이미지 분류를 위해 사전 학습된 YOLO 모델을 사용하려면 어떻게 해야 하나요?

이미지넷 데이터 세트에서 이미지 분류를 위해 사전 학습된 Ultralytics YOLO 모델을 사용하려면 다음 단계를 따르세요:

열차 예시

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

보다 심층적인 교육 지침은 교육 페이지를 참조하세요.

ImageNet 데이터 세트 프로젝트에 Ultralytics YOLO11 사전 학습된 모델을 사용해야 하는 이유는 무엇인가요?

Ultralytics YOLO11 사전 학습 모델은 다양한 컴퓨터 비전 작업에 대해 속도와 정확도 측면에서 최첨단 성능을 제공합니다. 예를 들어, 상위 1% 정확도가 70.0%, 상위 5% 정확도가 89.4%인 YOLO11n-cls 모델은 실시간 애플리케이션에 최적화되어 있습니다. 사전 학습된 모델은 처음부터 학습하는 데 필요한 컴퓨팅 리소스를 줄이고 개발 주기를 단축합니다. 이미지넷 사전 훈련 모델 섹션에서 YOLO11 모델의 성능 메트릭에 대해 자세히 알아보세요.

이미지넷 데이터 세트는 어떻게 구조화되어 있으며, 이것이 중요한 이유는 무엇인가요?

이미지넷 데이터 세트는 워드넷 계층 구조를 사용하여 구성되며, 계층 구조의 각 노드는 동의어 집합(동의어 용어의 모음)으로 설명되는 카테고리를 나타냅니다. 이 구조는 상세한 주석이 가능하기 때문에 다양한 객체를 인식하는 모델을 훈련하는 데 이상적입니다. 이미지넷의 다양성과 풍부한 주석은 강력하고 일반화 가능한 딥 러닝 모델을 개발하는 데 유용한 데이터 세트입니다. 이 조직에 대한 자세한 내용은 데이터 세트 구조 섹션에서 확인할 수 있습니다.

이미지넷 대규모 시각 인식 챌린지(ILSVRC)는 컴퓨터 비전에서 어떤 역할을 하나요?

매년 열리는 ImageNet 대규모 시각 인식 챌린지(ILSVRC) 는 대규모의 표준화된 데이터 세트에서 알고리즘을 평가할 수 있는 경쟁 플랫폼을 제공함으로써 컴퓨터 비전의 발전을 이끄는 데 중추적인 역할을 해왔습니다. 표준화된 평가 지표를 제공하여 이미지 분류, 물체 감지, 이미지 분할과 같은 분야에서 혁신과 개발을 촉진합니다. 이 챌린지는 딥 러닝과 컴퓨터 비전 기술로 가능한 것의 한계를 지속적으로 확장해 왔습니다.

📅1 년 전 생성됨 ✏️ 업데이트됨 8 일 전

댓글