ImageNet10 데이터 세트

Q: Why should I use the ImageNet10 dataset for CI tests and sanity checks?

ImageNet10 데이터 세트는 딥 러닝 파이프라인에서 CI 테스트, 건전성 검사, 빠른 평가를 위해 특별히 설계되었습니다. 크기가 작아 신속한 반복과 테스트가 가능하므로 속도가 중요한 지속적인 통합 프로세스에 적합합니다. 이미지넷10은 원본 이미지넷 데이터 세트의 구조적 복잡성과 다양성을 유지함으로써 대규모 데이터 세트 처리의 오버헤드 없이도 모델의 기본 기능과 정확성을 안정적으로 표시할 수 있습니다.

ImageNet10 데이터 세트는 ImageNet 데이터베이스의 소규모 하위 집합으로, 다음에서 개발했습니다. Ultralytics 에서 개발했으며 CI 테스트, 건전성 검사 및 훈련 파이프라인의 빠른 테스트를 위해 설계되었습니다. 이 데이터 세트는 훈련 세트의 첫 번째 이미지와 ImageNet의 처음 10개 클래스의 유효성 검사 세트의 첫 번째 이미지로 구성됩니다. 훨씬 더 작지만, 원래 ImageNet 데이터 세트의 구조와 다양성을 그대로 유지합니다.

주요 기능

ImageNet10은 원래 데이터 세트의 처음 10개 클래스를 나타내는 20개의 이미지가 포함된 ImageNet의 압축 버전입니다.
데이터 세트는 전체 이미지넷 데이터 세트의 구조를 반영하는 WordNet 계층 구조에 따라 구성됩니다.
It is ideally suited for CI tests, sanity checks, and rapid testing of training pipelines in computer vision tasks.
모델 벤치마킹을 위해 설계된 것은 아니지만 모델의 기본 기능과 정확성을 빠르게 파악할 수 있습니다.

데이터 세트 구조

이미지넷10 데이터 세트는 원래 이미지넷과 마찬가지로 워드넷 계층구조를 사용해 구성됩니다. ImageNet10의 각 10개의 클래스는 동의어 집합(동의어 용어의 모음)으로 설명됩니다. ImageNet10의 이미지에는 하나 이상의 신셋으로 주석이 추가되어 다양한 객체와 그 관계를 인식하는 모델을 테스트하기 위한 간결한 리소스를 제공합니다.

애플리케이션

ImageNet10 데이터 세트는 컴퓨터 비전 모델과 파이프라인을 빠르게 테스트하고 디버깅하는 데 유용합니다. 크기가 작아 빠른 반복이 가능하므로 지속적인 통합 테스트와 정상 상태 확인에 이상적입니다. 또한 전체 ImageNet 데이터 세트로 본격적인 테스트를 진행하기 전에 새 모델이나 기존 모델의 변경 사항을 빠르게 예비 테스트하는 데 사용할 수 있습니다.

사용법

이미지 크기가 224x224인 ImageNet10 데이터 세트에서 딥러닝 모델을 테스트하려면 다음 코드 조각을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 학습 페이지를 참조하세요.

테스트 예제

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet10 model=yolo11n-cls.pt epochs=5 imgsz=224

샘플 이미지 및 주석

ImageNet10 데이터 세트에는 원본 ImageNet 데이터 세트의 이미지 하위 집합이 포함되어 있습니다. 이 이미지들은 데이터 세트의 처음 10개 클래스를 대표하도록 선택되어 빠른 테스트와 평가를 위한 다양하면서도 간결한 데이터 세트를 제공합니다.

데이터 세트 샘플 이미지 이 예시는 이미지넷10 데이터 세트에 포함된 이미지의 다양성과 복잡성을 보여주며, 컴퓨터 비전 모델의 건전성 검사 및 빠른 테스트에 유용함을 강조합니다.

인용 및 감사

연구 또는 개발 작업에 ImageNet10 데이터 세트를 사용하는 경우, 원본 ImageNet 논문을 인용해 주세요:

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

We would like to acknowledge the ImageNet team, led by Olga Russakovsky, Jia Deng, and Li Fei-Fei, for creating and maintaining the ImageNet dataset. The ImageNet10 dataset, while a compact subset, is a valuable resource for quick testing and debugging in the machine learning and computer vision research community. For more information about the ImageNet dataset and its creators, visit the ImageNet website.

자주 묻는 질문

이미지넷10 데이터 세트는 무엇이며 전체 이미지넷 데이터 세트와 어떻게 다른가요?

ImageNet10 데이터 세트는 신속한 CI 테스트, 건전성 검사, 훈련 파이프라인 평가를 위해 Ultralytics 에서 만든 원본 ImageNet 데이터베이스의 압축된 하위 집합입니다. ImageNet10은 20개의 이미지로만 구성되어 있으며, ImageNet의 처음 10개 클래스의 훈련 및 검증 세트의 첫 번째 이미지를 나타냅니다. 크기는 작지만 전체 데이터 세트의 구조와 다양성을 유지하므로 빠른 테스트에는 이상적이지만 모델 벤치마킹에는 적합하지 않습니다.

ImageNet10 데이터 세트를 사용하여 딥러닝 모델을 테스트하려면 어떻게 해야 하나요?

이미지 크기가 224x224인 이미지넷10 데이터 세트에서 딥러닝 모델을 테스트하려면 다음 코드 스니펫을 사용하세요.

테스트 예제

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet10 model=yolo11n-cls.pt epochs=5 imgsz=224

사용 가능한 인수의 전체 목록은 교육 페이지를 참조하세요.

CI 테스트 및 건전성 검사에 ImageNet10 데이터 세트를 사용해야 하는 이유는 무엇인가요?

The ImageNet10 dataset is designed specifically for CI tests, sanity checks, and quick evaluations in deep learning pipelines. Its small size allows for rapid iteration and testing, making it perfect for continuous integration processes where speed is crucial. By maintaining the structural complexity and diversity of the original ImageNet dataset, ImageNet10 provides a reliable indication of a model's basic functionality and correctness without the overhead of processing a large dataset.