Перейти к содержанию

Набор данных ImageNet10

Датасет ImageNet10 — это маломасштабное подмножество базы данных ImageNet, разработанное Ultralytics и предназначенное для CI тестов, проверок работоспособности и быстрого тестирования конвейеров обучения. Этот датасет состоит из первого изображения в обучающем наборе и первого изображения из набора валидации первых 10 классов в ImageNet. Хотя он значительно меньше, он сохраняет структуру и разнообразие оригинального датасета ImageNet.

Основные характеристики

  • ImageNet10 — это компактная версия ImageNet, содержащая 20 изображений, представляющих первые 10 классов исходного набора данных.
  • Набор данных организован в соответствии с иерархией WordNet, отражая структуру полного набора данных ImageNet.
  • Он идеально подходит для CI-тестов, проверок работоспособности и быстрой проверки конвейеров обучения в задачах компьютерного зрения.
  • Хотя он и не предназначен для сравнительного анализа моделей, он может дать быстрое представление об основных функциональных возможностях и правильности модели.

Структура набора данных

Набор данных ImageNet10, как и исходный ImageNet, организован с использованием иерархии WordNet. Каждый из 10 классов в ImageNet10 описывается синсетом (набором синонимичных терминов). Изображения в ImageNet10 аннотированы одним или несколькими синсетами, что обеспечивает компактный ресурс для тестирования моделей распознаванию различных объектов и их взаимосвязей.

Приложения

Набор данных ImageNet10 полезен для быстрого тестирования и отладки моделей и конвейеров computer vision. Его небольшой размер позволяет быстро выполнять итерации, что делает его идеальным для тестов непрерывной интеграции и проверок работоспособности. Он также может использоваться для быстрого предварительного тестирования новых моделей или изменений в существующих моделях перед переходом к полномасштабному тестированию с полным набором данных ImageNet.

Использование

Чтобы протестировать модель глубокого обучения на наборе данных ImageNet10 с размером изображения 224x224, вы можете использовать следующие фрагменты кода. Полный список доступных аргументов см. на странице Обучение модели.

Тестовый пример

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet10 model=yolo11n-cls.pt epochs=5 imgsz=224

Примеры изображений и аннотации

Набор данных ImageNet10 содержит подмножество изображений из исходного набора данных ImageNet. Эти изображения выбраны для представления первых 10 классов в наборе данных, что обеспечивает разнообразный, но компактный набор данных для быстрого тестирования и оценки.

Примеры изображений dataset

Этот пример демонстрирует разнообразие и сложность изображений в наборе данных ImageNet10, подчеркивая его полезность для проверки работоспособности и быстрого тестирования моделей компьютерного зрения.

Цитирование и благодарности

Если вы используете датасет ImageNet10 в своих исследованиях или разработках, пожалуйста, сошлитесь на оригинальную статью ImageNet:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Мы хотели бы выразить благодарность команде ImageNet под руководством Ольги Руссаковской, Цзя Денг и Ли Фей-Фей за создание и поддержку набора данных ImageNet. Набор данных ImageNet10, хотя и является компактным подмножеством, является ценным ресурсом для быстрого тестирования и отладки в сообществе машинного обучения и исследований в области компьютерного зрения. Для получения дополнительной информации о наборе данных ImageNet и его создателях посетите веб-сайт ImageNet.

Часто задаваемые вопросы

Что такое набор данных ImageNet10 и чем он отличается от полного набора данных ImageNet?

Датасет ImageNet10 — это компактное подмножество оригинальной базы данных ImageNet, созданное Ultralytics для быстрой проверки CI, проверок работоспособности и оценки конвейеров обучения. ImageNet10 содержит всего 20 изображений, представляющих первое изображение в наборах для обучения и валидации первых 10 классов в ImageNet. Несмотря на свой небольшой размер, он сохраняет структуру и разнообразие полного датасета, что делает его идеальным для быстрого тестирования, но не для бенчмаркинга моделей.

Как я могу использовать датасет ImageNet10 для тестирования моей модели глубокого обучения?

Чтобы протестировать вашу модель глубокого обучения на наборе данных ImageNet10 с размером изображения 224x224, используйте следующие фрагменты кода.

Тестовый пример

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet10 model=yolo11n-cls.pt epochs=5 imgsz=224

Полный список доступных аргументов см. на странице Обучение.

Почему мне следует использовать набор данных ImageNet10 для CI-тестов и проверок работоспособности?

Набор данных ImageNet10 разработан специально для тестов CI, проверок работоспособности и быстрой оценки в конвейерах deep learning. Его небольшой размер позволяет быстро выполнять итерации и тестирование, что делает его идеальным для процессов непрерывной интеграции, где скорость имеет решающее значение. Сохраняя структурную сложность и разнообразие исходного набора данных ImageNet, ImageNet10 обеспечивает надежную индикацию основных функциональных возможностей и правильности модели без необходимости обработки большого набора данных.

Каковы основные характеристики набора данных ImageNet10?

Набор данных ImageNet10 имеет несколько ключевых особенностей:

  • Компактный размер: Всего 20 изображений позволяют быстро проводить тестирование и отладку.
  • Структурированная организация: Соответствует иерархии WordNet, аналогично полному набору данных ImageNet.
  • CI и проверка работоспособности: Идеально подходит для тестов непрерывной интеграции и проверок работоспособности.
  • Не для бенчмаркинга: Хотя это полезно для быстрой оценки модели, это не предназначено для обширного бенчмаркинга.

Как ImageNet10 соотносится с другими небольшими наборами данных, такими как ImageNette?

Хотя ImageNet10 и ImageNette являются подмножествами ImageNet, они служат разным целям. ImageNet10 содержит всего 20 изображений (по 2 на класс) из первых 10 классов ImageNet, что делает его чрезвычайно легким для CI-тестирования и быстрой проверки работоспособности. В отличие от этого, ImageNette содержит тысячи изображений по 10 легко различимым классам, что делает его более подходящим для фактического обучения и разработки моделей. ImageNet10 предназначен для проверки функциональности конвейера, а ImageNette лучше подходит для значимых, но более быстрых, чем полные, экспериментов по обучению ImageNet.



📅 Создано 2 года назад ✏️ Обновлено 8 месяцев назад
glenn-jocherUltralyticsAssistantMatthewNoyceRizwanMunawarjk4e

Комментарии