Перейти к содержимому

Набор данных ImageNet

ImageNet - это масштабная база данных аннотированных изображений, предназначенная для использования в исследованиях по распознаванию визуальных объектов. Она содержит более 14 миллионов изображений, каждое из которых аннотировано с помощью синсетов WordNet, что делает ее одним из самых обширных ресурсов, доступных для обучения моделей глубокого обучения в задачах компьютерного зрения.

Основные характеристики

  • ImageNet содержит более 14 миллионов изображений высокого разрешения, охватывающих тысячи категорий объектов.
  • Набор данных организован в соответствии с иерархией WordNet, где каждый синсет представляет категорию.
  • ImageNet широко используется для обучения и бенчмаркинга в области компьютерного зрения, в частности для задач классификации изображений и обнаружения объектов.
  • Ежегодное соревнование ImageNet Large Scale Visual Recognition Challenge (ILSVRC) сыграло важную роль в развитии исследований в области компьютерного зрения.

Структура набора данных

Набор данных ImageNet организован с помощью иерархии WordNet. Каждый узел иерархии представляет собой категорию, а каждая категория описывается синсетами (коллекцией синонимичных терминов). Изображения в ImageNet аннотированы одним или несколькими синсетами, что обеспечивает богатый ресурс для обучения моделей распознавания различных объектов и их взаимосвязей.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) стал важным событием в области компьютерного зрения. Он предоставил исследователям и разработчикам платформу для оценки своих алгоритмов и моделей на крупномасштабном наборе данных со стандартизированными метриками оценки. ILSVRC привел к значительному прогрессу в разработке моделей глубокого обучения для классификации изображений, обнаружения объектов и других задач компьютерного зрения.

Приложения

Набор данных ImageNet широко используется для обучения и оценки моделей глубокого обучения в различных задачах компьютерного зрения, таких как классификация изображений, обнаружение объектов и их локализация. Некоторые популярные архитектуры глубокого обучения, такие как AlexNet, VGG и ResNet, были разработаны и протестированы с помощью набора данных ImageNet.

Использование

Чтобы обучить модель глубокого обучения на наборе данных ImageNet в течение 100 эпох при размере изображения 224x224, ты можешь воспользоваться следующими фрагментами кода. Полный список доступных аргументов ты найдешь на странице обучения модели.

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n-cls.pt')  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data='imagenet', epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Примеры изображений и аннотаций

Набор данных ImageNet содержит изображения высокого разрешения, охватывающие тысячи категорий объектов, что обеспечивает разнообразный и обширный набор данных для обучения и оценки моделей компьютерного зрения. Вот несколько примеров изображений из этого набора:

Образцы изображений из набора данных

Этот пример демонстрирует разнообразие и сложность изображений в наборе данных ImageNet, подчеркивая важность разнообразных наборов данных для обучения надежных моделей компьютерного зрения.

Цитаты и благодарности

Если ты используешь набор данных ImageNet в своих исследованиях или разработках, пожалуйста, ссылайся на следующую статью:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Мы хотели бы выразить благодарность команде ImageNet под руководством Ольги Руссаковской, Цзя Денга и Ли Фей-Фея за создание и поддержку набора данных ImageNet как ценного ресурса для сообщества исследователей машинного обучения и компьютерного зрения. Чтобы узнать больше о наборе данных ImageNet и его создателях, посети сайт ImageNet.



Создано 2023-11-12, Обновлено 2024-01-12
Авторы: glenn-jocher (4)

Комментарии