Набор данных ImageNet

Q: What is the ImageNet dataset and how is it used in computer vision?

Набор данных ImageNet — это крупномасштабная база данных, состоящая из более чем 14 миллионов изображений высокого разрешения, классифицированных с использованием синсетов WordNet. Он широко используется в исследованиях по распознаванию визуальных объектов, включая классификацию изображений и object detection. Аннотации и огромный объем набора данных предоставляют богатый ресурс для обучения моделей глубокого обучения. Примечательно, что такие модели, как AlexNet, VGG и ResNet, были обучены и протестированы с использованием ImageNet, что демонстрирует его роль в развитии computer vision.

ImageNet — это масштабная база данных аннотированных изображений, предназначенная для использования в исследованиях в области распознавания визуальных объектов. Она содержит более 14 миллионов изображений, каждое из которых аннотировано с использованием синсетов WordNet, что делает ее одним из самых обширных ресурсов, доступных для обучения моделей глубокого обучения в задачах компьютерного зрения.

Предварительно обученные модели ImageNet

Модель	размер ^{(пиксели)}	acc ^top1	acc ^top5	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^{(B) при 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Основные характеристики

ImageNet содержит более 14 миллионов изображений высокого разрешения, охватывающих тысячи категорий объектов.
Набор данных организован в соответствии с иерархией WordNet, где каждый синсет представляет собой категорию.
ImageNet широко используется для обучения и оценки в области компьютерного зрения, особенно для задач классификации изображений и обнаружения объектов.
Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) сыграл важную роль в продвижении исследований в области компьютерного зрения.

Структура набора данных

Набор данных ImageNet организован с использованием иерархии WordNet. Каждый узел в иерархии представляет собой категорию, и каждая категория описывается синсетом (набором синонимичных терминов). Изображения в ImageNet аннотированы одним или несколькими синсетами, что обеспечивает богатый ресурс для обучения моделей распознаванию различных объектов и их взаимосвязей.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) является важным событием в области компьютерного зрения. Он предоставил исследователям и разработчикам платформу для оценки своих алгоритмов и моделей на крупномасштабном наборе данных со стандартизированными метриками оценки. ILSVRC привел к значительным достижениям в разработке моделей глубокого обучения для классификации изображений, detect объектов и других задач компьютерного зрения.

Приложения

Набор данных ImageNet широко используется для обучения и оценки моделей глубокого обучения в различных задачах computer vision, таких как классификация изображений, object detection и object localization. Некоторые популярные архитектуры глубокого обучения, такие как AlexNet, VGG и ResNet, были разработаны и протестированы с использованием набора данных ImageNet.

Использование

Чтобы обучить модель глубокого обучения на наборе данных ImageNet в течение 100 эпох с размером изображения 224x224, вы можете использовать следующие фрагменты кода. Для получения полного списка доступных аргументов обратитесь к странице Обучение модели.

Пример обучения

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Примеры изображений и аннотации

Набор данных ImageNet содержит изображения высокого разрешения, охватывающие тысячи категорий объектов, что обеспечивает разнообразный и обширный набор данных для обучения и оценки моделей computer vision. Вот несколько примеров изображений из набора данных:

sample_images набора данных для классификации ImageNet

В примере демонстрируется разнообразие и сложность изображений в наборе данных ImageNet, что подчеркивает важность разнообразного набора данных для обучения надежных моделей компьютерного зрения.

Цитирование и благодарности

Если вы используете датасет ImageNet в своих исследованиях или разработках, пожалуйста, сошлитесь на следующую статью:

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Мы хотели бы выразить благодарность команде ImageNet под руководством Ольги Руссаковской, Цзя Денг и Ли Фей-Фей за создание и поддержку набора данных ImageNet в качестве ценного ресурса для сообщества машинного обучения и исследований в области компьютерного зрения. Для получения дополнительной информации о наборе данных ImageNet и его создателях посетите веб-сайт ImageNet.

Часто задаваемые вопросы

Что такое набор данных ImageNet и как он используется в компьютерном зрении?

Датасет ImageNet dataset — это крупномасштабная база данных, состоящая из более чем 14 миллионов изображений высокого разрешения, классифицированных с использованием синсетов WordNet. Он широко используется в исследованиях по распознаванию визуальных объектов, включая image classification и object detection. Аннотации и огромный объем датасета предоставляют богатый ресурс для обучения моделей deep learning. Примечательно, что такие модели, как AlexNet, VGG и ResNet, были обучены и протестированы с использованием ImageNet, что демонстрирует его роль в развитии computer vision.

Как я могу использовать предварительно обученную модель YOLO для классификации изображений на наборе данных ImageNet?

Чтобы использовать предварительно обученную модель Ultralytics YOLO для классификации изображений на наборе данных ImageNet, выполните следующие действия:

Пример обучения

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Для получения более подробных инструкций по обучению обратитесь к нашей странице, посвященной обучению.

Почему я должен использовать предварительно обученные модели Ultralytics YOLO26 для своих проектов с набором данных ImageNet?

Предварительно обученные модели Ultralytics YOLO26 обеспечивают передовую производительность по скорости и точности для различных задач компьютерного зрения. Например, модель YOLO26n-cls с точностью top-1 70,0% и точностью top-5 89,4% оптимизирована для приложений реального времени. Предварительно обученные модели сокращают вычислительные ресурсы, необходимые для обучения с нуля, и ускоряют циклы разработки. Узнайте больше о метриках производительности моделей YOLO26 в разделе «Предварительно обученные модели ImageNet».

Как структурирован набор данных ImageNet и почему он важен?

Набор данных ImageNet организован с использованием иерархии WordNet, где каждый узел в иерархии представляет собой категорию, описанную синсетом (набором синонимичных терминов). Эта структура позволяет создавать подробные аннотации, что делает ее идеальной для обучения моделей распознаванию широкого спектра объектов. Разнообразие и богатство аннотаций ImageNet делают его ценным набором данных для разработки надежных и обобщаемых моделей глубокого обучения. Подробнее об этой организации можно узнать в разделе «Структура набора данных».

Какую роль играет ImageNet Large Scale Visual Recognition Challenge (ILSVRC) в компьютерном зрении?

Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) сыграл решающую роль в продвижении компьютерного зрения, предоставив конкурентную платформу для оценки алгоритмов на крупномасштабном стандартизированном наборе данных. Он предлагает стандартизированные метрики оценки, способствуя инновациям и развитию в таких областях, как классификация изображений, detect объектов и сегментация изображений. Конкурс постоянно расширяет границы возможного с помощью технологий глубокого обучения и компьютерного зрения.

📅 Создано 2 лет назад ✏️ Обновлено 3 месяцев назад