Перейти к содержанию

Набор данных ImageNet

ImageNet - это крупномасштабная база данных аннотированных изображений, предназначенная для использования в исследованиях по распознаванию визуальных объектов. Она содержит более 14 миллионов изображений, каждое из которых аннотировано с помощью синсетов WordNet, что делает ее одним из самых обширных ресурсов, доступных для обучения моделей глубокого обучения в задачах компьютерного зрения.

Предварительно обученные модели ImageNet

Модель размер
(пикселей)
acc
top1
акк
топ5
Скорость
CPU ONNX
(мс)
Скорость
T4TensorRT10
(мс)
params
(M)
FLOPs
(B) при 640
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 110.4

Основные характеристики

  • ImageNet содержит более 14 миллионов изображений высокого разрешения, охватывающих тысячи категорий объектов.
  • Набор данных организован в соответствии с иерархией WordNet, где каждый синсет представляет категорию.
  • ImageNet широко используется для обучения и сравнительного тестирования в области компьютерного зрения, в частности, для задач классификации изображений и обнаружения объектов.
  • Ежегодное соревнование ImageNet Large Scale Visual Recognition Challenge (ILSVRC) сыграло важную роль в развитии исследований в области компьютерного зрения.

Структура набора данных

Набор данных ImageNet организован с использованием иерархии WordNet. Каждый узел иерархии представляет собой категорию, а каждая категория описывается синсетом (набором синонимичных терминов). Изображения в ImageNet аннотированы одним или несколькими синсетами, что обеспечивает богатый ресурс для обучения моделей распознавания различных объектов и их связей.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) стал важным событием в области компьютерного зрения. Он предоставляет исследователям и разработчикам платформу для оценки своих алгоритмов и моделей на крупномасштабном наборе данных со стандартизированными метриками оценки. ILSVRC привел к значительному прогрессу в разработке моделей глубокого обучения для классификации изображений, обнаружения объектов и других задач компьютерного зрения.

Приложения

Набор данных ImageNet широко используется для обучения и оценки моделей глубокого обучения в различных задачах компьютерного зрения, таких как классификация изображений, обнаружение и локализация объектов. Некоторые популярные архитектуры глубокого обучения, такие как AlexNet, VGG и ResNet, были разработаны и протестированы с использованием набора данных ImageNet.

Использование

Для обучения модели глубокого обучения на наборе данных ImageNet в течение 100 эпох при размере изображения 224x224 вы можете использовать следующие фрагменты кода. Полный список доступных аргументов см. на странице обучения модели.

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Образцы изображений и аннотаций

Набор данных ImageNet содержит изображения высокого разрешения, охватывающие тысячи категорий объектов, и представляет собой разнообразную и обширную базу данных для обучения и оценки моделей компьютерного зрения. Вот несколько примеров изображений из этого набора:

Образцы изображений из набора данных

Этот пример демонстрирует разнообразие и сложность изображений в наборе данных ImageNet, подчеркивая важность разнообразных наборов данных для обучения надежных моделей компьютерного зрения.

Цитаты и благодарности

Если вы используете набор данных ImageNet в своих исследованиях или разработках, пожалуйста, ссылайтесь на следующий документ:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Мы хотели бы выразить благодарность команде ImageNet под руководством Ольги Руссаковской, Цзя Денга и Ли Фей-Фея за создание и поддержку набора данных ImageNet как ценного ресурса для сообщества исследователей машинного обучения и компьютерного зрения. Дополнительную информацию о наборе данных ImageNet и его создателях можно найти на сайте ImageNet.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое набор данных ImageNet и как он используется в компьютерном зрении?

Набор данных ImageNet - это крупномасштабная база данных, состоящая из более чем 14 миллионов изображений высокого разрешения, классифицированных с помощью синсетов WordNet. Она широко используется в исследованиях по распознаванию визуальных объектов, включая классификацию изображений и обнаружение объектов. Аннотации и объем базы данных представляют собой богатый ресурс для обучения моделей глубокого обучения. В частности, такие модели, как AlexNet, VGG и ResNet, были обучены и протестированы на ImageNet, что свидетельствует о его роли в развитии компьютерного зрения.

Как использовать предварительно обученную модель YOLO для классификации изображений в наборе данных ImageNet?

Чтобы использовать предварительно обученную модель Ultralytics YOLO для классификации изображений в наборе данных ImageNet, выполните следующие действия:

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Более подробные инструкции по обучению см. на нашей странице "Обучение".

Почему я должен использовать предварительно обученные модели Ultralytics YOLO11 для своих проектов с набором данных ImageNet.

Ultralytics YOLO11 Предварительно обученные модели обеспечивают современную производительность с точки зрения скорости и точности для различных задач компьютерного зрения. Например, модель YOLO11n-cls, точность которой в первом приближении составляет 69,0 %, а в пятом - 88,3 %, оптимизирована для приложений реального времени. Предварительно обученные модели позволяют сократить вычислительные ресурсы, необходимые для обучения с нуля, и ускорить циклы разработки. Подробнее о показателях производительности моделей YOLO11 можно узнать в разделе ImageNet Pretrained Models.

Как устроен набор данных ImageNet и почему это важно?

Набор данных ImageNet организован по иерархии WordNet, где каждый узел иерархии представляет собой категорию, описываемую синсетом (набором синонимичных терминов). Такая структура позволяет составлять подробные аннотации, что делает ее идеальной для обучения моделей распознавания широкого спектра объектов. Разнообразие и богатство аннотаций ImageNet делают его ценным набором данных для разработки надежных и обобщающих моделей глубокого обучения. Подробнее об этой организации можно прочитать в разделе " Структура набора данных".

Какую роль в компьютерном зрении играет конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC)?

Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) играет ключевую роль в развитии компьютерного зрения, предоставляя конкурентную платформу для оценки алгоритмов на крупномасштабном стандартном наборе данных. Он предлагает стандартные метрики оценки, стимулируя инновации и разработки в таких областях, как классификация изображений, обнаружение объектов и сегментация изображений. Задача постоянно расширяет границы возможного в технологиях глубокого обучения и компьютерного зрения.

📅 Создано 1 год назад ✏️ Обновлено 3 месяца назад

Комментарии