Набор данных ImageNet
ImageNet — это масштабная база данных аннотированных изображений, предназначенная для исследований в области распознавания визуальных объектов. Она содержит более 14 миллионов изображений, каждое из которых аннотировано с использованием синсетов WordNet, что делает ее одним из самых обширных ресурсов для обучения моделей глубинного обучения в задачах компьютерного зрения.
Предобученные модели ImageNet
| Модель | размер (пиксели) | acc top1 | acc top5 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (B) при 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Основные характеристики
- ImageNet содержит более 14 миллионов изображений высокого разрешения, охватывающих тысячи категорий объектов.
- Набор данных организован в соответствии с иерархией WordNet, где каждый синсет представляет собой отдельную категорию.
- ImageNet широко используется для обучения и бенчмаркинга в области компьютерного зрения, особенно для задач классификации изображений и детекции объектов.
- Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) сыграл важную роль в развитии исследований в области компьютерного зрения.
Структура набора данных
Набор данных ImageNet организован с использованием иерархии WordNet. Каждый узел в этой иерархии представляет категорию, а каждая категория описывается синсетом (набором синонимичных терминов). Изображения в ImageNet аннотированы одним или несколькими синсетами, что предоставляет богатый ресурс для обучения моделей распознаванию различных объектов и их взаимосвязей.
Конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
Ежегодный ImageNet Large Scale Visual Recognition Challenge (ILSVRC) стал важным событием в области компьютерного зрения. Он предоставил исследователям и разработчикам платформу для оценки алгоритмов и моделей на крупномасштабном наборе данных со стандартизированными метриками оценки. ILSVRC привел к значительным достижениям в разработке моделей глубинного обучения для классификации изображений, детекции объектов и других задач компьютерного зрения.
Приложения
Набор данных ImageNet широко используется для обучения и оценки моделей глубинного обучения в различных задачах компьютерного зрения, таких как классификация изображений, детекция объектов и локализация объектов. Некоторые популярные архитектуры глубинного обучения, такие как AlexNet, VGG и ResNet, были разработаны и протестированы с использованием набора данных ImageNet.
Использование
Чтобы обучить модель глубинного обучения на наборе данных ImageNet в течение 100 эпох с размером изображения 224x224, ты можешь использовать следующие фрагменты кода. Полный список доступных аргументов см. на странице Обучение модели.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Примеры изображений и аннотаций
Набор данных ImageNet содержит изображения высокого разрешения, охватывающие тысячи категорий объектов, что обеспечивает разнообразный и обширный набор данных для обучения и оценки моделей компьютерного зрения. Вот несколько примеров изображений из этого набора данных:

Этот пример демонстрирует разнообразие и сложность изображений в наборе данных ImageNet, подчеркивая важность разнообразного набора данных для обучения надежных моделей компьютерного зрения.
Цитирование и благодарности
Если ты используешь набор данных ImageNet в своей исследовательской или проектной работе, пожалуйста, сошлись на следующую статью:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Мы хотели бы поблагодарить команду ImageNet под руководством Ольги Руссаковской, Цзя Дэна и Фэй-Фэй Ли за создание и поддержку набора данных ImageNet в качестве ценного ресурса для сообщества исследователей в области машинного обучения и компьютерного зрения. Для получения дополнительной информации о наборе данных ImageNet и его создателях посети сайт ImageNet.
Часто задаваемые вопросы (FAQ)
Что такое набор данных ImageNet и как он используется в компьютерном зрении?
Набор данных ImageNet — это масштабная база данных, состоящая из более чем 14 миллионов изображений высокого разрешения, классифицированных с использованием синсетов WordNet. Он широко используется в исследованиях по распознаванию визуальных объектов, включая классификацию изображений и детекцию объектов. Аннотации и огромный объем набора данных предоставляют богатый ресурс для обучения моделей глубинного обучения. Примечательно, что такие модели, как AlexNet, VGG и ResNet, были обучены и протестированы с помощью ImageNet, что демонстрирует его роль в продвижении компьютерного зрения.
Как я могу использовать предобученную модель YOLO для классификации изображений на наборе данных ImageNet?
Чтобы использовать предобученную модель Ultralytics YOLO для классификации изображений на наборе данных ImageNet, выполни следующие шаги:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Для получения более подробных инструкций по обучению обратись к нашей странице «Обучение».
Почему мне стоит использовать предобученные модели Ultralytics YOLO26 для моих проектов с набором данных ImageNet?
Предобученные модели Ultralytics YOLO26 обеспечивают передовую производительность с точки зрения скорости и точности для различных задач компьютерного зрения. Например, модель YOLO26n-cls с точностью top-1 70,0% и top-5 89,4% оптимизирована для приложений реального времени. Предобученные модели сокращают вычислительные ресурсы, необходимые для обучения с нуля, и ускоряют циклы разработки. Узнай больше о показателях производительности моделей YOLO26 в разделе предобученных моделей ImageNet.
Как структурирован набор данных ImageNet и почему это важно?
Набор данных ImageNet организован с использованием иерархии WordNet, где каждый узел в иерархии представляет собой категорию, описанную синсетом (набором синонимичных терминов). Эта структура позволяет создавать подробные аннотации, что делает его идеальным для обучения моделей распознаванию широкого спектра объектов. Разнообразие и богатство аннотаций ImageNet делают его ценным набором данных для разработки надежных и обобщаемых моделей глубинного обучения. Подробнее об этой организации можно узнать в разделе Структура набора данных.
Какую роль играет конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) в компьютерном зрении?
Ежегодный ImageNet Large Scale Visual Recognition Challenge (ILSVRC) играет ключевую роль в стимулировании достижений в области компьютерного зрения, предоставляя конкурентную платформу для оценки алгоритмов на крупномасштабном стандартизированном наборе данных. Он предлагает стандартизированные метрики оценки, способствуя инновациям и развитию в таких областях, как классификация изображений, детекция объектов и сегментация изображений. Этот конкурс постоянно расширяет границы возможного с помощью технологий глубинного обучения и компьютерного зрения.