Bỏ để qua phần nội dung

Tập dữ liệu ImageNet

ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.

Mô hình đào tạo sẵn ImageNet

Mẫu kích thước
(điểm ảnh)
Acc
Top 1
Acc
Top 5
Tốc độ
CPU ONNX
(Cô)
Speed
T4 TensorRT10
(ms)
Params
(M)
Flops
(B) tại 640
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 110.4

Các tính năng chính

  • ImageNet chứa hơn 14 triệu hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng.
  • Tập dữ liệu được tổ chức theo hệ thống phân cấp WordNet, với mỗi cú pháp đại diện cho một danh mục.
  • ImageNet is widely used for training and benchmarking in the field of computer vision, particularly for image classification and object detection tasks.
  • Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là công cụ thúc đẩy nghiên cứu thị giác máy tính.

Cấu trúc tập dữ liệu

Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng cấu trúc phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một thể loại và mỗi danh mục được mô tả bởi một tập hợp cú pháp (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp một nguồn tài nguyên phong phú cho các mô hình đào tạo để nhận ra các đối tượng khác nhau và mối quan hệ của chúng.

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là một sự kiện quan trọng trong lĩnh vực thị giác máy tính. Nó đã cung cấp một nền tảng cho các nhà nghiên cứu và nhà phát triển để đánh giá các thuật toán và mô hình của họ trên một bộ dữ liệu quy mô lớn với các số liệu đánh giá được tiêu chuẩn hóa. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình học sâu để phân loại hình ảnh, phát hiện đối tượng và các nhiệm vụ thị giác máy tính khác.

Ứng dụng

Bộ dữ liệu ImageNet được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong các tác vụ thị giác máy tính khác nhau, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng và bản địa hóa đối tượng. Một số kiến trúc deep learning phổ biến, chẳng hạn như AlexNet, VGG và ResNet, đã được phát triển và đo điểm chuẩn bằng cách sử dụng tập dữ liệu ImageNet.

Sử dụng

To train a deep learning model on the ImageNet dataset for 100 epochs with an image size of 224x224, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

Ví dụ về tàu hỏa

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Hình ảnh mẫu và chú thích

Bộ dữ liệu ImageNet chứa hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng, cung cấp bộ dữ liệu đa dạng và phong phú để đào tạo và đánh giá các mô hình thị giác máy tính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:

Hình ảnh mẫu tập dữ liệu

Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong tập dữ liệu ImageNet, làm nổi bật tầm quan trọng của một tập dữ liệu đa dạng để đào tạo các mô hình thị giác máy tính mạnh mẽ.

Trích dẫn và xác nhận

Nếu bạn sử dụng tập dữ liệu ImageNet trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

We would like to acknowledge the ImageNet team, led by Olga Russakovsky, Jia Deng, and Li Fei-Fei, for creating and maintaining the ImageNet dataset as a valuable resource for the machine learning and computer vision research community. For more information about the ImageNet dataset and its creators, visit the ImageNet website.

FAQ

Tập dữ liệu ImageNet là gì và nó được sử dụng như thế nào trong thị giác máy tính?

Tập dữ liệu ImageNet là một cơ sở dữ liệu quy mô lớn bao gồm hơn 14 triệu hình ảnh có độ phân giải cao được phân loại bằng cú pháp WordNet. Nó được sử dụng rộng rãi trong nghiên cứu nhận dạng đối tượng trực quan, bao gồm phân loại hình ảnh và phát hiện đối tượng. Các chú thích và khối lượng tuyệt đối của tập dữ liệu cung cấp một nguồn tài nguyên phong phú để đào tạo các mô hình học sâu. Đáng chú ý, các mô hình như AlexNet, VGG và ResNet đã được đào tạo và đo điểm chuẩn bằng ImageNet, thể hiện vai trò của nó trong việc thúc đẩy thị giác máy tính.

Làm thế nào tôi có thể sử dụng một pretrained YOLO mô hình để phân loại hình ảnh trên tập dữ liệu ImageNet?

Để sử dụng một pretrained Ultralytics YOLO mô hình phân loại hình ảnh trên tập dữ liệu ImageNet, hãy làm theo các bước sau:

Ví dụ về tàu hỏa

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Để biết thêm hướng dẫn đào tạo chuyên sâu, hãy tham khảo trang Đào tạo của chúng tôi.

Why should I use the Ultralytics YOLO11 pretrained models for my ImageNet dataset projects?

Ultralytics YOLO11 pretrained models offer state-of-the-art performance in terms of speed and accuracy for various computer vision tasks. For example, the YOLO11n-cls model, with a top-1 accuracy of 69.0% and a top-5 accuracy of 88.3%, is optimized for real-time applications. Pretrained models reduce the computational resources required for training from scratch and accelerate development cycles. Learn more about the performance metrics of YOLO11 models in the ImageNet Pretrained Models section.

Tập dữ liệu ImageNet được cấu trúc như thế nào và tại sao nó lại quan trọng?

Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng hệ thống phân cấp WordNet, trong đó mỗi nút trong hệ thống phân cấp đại diện cho một danh mục được mô tả bởi một tập hợp (một tập hợp các thuật ngữ đồng nghĩa). Cấu trúc này cho phép chú thích chi tiết, lý tưởng cho các mô hình đào tạo để nhận dạng nhiều đối tượng. Sự đa dạng và phong phú về chú thích của ImageNet làm cho nó trở thành một bộ dữ liệu có giá trị để phát triển các mô hình học sâu mạnh mẽ và có thể khái quát hóa. Thông tin thêm về tổ chức này có thể được tìm thấy trong phần Cấu trúc tập dữ liệu .

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) đóng vai trò gì trong thị giác máy tính?

The annual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) has been pivotal in driving advancements in computer vision by providing a competitive platform for evaluating algorithms on a large-scale, standardized dataset. It offers standardized evaluation metrics, fostering innovation and development in areas such as image classification, object detection, and image segmentation. The challenge has continuously pushed the boundaries of what is possible with deep learning and computer vision technologies.


📅 Created 11 months ago ✏️ Updated 11 days ago

Ý kiến