Bỏ để qua phần nội dung

Tập dữ liệu ImageNet

ImageNet là một cơ sở dữ liệu quy mô lớn của hình ảnh chú thích được thiết kế để sử dụng trong nghiên cứu nhận dạng đối tượng trực quan. Nó chứa hơn 14 triệu hình ảnh, với mỗi hình ảnh được chú thích bằng cú pháp WordNet, làm cho nó trở thành một trong những tài nguyên rộng lớn nhất có sẵn để đào tạo các mô hình học sâu trong các tác vụ thị giác máy tính.

Mô hình đào tạo sẵn ImageNet

Mẫu kích thước
(điểm ảnh)
Acc
Top 1
Acc
Top 5
Tốc độ
CPU ONNX
(Cô)
Tốc độ
A100 TensorRT
(Cô)
Params
(M)
Flops
(B) tại 640
YOLOv8n-Cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-Cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-Cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-Cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-Cls 224 79.0 94.6 232.0 1.01 57.4 154.8

Các tính năng chính

  • ImageNet chứa hơn 14 triệu hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng.
  • Tập dữ liệu được tổ chức theo hệ thống phân cấp WordNet, với mỗi cú pháp đại diện cho một danh mục.
  • ImageNet được sử dụng rộng rãi để đào tạo và đo điểm chuẩn trong lĩnh vực thị giác máy tính, đặc biệt là để phân loại hình ảnh và các tác vụ phát hiện đối tượng.
  • Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là công cụ thúc đẩy nghiên cứu thị giác máy tính.

Cấu trúc tập dữ liệu

Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng cấu trúc phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một thể loại và mỗi danh mục được mô tả bởi một tập hợp cú pháp (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp một nguồn tài nguyên phong phú cho các mô hình đào tạo để nhận ra các đối tượng khác nhau và mối quan hệ của chúng.

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là một sự kiện quan trọng trong lĩnh vực thị giác máy tính. Nó đã cung cấp một nền tảng cho các nhà nghiên cứu và nhà phát triển để đánh giá các thuật toán và mô hình của họ trên một bộ dữ liệu quy mô lớn với các số liệu đánh giá được tiêu chuẩn hóa. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình học sâu để phân loại hình ảnh, phát hiện đối tượng và các nhiệm vụ thị giác máy tính khác.

Ứng dụng

Bộ dữ liệu ImageNet được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong các tác vụ thị giác máy tính khác nhau, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng và bản địa hóa đối tượng. Một số kiến trúc deep learning phổ biến, chẳng hạn như AlexNet, VGG và ResNet, đã được phát triển và đo điểm chuẩn bằng cách sử dụng tập dữ liệu ImageNet.

Sử dụng

Để đào tạo mô hình deep learning trên tập dữ liệu ImageNet cho 100 kỷ nguyên với kích thước hình ảnh 224x224, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Đào tạo mẫu.

Ví dụ về tàu hỏa

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Hình ảnh mẫu và chú thích

Bộ dữ liệu ImageNet chứa hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng, cung cấp bộ dữ liệu đa dạng và phong phú để đào tạo và đánh giá các mô hình thị giác máy tính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:

Hình ảnh mẫu tập dữ liệu

Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong tập dữ liệu ImageNet, làm nổi bật tầm quan trọng của một tập dữ liệu đa dạng để đào tạo các mô hình thị giác máy tính mạnh mẽ.

Trích dẫn và xác nhận

Nếu bạn sử dụng tập dữ liệu ImageNet trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Chúng tôi muốn ghi nhận nhóm ImageNet, dẫn đầu bởi Olga Russakovsky, Jia Deng và Li Fei-Fei, đã tạo và duy trì tập dữ liệu ImageNet như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu thị giác máy và máy tính. Để biết thêm thông tin về tập dữ liệu ImageNet và người tạo ra nó, hãy truy cập trang web ImageNet.



Created 2023-11-12, Updated 2024-06-02
Authors: glenn-jocher (7), RizwanMunawar (1)

Ý kiến