Bỏ để qua phần nội dung

Tập dữ liệu ImageNet

ImageNet là một cơ sở dữ liệu quy mô lớn của hình ảnh chú thích được thiết kế để sử dụng trong nghiên cứu nhận dạng đối tượng trực quan. Nó chứa hơn 14 triệu hình ảnh, với mỗi hình ảnh được chú thích bằng cú pháp WordNet, làm cho nó trở thành một trong những tài nguyên rộng lớn nhất có sẵn để đào tạo các mô hình học sâu trong các tác vụ thị giác máy tính.

Mô hình đào tạo sẵn ImageNet

Mẫu kích thước
(điểm ảnh)
Acc
Top 1
Acc
Top 5
Tốc độ
CPU ONNX
(Cô)
Tốc độ
A100 TensorRT
(Cô)
Params
(M)
Flops
(B) tại 640
YOLOv8n-Cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-Cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-Cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-Cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-Cls 224 79.0 94.6 232.0 1.01 57.4 154.8

Các tính năng chính

  • ImageNet chứa hơn 14 triệu hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng.
  • Tập dữ liệu được tổ chức theo hệ thống phân cấp WordNet, với mỗi cú pháp đại diện cho một danh mục.
  • ImageNet được sử dụng rộng rãi để đào tạo và đo điểm chuẩn trong lĩnh vực thị giác máy tính, đặc biệt là để phân loại hình ảnh và các tác vụ phát hiện đối tượng.
  • Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là công cụ thúc đẩy nghiên cứu thị giác máy tính.

Cấu trúc tập dữ liệu

Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng cấu trúc phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một thể loại và mỗi danh mục được mô tả bởi một tập hợp cú pháp (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp một nguồn tài nguyên phong phú cho các mô hình đào tạo để nhận ra các đối tượng khác nhau và mối quan hệ của chúng.

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là một sự kiện quan trọng trong lĩnh vực thị giác máy tính. Nó đã cung cấp một nền tảng cho các nhà nghiên cứu và nhà phát triển để đánh giá các thuật toán và mô hình của họ trên một bộ dữ liệu quy mô lớn với các số liệu đánh giá được tiêu chuẩn hóa. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình học sâu để phân loại hình ảnh, phát hiện đối tượng và các nhiệm vụ thị giác máy tính khác.

Ứng dụng

Bộ dữ liệu ImageNet được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong các tác vụ thị giác máy tính khác nhau, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng và bản địa hóa đối tượng. Một số kiến trúc deep learning phổ biến, chẳng hạn như AlexNet, VGG và ResNet, đã được phát triển và đo điểm chuẩn bằng cách sử dụng tập dữ liệu ImageNet.

Sử dụng

Để đào tạo mô hình deep learning trên tập dữ liệu ImageNet cho 100 kỷ nguyên với kích thước hình ảnh 224x224, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Đào tạo mẫu.

Ví dụ về tàu hỏa

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Hình ảnh mẫu và chú thích

Bộ dữ liệu ImageNet chứa hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng, cung cấp bộ dữ liệu đa dạng và phong phú để đào tạo và đánh giá các mô hình thị giác máy tính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:

Hình ảnh mẫu tập dữ liệu

Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong tập dữ liệu ImageNet, làm nổi bật tầm quan trọng của một tập dữ liệu đa dạng để đào tạo các mô hình thị giác máy tính mạnh mẽ.

Trích dẫn và xác nhận

Nếu bạn sử dụng tập dữ liệu ImageNet trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Chúng tôi muốn ghi nhận nhóm ImageNet, dẫn đầu bởi Olga Russakovsky, Jia Deng và Li Fei-Fei, đã tạo và duy trì tập dữ liệu ImageNet như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu thị giác máy và máy tính. Để biết thêm thông tin về tập dữ liệu ImageNet và người tạo ra nó, hãy truy cập trang web ImageNet.

FAQ

Tập dữ liệu ImageNet là gì và nó được sử dụng như thế nào trong thị giác máy tính?

Tập dữ liệu ImageNet là một cơ sở dữ liệu quy mô lớn bao gồm hơn 14 triệu hình ảnh có độ phân giải cao được phân loại bằng cú pháp WordNet. Nó được sử dụng rộng rãi trong nghiên cứu nhận dạng đối tượng trực quan, bao gồm phân loại hình ảnh và phát hiện đối tượng. Các chú thích và khối lượng tuyệt đối của tập dữ liệu cung cấp một nguồn tài nguyên phong phú để đào tạo các mô hình học sâu. Đáng chú ý, các mô hình như AlexNet, VGG và ResNet đã được đào tạo và đo điểm chuẩn bằng ImageNet, thể hiện vai trò của nó trong việc thúc đẩy thị giác máy tính.

Làm thế nào tôi có thể sử dụng một pretrained YOLO mô hình để phân loại hình ảnh trên tập dữ liệu ImageNet?

Để sử dụng một pretrained Ultralytics YOLO mô hình phân loại hình ảnh trên tập dữ liệu ImageNet, hãy làm theo các bước sau:

Ví dụ về tàu hỏa

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Để biết thêm hướng dẫn đào tạo chuyên sâu, hãy tham khảo trang Đào tạo của chúng tôi.

Tại sao tôi nên sử dụng Ultralytics YOLOv8 các mô hình được đào tạo trước cho các dự án tập dữ liệu ImageNet của tôi?

Ultralytics YOLOv8 Các mô hình được đào tạo trước cung cấp hiệu suất hiện đại về tốc độ và độ chính xác cho các tác vụ thị giác máy tính khác nhau. Ví dụ: YOLOv8nMô hình -CLS, với độ chính xác top-1 là 69.0% và độ chính xác top-5 là 88.3%, được tối ưu hóa cho các ứng dụng thời gian thực. Các mô hình được đào tạo trước làm giảm các tài nguyên tính toán cần thiết cho đào tạo từ đầu và đẩy nhanh chu kỳ phát triển. Tìm hiểu thêm về các chỉ số hiệu suất của YOLOv8 mô hình trong phần Mô hình được đào tạo trước ImageNet.

Tập dữ liệu ImageNet được cấu trúc như thế nào và tại sao nó lại quan trọng?

Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng hệ thống phân cấp WordNet, trong đó mỗi nút trong hệ thống phân cấp đại diện cho một danh mục được mô tả bởi một tập hợp (một tập hợp các thuật ngữ đồng nghĩa). Cấu trúc này cho phép chú thích chi tiết, lý tưởng cho các mô hình đào tạo để nhận dạng nhiều đối tượng. Sự đa dạng và phong phú về chú thích của ImageNet làm cho nó trở thành một bộ dữ liệu có giá trị để phát triển các mô hình học sâu mạnh mẽ và có thể khái quát hóa. Thông tin thêm về tổ chức này có thể được tìm thấy trong phần Cấu trúc tập dữ liệu .

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) đóng vai trò gì trong thị giác máy tính?

Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm đã đóng vai trò then chốt trong việc thúc đẩy những tiến bộ trong thị giác máy tính bằng cách cung cấp một nền tảng cạnh tranh để đánh giá các thuật toán trên một bộ dữ liệu tiêu chuẩn hóa quy mô lớn. Nó cung cấp các số liệu đánh giá tiêu chuẩn, thúc đẩy sự đổi mới và phát triển trong các lĩnh vực như phân loại hình ảnh, phát hiện đối tượng và phân đoạn hình ảnh. Thách thức đã liên tục đẩy ranh giới của những gì có thể với công nghệ học sâu và thị giác máy tính.



Đã tạo 2023-11-12, Cập nhật 2024-07-04
Tác giả: glenn-jocher (8), RizwanMunawar (1)

Ý kiến