Bỏ để qua phần nội dung

Tập dữ liệu MNIST

Bộ dữ liệu MNIST (Viện Tiêu chuẩn và Công nghệ Quốc gia Sửa đổi) là một cơ sở dữ liệu lớn gồm các chữ số viết tay thường được sử dụng để đào tạo các hệ thống xử lý hình ảnh và mô hình học máy khác nhau. Nó được tạo ra bằng cách "trộn lại" các mẫu từ bộ dữ liệu gốc của NIST và đã trở thành một chuẩn mực để đánh giá hiệu suất của các thuật toán phân loại hình ảnh.

Các tính năng chính

  • MNIST chứa 60.000 hình ảnh đào tạo và 10.000 hình ảnh thử nghiệm của các chữ số viết tay.
  • Tập dữ liệu bao gồm các hình ảnh thang độ xám có kích thước 28x28 pixel.
  • Các hình ảnh được chuẩn hóa để vừa với hộp giới hạn 28x28 pixel và khử răng cưa, giới thiệu các mức thang độ xám.
  • MNIST được sử dụng rộng rãi để đào tạo và thử nghiệm trong lĩnh vực học máy, đặc biệt là cho các tác vụ phân loại hình ảnh.

Cấu trúc tập dữ liệu

Tập dữ liệu MNIST được chia thành hai tập con:

  1. Bộ đào tạo: Tập hợp con này chứa 60.000 hình ảnh của các chữ số viết tay được sử dụng để đào tạo các mô hình học máy.
  2. Bộ thử nghiệm: Tập hợp con này bao gồm 10.000 hình ảnh được sử dụng để kiểm tra và đo điểm chuẩn cho các mô hình được đào tạo.

MNIST mở rộng (EMNIST)

MNIST mở rộng (EMNIST) là một bộ dữ liệu mới hơn được phát triển và phát hành bởi NIST để kế thừa MNIST. Trong khi MNIST chỉ bao gồm hình ảnh của các chữ số viết tay, EMNIST bao gồm tất cả các hình ảnh từ Cơ sở dữ liệu đặc biệt NIST 19, là một cơ sở dữ liệu lớn về các chữ cái viết hoa và viết thường cũng như các chữ số. Các hình ảnh trong EMNIST đã được chuyển đổi thành cùng định dạng 28x28 pixel, theo quy trình tương tự, cũng như các hình ảnh MNIST. Theo đó, các công cụ hoạt động với bộ dữ liệu MNIST cũ hơn, nhỏ hơn có thể sẽ hoạt động không sửa đổi với EMNIST.

Ứng dụng

Bộ dữ liệu MNIST được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong các tác vụ phân loại hình ảnh, chẳng hạn như Mạng nơ-ron tích chập (CNN), Máy vector hỗ trợ (SVM) và nhiều thuật toán học máy khác. Định dạng đơn giản và có cấu trúc tốt của tập dữ liệu làm cho nó trở thành một nguồn tài nguyên thiết yếu cho các nhà nghiên cứu và các học viên trong lĩnh vực học máy và thị giác máy tính.

Sử dụng

Để đào tạo mô hình CNN trên tập dữ liệu MNIST cho 100 kỷ nguyên với kích thước hình ảnh 32x32, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Đào tạo mẫu.

Ví dụ về tàu hỏa

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Hình ảnh mẫu và chú thích

Bộ dữ liệu MNIST chứa hình ảnh thang độ xám của các chữ số viết tay, cung cấp bộ dữ liệu có cấu trúc tốt cho các tác vụ phân loại hình ảnh. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:

Hình ảnh mẫu tập dữ liệu

Ví dụ này cho thấy sự đa dạng và phức tạp của các chữ số viết tay trong tập dữ liệu MNIST, làm nổi bật tầm quan trọng của bộ dữ liệu đa dạng để đào tạo các mô hình phân loại hình ảnh mạnh mẽ.

Trích dẫn và xác nhận

Nếu bạn sử dụng tập dữ liệu MNIST trong

Công việc nghiên cứu hoặc phát triển, vui lòng trích dẫn bài báo sau:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Chúng tôi muốn ghi nhận Yann LeCun, Corinna Cortes và Christopher JC Burges vì đã tạo và duy trì bộ dữ liệu MNIST như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu thị giác máy và máy tính. Để biết thêm thông tin về tập dữ liệu MNIST và người tạo ra nó, hãy truy cập trang web tập dữ liệu MNIST.



Created 2023-11-12, Updated 2024-06-02
Authors: glenn-jocher (5)

Ý kiến