Chuyển đến nội dung

Bộ dữ liệu MNIST

Bộ dữ liệu MNIST (Viện Tiêu chuẩn và Công nghệ Quốc gia Sửa đổi) là một cơ sở dữ liệu lớn về các chữ số viết tay thường được sử dụng để đào tạo các hệ thống xử lý hình ảnh và mô hình machine learning khác nhau. Nó được tạo ra bằng cách "trộn lại" các mẫu từ bộ dữ liệu gốc của NIST và đã trở thành một chuẩn mực để đánh giá hiệu suất của các thuật toán phân loại hình ảnh.

Các tính năng chính

  • MNIST chứa 60.000 hình ảnh huấn luyện và 10.000 hình ảnh kiểm tra các chữ số viết tay.
  • Bộ dữ liệu bao gồm các hình ảnh thang độ xám có kích thước 28×28 pixel.
  • Hình ảnh được chuẩn hóa để phù hợp với hộp giới hạn 28×28 pixel và khử răng cưa, giới thiệu các mức độ xám.
  • MNIST được sử dụng rộng rãi để huấn luyện và kiểm tra trong lĩnh vực học máy, đặc biệt là cho các tác vụ phân loại hình ảnh.

Cấu trúc bộ dữ liệu

Bộ dữ liệu MNIST được chia thành hai tập hợp con:

  1. Tập huấn luyện: Tập hợp con này chứa 60.000 hình ảnh chữ số viết tay được sử dụng để huấn luyện các mô hình học máy.
  2. Tập kiểm thử: Tập hợp con này bao gồm 10.000 hình ảnh được sử dụng để kiểm thử và đánh giá các mô hình đã huấn luyện.

Mỗi hình ảnh trong bộ dữ liệu được gắn nhãn bằng chữ số tương ứng (0-9), làm cho nó trở thành một bộ dữ liệu học có giám sát lý tưởng cho các tác vụ phân loại.

Extended MNIST (EMNIST)

Extended MNIST (EMNIST) là một bộ dữ liệu mới hơn được phát triển và phát hành bởi NIST để kế thừa MNIST. Trong khi MNIST chỉ bao gồm hình ảnh chữ số viết tay, EMNIST bao gồm tất cả các hình ảnh từ Cơ sở dữ liệu đặc biệt 19 của NIST, đây là một cơ sở dữ liệu lớn chứa các chữ cái viết hoa và viết thường cũng như các chữ số viết tay. Các hình ảnh trong EMNIST đã được chuyển đổi thành cùng một định dạng pixel 28×28, bằng cùng một quy trình, như các hình ảnh MNIST. Theo đó, các công cụ hoạt động với bộ dữ liệu MNIST cũ hơn, nhỏ hơn có thể sẽ hoạt động mà không cần sửa đổi với EMNIST.

Các ứng dụng

Bộ dữ liệu MNIST được sử dụng rộng rãi để huấn luyện và đánh giá các mô hình học sâu trong các tác vụ phân loại ảnh, chẳng hạn như Mạng nơ-ron tích chập (CNN), Máy vectơ hỗ trợ (SVM) và các thuật toán học máy khác. Định dạng đơn giản và có cấu trúc tốt của bộ dữ liệu này khiến nó trở thành một nguồn tài nguyên thiết yếu cho các nhà nghiên cứu và người thực hành trong lĩnh vực học máythị giác máy tính.

Một số ứng dụng phổ biến bao gồm:

  • Đánh giá các thuật toán phân loại mới
  • Mục đích giáo dục để giảng dạy các khái niệm về máy học
  • Tạo mẫu hệ thống nhận dạng ảnh
  • Kiểm tra các kỹ thuật tối ưu hóa mô hình

Cách sử dụng

Để huấn luyện mô hình CNN trên bộ dữ liệu MNIST trong 100 epochs với kích thước ảnh là 32×32, bạn có thể sử dụng các đoạn mã sau. Để có danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Huấn luyện của mô hình.

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Ảnh và Chú thích mẫu

Bộ dữ liệu MNIST chứa hình ảnh thang độ xám của các chữ số viết tay, cung cấp một bộ dữ liệu có cấu trúc tốt cho các tác vụ phân loại hình ảnh. Dưới đây là một số ví dụ về hình ảnh từ bộ dữ liệu:

Ảnh mẫu bộ dữ liệu

Ví dụ này thể hiện sự đa dạng và phức tạp của các chữ số viết tay trong bộ dữ liệu MNIST, làm nổi bật tầm quan trọng của một bộ dữ liệu đa dạng để huấn luyện các mô hình phân loại hình ảnh mạnh mẽ.

Trích dẫn và Lời cảm ơn

Nếu bạn sử dụng bộ dữ liệu MNIST trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Chúng tôi xin ghi nhận công lao của Yann LeCun, Corinna Cortes và Christopher J.C. Burges vì đã tạo ra và duy trì bộ dữ liệu MNIST như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu thị giác máy tính và học máy. Để biết thêm thông tin về bộ dữ liệu MNIST và những người tạo ra nó, hãy truy cập trang web bộ dữ liệu MNIST.

Câu hỏi thường gặp

Bộ dữ liệu MNIST là gì và tại sao nó lại quan trọng trong học máy?

Bộ dữ liệu MNIST, hay Bộ dữ liệu Viện Tiêu chuẩn và Công nghệ Quốc gia Sửa đổi, là một bộ sưu tập chữ số viết tay được sử dụng rộng rãi, được thiết kế để đào tạo và kiểm tra các hệ thống phân loại hình ảnh. Nó bao gồm 60.000 hình ảnh đào tạo và 10.000 hình ảnh kiểm tra, tất cả đều ở thang độ xám và có kích thước 28×28 pixel. Tầm quan trọng của bộ dữ liệu nằm ở vai trò của nó như một chuẩn mực tiêu chuẩn để đánh giá các thuật toán phân loại hình ảnh, giúp các nhà nghiên cứu và kỹ sư so sánh các phương pháp và theo dõi tiến trình trong lĩnh vực này.

Làm cách nào tôi có thể sử dụng Ultralytics YOLO để huấn luyện một mô hình trên bộ dữ liệu MNIST?

Để huấn luyện mô hình trên bộ dữ liệu MNIST bằng Ultralytics YOLO, bạn có thể làm theo các bước sau:

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Để có danh sách chi tiết về các đối số huấn luyện có sẵn, hãy tham khảo trang Huấn luyện.

Sự khác biệt giữa bộ dữ liệu MNIST và EMNIST là gì?

Bộ dữ liệu MNIST chỉ chứa các chữ số viết tay, trong khi bộ dữ liệu MNIST mở rộng (EMNIST) bao gồm cả chữ số, chữ hoa và chữ thường. EMNIST được phát triển như một phiên bản kế thừa của MNIST và sử dụng cùng định dạng ảnh 28×28 pixel, giúp nó tương thích với các công cụ và mô hình được thiết kế cho bộ dữ liệu MNIST gốc. Phạm vi ký tự rộng hơn trong EMNIST làm cho nó hữu ích cho nhiều ứng dụng học máy.

Tôi có thể sử dụng Ultralytics HUB để huấn luyện các mô hình trên các bộ dữ liệu tùy chỉnh như MNIST không?

Có, bạn có thể sử dụng Ultralytics HUB để huấn luyện các mô hình trên các bộ dữ liệu tùy chỉnh như MNIST. Ultralytics HUB cung cấp một giao diện thân thiện với người dùng để tải lên bộ dữ liệu, huấn luyện mô hình và quản lý các dự án mà không cần kiến thức chuyên sâu về code. Để biết thêm chi tiết về cách bắt đầu, hãy xem trang Ultralytics HUB Quickstart.

MNIST so sánh với các bộ dữ liệu phân loại hình ảnh khác như thế nào?

MNIST đơn giản hơn nhiều bộ dữ liệu hiện đại như CIFAR-10 hoặc ImageNet, khiến nó trở nên lý tưởng cho người mới bắt đầu và thử nghiệm nhanh chóng. Mặc dù các bộ dữ liệu phức tạp hơn đưa ra những thách thức lớn hơn với hình ảnh màu và các danh mục đối tượng đa dạng, MNIST vẫn có giá trị vì tính đơn giản, kích thước tệp nhỏ và ý nghĩa lịch sử trong sự phát triển của các thuật toán học máy. Đối với các tác vụ phân loại nâng cao hơn, hãy cân nhắc sử dụng Fashion-MNIST, bộ dữ liệu này duy trì cấu trúc tương tự nhưng có các mặt hàng quần áo thay vì chữ số.



📅 Đã tạo 1 năm trước ✏️ Cập nhật 5 tháng trước

Bình luận