Meet YOLO26: next-gen vision AI.

Link to this sectionTập dữ liệu MNIST#

Tập dữ liệu MNIST (Modified National Institute of Standards and Technology) là một cơ sở dữ liệu lớn các chữ số viết tay, thường được sử dụng để huấn luyện các hệ thống xử lý ảnh và model học máy khác nhau. Nó được tạo ra bằng cách "tái trộn" các mẫu từ tập dữ liệu gốc của NIST và đã trở thành một tiêu chuẩn để đánh giá hiệu suất của các thuật toán phân loại ảnh.

Link to this sectionTính năng chính#

  • MNIST chứa 60.000 ảnh huấn luyện và 10.000 ảnh kiểm tra các chữ số viết tay.
  • Tập dữ liệu bao gồm các ảnh thang độ xám với kích thước 28×28 pixel.
  • Các ảnh được chuẩn hóa để vừa với bounding box 28×28 pixel và được khử răng cưa, tạo ra các mức thang độ xám.
  • MNIST được sử dụng rộng rãi cho việc huấn luyện và kiểm tra trong lĩnh vực học máy, đặc biệt là cho các tác vụ phân loại ảnh.

Link to this sectionCấu trúc tập dữ liệu#

Tập dữ liệu MNIST được chia thành hai tập con:

  1. Tập huấn luyện (Training Set): Tập con này chứa 60.000 ảnh chữ số viết tay được sử dụng để huấn luyện các model học máy.
  2. Tập kiểm tra (Testing Set): Tập con này bao gồm 10.000 ảnh được sử dụng để kiểm tra và đánh giá các model đã được huấn luyện.

Link to this sectionTruy cập tập dữ liệu#

  • Các tệp gốc: Tải xuống các tệp lưu trữ gzip từ kho lưu trữ MNIST gốc nếu bạn muốn kiểm soát trực tiếp quá trình tiền xử lý.
  • Bộ tải Ultralytics: Sử dụng data="mnist" (hoặc data="mnist160" cho tập con bên dưới) trong câu lệnh của bạn và tập dữ liệu sẽ được tự động tải xuống, chuyển đổi sang định dạng PNG và lưu vào bộ nhớ đệm.

Mỗi ảnh trong tập dữ liệu đều được dán nhãn với chữ số tương ứng (0-9), khiến nó trở thành tập dữ liệu học có giám sát lý tưởng cho các tác vụ phân loại.

Link to this sectionExtended MNIST (EMNIST)#

Extended MNIST (EMNIST) là một tập dữ liệu mới hơn được phát triển và phát hành bởi NIST để kế thừa MNIST. Trong khi MNIST chỉ bao gồm các ảnh chữ số viết tay, EMNIST bao gồm tất cả các ảnh từ NIST Special Database 19, một cơ sở dữ liệu lớn về các chữ cái viết hoa và viết thường viết tay cũng như các chữ số. Các ảnh trong EMNIST được chuyển đổi sang cùng định dạng 28×28 pixel bằng cùng quy trình như ảnh MNIST. Do đó, các công cụ hoạt động với tập dữ liệu MNIST cũ, nhỏ hơn có khả năng sẽ hoạt động mà không cần sửa đổi với EMNIST.

Link to this sectionỨng dụng#

Tập dữ liệu MNIST được sử dụng rộng rãi để huấn luyện và đánh giá các model deep learning trong các tác vụ phân loại ảnh, như Convolutional Neural Networks (CNN), Support Vector Machines (SVM) và nhiều thuật toán học máy khác. Định dạng đơn giản và có cấu trúc tốt của tập dữ liệu khiến nó trở thành tài nguyên thiết yếu cho các nhà nghiên cứu và kỹ sư trong lĩnh vực học máythị giác máy tính.

Một số ứng dụng phổ biến bao gồm:

  • Đánh giá các thuật toán phân loại mới
  • Mục đích giáo dục để giảng dạy các khái niệm học máy
  • Tạo mẫu nhanh cho các hệ thống nhận diện ảnh
  • Kiểm tra các kỹ thuật tối ưu hóa model

Link to this sectionCách sử dụng#

Để huấn luyện một model CNN trên tập dữ liệu MNIST trong 100 epochs với kích thước ảnh là 28×28, bạn có thể sử dụng các đoạn code sau. Để xem danh sách đầy đủ các tham số khả dụng, hãy tham khảo trang Huấn luyện (Training).

Ví dụ về Training
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

Link to this sectionHình ảnh mẫu và chú thích#

Tập dữ liệu MNIST chứa các ảnh thang độ xám của các chữ số viết tay, cung cấp một tập dữ liệu có cấu trúc tốt cho các tác vụ phân loại ảnh. Dưới đây là một số ví dụ về ảnh từ tập dữ liệu:

Các mẫu tập dữ liệu phân loại chữ số viết tay MNIST

Ví dụ này thể hiện sự đa dạng và phức tạp của các chữ số viết tay trong tập dữ liệu MNIST, làm nổi bật tầm quan trọng của một tập dữ liệu đa dạng để huấn luyện các model phân loại ảnh mạnh mẽ.

Link to this sectionTrích dẫn và Ghi nhận#

Nếu bạn sử dụng tập dữ liệu MNIST trong nghiên cứu hoặc công việc phát triển của mình, vui lòng trích dẫn bài báo sau:

Trích dẫn
@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]},
         volume={2},
         year={2010}
}

Chúng tôi xin gửi lời cảm ơn đến Yann LeCun, Corinna Cortes và Christopher J.C. Burges vì đã tạo ra và duy trì tập dữ liệu MNIST như một tài nguyên quý giá cho cộng đồng nghiên cứu học máy và thị giác máy tính. Để biết thêm thông tin về tập dữ liệu MNIST và những người tạo ra nó, hãy truy cập trang web tập dữ liệu MNIST.

Link to this sectionKiểm tra nhanh với MNIST160#

Cần một bài kiểm tra hồi quy siêu nhanh? Ultralytics cũng cung cấp data="mnist160", một lát cắt gồm 160 ảnh chứa tám ảnh đầu tiên của mỗi chữ số (0-9) từ cả tập huấn luyện và tập kiểm tra. Nó phản chiếu cấu trúc thư mục của MNIST, vì vậy bạn có thể hoán đổi các tập dữ liệu mà không cần thay đổi bất kỳ tham số nào khác:

Ví dụ huấn luyện với MNIST160
yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28

Sử dụng tập con này cho các pipeline CI hoặc kiểm tra tính hợp lý trước khi cam kết với tập dữ liệu đầy đủ gồm 70.000 ảnh.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionTập dữ liệu MNIST là gì và tại sao nó quan trọng trong học máy?#

Tập dữ liệu MNIST, hay tập dữ liệu Modified National Institute of Standards and Technology, là một bộ sưu tập các chữ số viết tay được sử dụng rộng rãi, được thiết kế để huấn luyện và kiểm tra các hệ thống phân loại ảnh. Nó bao gồm 60.000 ảnh huấn luyện và 10.000 ảnh kiểm tra, tất cả đều ở định dạng thang độ xám và có kích thước 28×28 pixel. Tầm quan trọng của tập dữ liệu nằm ở vai trò như một tiêu chuẩn để đánh giá các thuật toán phân loại ảnh, giúp các nhà nghiên cứu và kỹ sư so sánh các phương pháp và theo dõi tiến độ trong lĩnh vực này.

Link to this sectionLàm thế nào tôi có thể sử dụng Ultralytics YOLO để huấn luyện model trên tập dữ liệu MNIST?#

Để huấn luyện một model trên tập dữ liệu MNIST bằng Ultralytics YOLO, bạn có thể thực hiện theo các bước sau:

Ví dụ về Training
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

Để biết danh sách chi tiết các tham số huấn luyện khả dụng, hãy tham khảo trang Huấn luyện (Training).

Link to this sectionSự khác biệt giữa tập dữ liệu MNIST và EMNIST là gì?#

Tập dữ liệu MNIST chỉ chứa các chữ số viết tay, trong khi tập dữ liệu Extended MNIST (EMNIST) bao gồm cả chữ số, chữ cái viết hoa và chữ cái viết thường. EMNIST được phát triển như một sự kế thừa của MNIST và sử dụng cùng định dạng 28×28 pixel cho các ảnh, giúp nó tương thích với các công cụ và model được thiết kế cho tập dữ liệu MNIST gốc. Phạm vi ký tự rộng hơn trong EMNIST khiến nó hữu ích cho nhiều ứng dụng học máy đa dạng hơn.

Link to this sectionTôi có thể sử dụng Ultralytics Platform để huấn luyện các model trên tập dữ liệu tùy chỉnh như MNIST không?#

Có, bạn có thể sử dụng Ultralytics Platform để huấn luyện các model trên các tập dữ liệu tùy chỉnh như MNIST. Ultralytics Platform cung cấp giao diện thân thiện với người dùng để tải lên tập dữ liệu, huấn luyện model và quản lý dự án mà không cần nhiều kiến thức lập trình. Để biết thêm chi tiết về cách bắt đầu, hãy xem trang Hướng dẫn nhanh Ultralytics Platform.

Link to this sectionMNIST so sánh thế nào với các tập dữ liệu phân loại ảnh khác?#

MNIST đơn giản hơn nhiều tập dữ liệu hiện đại như CIFAR-10 hoặc ImageNet, khiến nó trở nên lý tưởng cho người mới bắt đầu và thử nghiệm nhanh. Mặc dù các tập dữ liệu phức tạp hơn mang lại nhiều thách thức hơn với ảnh màu và các danh mục đối tượng đa dạng, MNIST vẫn có giá trị nhờ sự đơn giản, kích thước tệp nhỏ và ý nghĩa lịch sử trong sự phát triển của các thuật toán học máy. Đối với các tác vụ phân loại nâng cao hơn, hãy cân nhắc sử dụng Fashion-MNIST, tập dữ liệu này duy trì cùng cấu trúc nhưng chứa các mặt hàng quần áo thay vì chữ số.

Bình luận