Chuyển đến nội dung

MNIST Bộ dữ liệu

Bộ dữ liệu MNIST (Viện Tiêu chuẩn và Công nghệ Quốc gia Sửa đổi) là một cơ sở dữ liệu lớn chứa các chữ số viết tay, thường được sử dụng để huấn luyện nhiều hệ thống xử lý hình ảnh và mô hình học máy. Nó được tạo ra bằng cách "trộn lại" các mẫu từ bộ dữ liệu gốc của NIST và đã trở thành chuẩn mực để đánh giá hiệu suất của các thuật toán phân loại hình ảnh .

Các tính năng chính

  • MNIST chứa 60.000 hình ảnh đào tạo và 10.000 hình ảnh thử nghiệm chữ số viết tay.
  • Bộ dữ liệu bao gồm các hình ảnh thang độ xám có kích thước 28×28 pixel.
  • Hình ảnh được chuẩn hóa để phù hợp với hộp giới hạn 28×28 pixel và khử răng cưa, giới thiệu các mức độ xám.
  • MNIST được sử dụng rộng rãi để đào tạo và thử nghiệm trong lĩnh vực học máy, đặc biệt là đối với các nhiệm vụ phân loại hình ảnh.

Cấu trúc bộ dữ liệu

Các MNIST tập dữ liệu được chia thành hai tập con:

  1. Tập huấn luyện: Tập hợp con này chứa 60.000 hình ảnh chữ số viết tay được sử dụng để huấn luyện các mô hình học máy.
  2. Tập kiểm thử: Tập hợp con này bao gồm 10.000 hình ảnh được sử dụng để kiểm thử và đánh giá các mô hình đã huấn luyện.

Truy cập tập dữ liệu

  • Tệp gốc : Tải xuống kho lưu trữ gzip từ trang MNIST của Yann LeCun nếu bạn muốn kiểm soát trực tiếp quá trình xử lý trước.
  • Ultralytics người nạp đạn: Sử dụng data="mnist" (hoặc data="mnist160" đối với tập hợp con bên dưới) trong lệnh của bạn và tập dữ liệu sẽ được tải xuống, chuyển đổi sang PNG và tự động lưu vào bộ nhớ đệm.

Mỗi hình ảnh trong bộ dữ liệu được gắn nhãn bằng chữ số tương ứng (0-9), làm cho nó trở thành một bộ dữ liệu học có giám sát lý tưởng cho các tác vụ phân loại.

Mở rộng MNIST (EMNIST)

Mở rộng MNIST (EMNIST) là một tập dữ liệu mới hơn được NIST phát triển và phát hành để kế thừa MNIST . Trong khi MNIST EMNIST chỉ bao gồm hình ảnh chữ số viết tay, EMNIST bao gồm tất cả hình ảnh từ Cơ sở dữ liệu Đặc biệt NIST 19, một cơ sở dữ liệu lớn chứa chữ viết tay, chữ in hoa, chữ thường và chữ số. Hình ảnh trong EMNIST được chuyển đổi sang cùng định dạng pixel 28x28, bằng cùng một quy trình, như MNIST hình ảnh. Theo đó, các công cụ hoạt động với hình ảnh cũ hơn, nhỏ hơn MNIST tập dữ liệu có thể hoạt động mà không cần sửa đổi với EMNIST.

Các ứng dụng

Các MNIST Bộ dữ liệu được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong các tác vụ phân loại hình ảnh, chẳng hạn như Mạng Nơ-ron Tích chập (CNN), Máy Vector Hỗ trợ (SVM) và nhiều thuật toán học máy khác. Định dạng đơn giản và có cấu trúc tốt của bộ dữ liệu khiến nó trở thành một nguồn tài nguyên thiết yếu cho các nhà nghiên cứu và chuyên gia trong lĩnh vực học máythị giác máy tính .

Một số ứng dụng phổ biến bao gồm:

  • Đánh giá các thuật toán phân loại mới
  • Mục đích giáo dục để giảng dạy các khái niệm về máy học
  • Tạo mẫu hệ thống nhận dạng ảnh
  • Kiểm tra các kỹ thuật tối ưu hóa mô hình

Cách sử dụng

Để đào tạo một mô hình CNN trên MNIST Đối với tập dữ liệu 100 kỷ nguyên với kích thước ảnh 28x28, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Ảnh và Chú thích mẫu

Các MNIST Bộ dữ liệu chứa ảnh xám của các chữ số viết tay, cung cấp một bộ dữ liệu có cấu trúc tốt cho các tác vụ phân loại hình ảnh. Dưới đây là một số ví dụ về hình ảnh từ bộ dữ liệu:

Ảnh mẫu bộ dữ liệu

Ví dụ này cho thấy sự đa dạng và phức tạp của các chữ số viết tay trong MNIST tập dữ liệu, làm nổi bật tầm quan trọng của tập dữ liệu đa dạng để đào tạo các mô hình phân loại hình ảnh mạnh mẽ.

Trích dẫn và Lời cảm ơn

Nếu bạn sử dụng MNIST tập dữ liệu trong công trình nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn bài báo sau:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Chúng tôi muốn cảm ơn Yann LeCun, Corinna Cortes và Christopher JC Burges vì đã tạo ra và duy trì MNIST bộ dữ liệu như một nguồn tài nguyên có giá trị cho cộng đồng nghiên cứu học máy và thị giác máy tính. Để biết thêm thông tin về MNIST bộ dữ liệu và những người tạo ra nó, hãy truy cập trang web bộ dữ liệu MNIST .

Bài kiểm tra nhanh MNIST160

Bạn cần một bài kiểm tra hồi quy cực nhanh? Ultralytics cũng phơi bày data="mnist160", một phần 160 ảnh chứa tám mẫu đầu tiên từ mỗi lớp chữ số. Nó phản ánh cấu trúc thư mục MNIST, vì vậy bạn có thể hoán đổi các tập dữ liệu mà không cần thay đổi bất kỳ tham số nào khác:

Ví dụ đào tạo với MNIST160

yolo classify train data=mnist160 model=yolo11n-cls.pt epochs=5 imgsz=28

Sử dụng tập hợp con này cho các đường ống CI hoặc kiểm tra tính hợp lý trước khi cam kết sử dụng toàn bộ tập dữ liệu 70.000 hình ảnh.

Câu hỏi thường gặp

Cái gì là MNIST tập dữ liệu và tại sao nó lại quan trọng trong học máy?

Bộ dữ liệu MNIST , hay bộ dữ liệu của Viện Tiêu chuẩn và Công nghệ Quốc gia Sửa đổi, là một tập hợp các chữ số viết tay được sử dụng rộng rãi, được thiết kế để đào tạo và kiểm tra các hệ thống phân loại hình ảnh. Bộ dữ liệu bao gồm 60.000 ảnh đào tạo và 10.000 ảnh kiểm tra, tất cả đều ở dạng thang độ xám và kích thước 28x28 pixel. Tầm quan trọng của bộ dữ liệu nằm ở vai trò là chuẩn mực để đánh giá các thuật toán phân loại hình ảnh, giúp các nhà nghiên cứu và kỹ sư so sánh các phương pháp và track tiến bộ trong lĩnh vực này.

Tôi có thể sử dụng như thế nào? Ultralytics YOLO để đào tạo một mô hình trên MNIST tập dữ liệu?

Để đào tạo một mô hình trên MNIST tập dữ liệu sử dụng Ultralytics YOLO , bạn có thể làm theo các bước sau:

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Để có danh sách chi tiết về các đối số huấn luyện có sẵn, hãy tham khảo trang Huấn luyện.

Sự khác biệt giữa là gì? MNIST và bộ dữ liệu EMNIST?

Các MNIST tập dữ liệu chỉ chứa các chữ số viết tay, trong khi Mở rộng MNIST Bộ dữ liệu (EMNIST) bao gồm cả chữ số và chữ cái viết hoa và viết thường. EMNIST được phát triển như một phiên bản kế thừa của MNIST và sử dụng cùng định dạng pixel 28×28 cho hình ảnh, làm cho nó tương thích với các công cụ và mô hình được thiết kế cho bản gốc MNIST tập dữ liệu. Phạm vi ký tự rộng hơn này trong EMNIST giúp nó hữu ích cho nhiều ứng dụng học máy hơn.

Tôi có thể sử dụng Ultralytics HUB để đào tạo các mô hình trên các tập dữ liệu tùy chỉnh như MNIST ?

Có, bạn có thể sử dụng Ultralytics HUB để đào tạo các mô hình trên các tập dữ liệu tùy chỉnh như MNIST . Ultralytics HUB cung cấp giao diện thân thiện với người dùng để tải lên tập dữ liệu, đào tạo mô hình và quản lý dự án mà không cần kiến thức lập trình chuyên sâu. Để biết thêm chi tiết về cách bắt đầu, hãy xem trang Bắt đầu Nhanh của Ultralytics HUB .

Làm thế nào MNIST so sánh với các tập dữ liệu phân loại hình ảnh khác?

MNIST đơn giản hơn nhiều bộ dữ liệu hiện đại như CIFAR-10 hoặc ImageNet , lý tưởng cho người mới bắt đầu và những người muốn thử nghiệm nhanh. Trong khi các bộ dữ liệu phức tạp hơn đặt ra nhiều thách thức hơn với hình ảnh màu và các danh mục đối tượng đa dạng, MNIST vẫn có giá trị nhờ tính đơn giản, kích thước tệp nhỏ và ý nghĩa lịch sử trong việc phát triển các thuật toán học máy. Đối với các tác vụ phân loại nâng cao hơn, hãy cân nhắc sử dụng Fashion- MNIST , vốn vẫn giữ nguyên cấu trúc nhưng hiển thị các mặt hàng quần áo thay vì chữ số.



📅 Đã tạo 2 năm trước ✏️ Cập nhật 25 ngày trước
glenn-jocherpderrengerUltralyticsAssistantMatthewNoycejk4e

Bình luận