Bộ dữ liệu CIFAR-100

Q: What is the CIFAR-100 dataset and why is it significant?

Bộ dữ liệu CIFAR-100 là một tập hợp lớn gồm 60.000 ảnh màu 32x32 được phân loại thành 100 lớp. Được phát triển bởi Viện Nghiên cứu Cao cấp Canada (CIFAR), nó cung cấp một bộ dữ liệu đầy thách thức, lý tưởng cho các tác vụ thị giác máy tính và học máy phức tạp. Ý nghĩa của nó nằm ở sự đa dạng của các lớp và kích thước nhỏ của hình ảnh, làm cho nó trở thành một nguồn tài nguyên có giá trị để đào tạo và thử nghiệm các mô hình học sâu, như Mạng nơ-ron tích chập (CNN), sử dụng các framework như Ultralytics YOLO.

Bộ dữ liệu CIFAR-100 (Canadian Institute For Advanced Research) là một phần mở rộng quan trọng của bộ dữ liệu CIFAR-10, bao gồm 60.000 ảnh màu 32x32 trong 100 lớp khác nhau. Nó được phát triển bởi các nhà nghiên cứu tại viện CIFAR, cung cấp một bộ dữ liệu khó hơn cho các tác vụ thị giác máy tính và học máy phức tạp hơn.

Xem: Cách huấn luyện Ultralytics YOLO26 trên CIFAR-100 | Hướng dẫn phân loại hình ảnh từng bước 🚀

Các tính năng chính

Bộ dữ liệu CIFAR-100 bao gồm 60.000 hình ảnh, được chia thành 100 lớp.
Mỗi lớp chứa 600 hình ảnh, được chia thành 500 cho huấn luyện và 100 cho kiểm thử.
Các hình ảnh có màu và có kích thước 32x32 pixel.
100 lớp khác nhau được nhóm thành 20 danh mục thô để phân loại cấp cao hơn.
CIFAR-100 thường được sử dụng để huấn luyện và kiểm thử trong lĩnh vực học máy và thị giác máy tính.

Cấu trúc bộ dữ liệu

Bộ dữ liệu CIFAR-100 được chia thành hai tập hợp con:

Tập huấn luyện: Tập hợp con này chứa 50.000 hình ảnh được sử dụng để huấn luyện các mô hình học máy.
Tập kiểm thử: Tập hợp con này bao gồm 10.000 hình ảnh được sử dụng để kiểm thử và đánh giá các mô hình đã huấn luyện.

Các ứng dụng

Bộ dữ liệu CIFAR-100 được sử dụng rộng rãi để huấn luyện và đánh giá các mô hình học sâu trong các tác vụ phân loại hình ảnh, chẳng hạn như Mạng nơ-ron tích chập (CNN), Máy vectơ hỗ trợ (SVM) và nhiều thuật toán học máy khác. Sự đa dạng của bộ dữ liệu về các lớp và sự hiện diện của hình ảnh màu làm cho nó trở thành một bộ dữ liệu đầy thách thức và toàn diện hơn cho nghiên cứu và phát triển trong lĩnh vực học máy và thị giác máy tính.

Cách sử dụng

Để huấn luyện mô hình YOLO trên bộ dữ liệu CIFAR-100 trong 100 epochs với kích thước ảnh là 32x32, bạn có thể sử dụng các đoạn mã sau. Để có danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Huấn luyện mô hình.

Ví dụ huấn luyện

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="cifar100", epochs=100, imgsz=32)

# Start training from a pretrained *.pt model
yolo classify train data=cifar100 model=yolo26n-cls.pt epochs=100 imgsz=32

Ảnh và Chú thích mẫu

Bộ dữ liệu CIFAR-100 chứa hình ảnh màu của nhiều đối tượng khác nhau, cung cấp một bộ dữ liệu có cấu trúc tốt cho các tác vụ phân loại hình ảnh. Dưới đây là một số ví dụ về hình ảnh từ bộ dữ liệu:

Các mẫu dữ liệu phân loại hình ảnh CIFAR-100

Ví dụ này thể hiện sự đa dạng và phức tạp của các đối tượng trong bộ dữ liệu CIFAR-100, làm nổi bật tầm quan trọng của một bộ dữ liệu đa dạng để huấn luyện các mô hình phân loại hình ảnh mạnh mẽ.

Trích dẫn và Lời cảm ơn

Nếu bạn sử dụng bộ dữ liệu CIFAR-100 trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

BibTeX

@TECHREPORT{Krizhevsky09learningmultiple,
            author={Alex Krizhevsky},
            title={Learning multiple layers of features from tiny images},
            institution={},
            year={2009}
}

Chúng tôi xin ghi nhận công lao của Alex Krizhevsky vì đã tạo ra và duy trì bộ dữ liệu CIFAR-100 như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu thị giác máy tính và học máy. Để biết thêm thông tin về bộ dữ liệu CIFAR-100 và người tạo ra nó, hãy truy cập trang web bộ dữ liệu CIFAR-100.

Câu hỏi thường gặp

Tập dữ liệu CIFAR-100 là gì và tại sao nó lại quan trọng?

Bộ dữ liệu CIFAR-100 dataset là một tập hợp lớn gồm 60.000 hình ảnh màu 32x32 được phân loại thành 100 lớp. Được phát triển bởi Viện Nghiên cứu Cao cấp Canada (CIFAR), nó cung cấp một bộ dữ liệu đầy thách thức, lý tưởng cho các tác vụ computer vision và machine learning phức tạp. Tầm quan trọng của nó nằm ở sự đa dạng của các lớp và kích thước nhỏ của hình ảnh, làm cho nó trở thành một nguồn tài nguyên có giá trị để đào tạo và kiểm tra các mô hình deep learning, như Convolutional Neural Networks (CNNs), sử dụng các framework như Ultralytics YOLO.

Làm cách nào để huấn luyện mô hình YOLO trên tập dữ liệu CIFAR-100?

Bạn có thể huấn luyện mô hình YOLO trên bộ dữ liệu CIFAR-100 bằng lệnh Python hoặc CLI. Đây là cách thực hiện:

Ví dụ huấn luyện

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="cifar100", epochs=100, imgsz=32)

# Start training from a pretrained *.pt model
yolo classify train data=cifar100 model=yolo26n-cls.pt epochs=100 imgsz=32

Để có danh sách đầy đủ các đối số có sẵn, vui lòng tham khảo trang Huấn luyện mô hình.

Các ứng dụng chính của tập dữ liệu CIFAR-100 là gì?

Bộ dữ liệu CIFAR-100 được sử dụng rộng rãi trong việc huấn luyện và đánh giá các mô hình học sâu để phân loại hình ảnh. Tập hợp đa dạng gồm 100 lớp, được nhóm thành 20 danh mục thô, cung cấp một môi trường đầy thách thức để kiểm tra các thuật toán như Mạng nơ-ron tích chập (CNN), Máy vectơ hỗ trợ (SVM) và nhiều phương pháp học máy khác. Bộ dữ liệu này là một nguồn tài nguyên quan trọng trong nghiên cứu và phát triển trong các lĩnh vực học máy và thị giác máy tính, đặc biệt là cho các tác vụ nhận dạng đối tượng và phân loại.

Bộ dữ liệu CIFAR-100 được cấu trúc như thế nào?

Bộ dữ liệu CIFAR-100 được chia thành hai tập hợp con chính:

Tập huấn luyện: Chứa 50.000 hình ảnh được sử dụng để huấn luyện các mô hình học máy.
Tập kiểm thử: Bao gồm 10.000 ảnh được sử dụng để kiểm thử và đánh giá các mô hình đã huấn luyện.

Mỗi lớp trong số 100 lớp chứa 600 ảnh, với 500 ảnh cho quá trình huấn luyện và 100 ảnh cho quá trình kiểm thử, điều này làm cho nó phù hợp một cách độc đáo cho nghiên cứu học thuật và công nghiệp.

Tôi có thể tìm thấy sample_images và chú thích từ bộ dữ liệu CIFAR-100 ở đâu?

Bộ dữ liệu CIFAR-100 bao gồm nhiều hình ảnh màu của nhiều đối tượng khác nhau, làm cho nó trở thành một bộ dữ liệu có cấu trúc cho các tác vụ phân loại hình ảnh. Bạn có thể tham khảo trang tài liệu để xem hình ảnh và chú thích mẫu. Những ví dụ này làm nổi bật sự đa dạng và phức tạp của bộ dữ liệu, điều quan trọng để huấn luyện các mô hình phân loại hình ảnh mạnh mẽ. Để biết thêm các bộ dữ liệu phù hợp cho các tác vụ phân loại, hãy xem tổng quan về các bộ dữ liệu phân loại của Ultralytics.

📅 Được tạo 2 năm trước ✍️ Cập nhật 3 tháng trước