Tập dữ liệu Caltech-101
Tập dữ liệu Caltech-101 là một tập dữ liệu được sử dụng rộng rãi cho các tác vụ nhận dạng đối tượng, chứa khoảng 9.000 hình ảnh thuộc 101 danh mục đối tượng. Các danh mục này được chọn để phản ánh sự đa dạng của các đối tượng trong thế giới thực, và bản thân các hình ảnh được lựa chọn và chú thích cẩn thận để cung cấp một tiêu chuẩn đánh giá đầy thách thức cho các thuật toán nhận dạng đối tượng.
Tập dữ liệu Caltech-101, như được cung cấp, không đi kèm với các phần chia train/validation được xác định trước. Tuy nhiên, khi bạn sử dụng các lệnh huấn luyện được cung cấp trong các ví dụ sử dụng dưới đây, framework Ultralytics sẽ tự động phân tách tập dữ liệu cho bạn. Tỷ lệ phân tách mặc định được sử dụng là 80% cho tập huấn luyện và 20% cho tập kiểm thử (validation).
Các tính năng chính
- Tập dữ liệu Caltech-101 bao gồm khoảng 9.000 hình ảnh màu được chia thành 101 danh mục.
- Các danh mục bao gồm nhiều loại đối tượng, bao gồm động vật, phương tiện, vật dụng gia đình và con người.
- Số lượng hình ảnh trong mỗi danh mục khác nhau, với khoảng 40 đến 800 hình ảnh trong mỗi danh mục.
- Hình ảnh có kích thước thay đổi, với hầu hết các hình ảnh ở độ phân giải trung bình.
- Caltech-101 được sử dụng rộng rãi cho việc huấn luyện và kiểm thử trong lĩnh vực machine learning, đặc biệt là cho các tác vụ nhận dạng đối tượng.
Cấu trúc tập dữ liệu
Không giống như nhiều tập dữ liệu khác, tập dữ liệu Caltech-101 không được phân chia chính thức thành các tập huấn luyện và kiểm thử. Người dùng thường tự tạo các phần chia dựa trên nhu cầu cụ thể của họ. Tuy nhiên, một cách thực hành phổ biến là sử dụng một tập hợp con ngẫu nhiên các hình ảnh để huấn luyện (ví dụ: 30 hình ảnh mỗi danh mục) và các hình ảnh còn lại để kiểm thử.
Ứng dụng
Tập dữ liệu Caltech-101 được sử dụng rộng rãi để huấn luyện và đánh giá các model deep learning trong các tác vụ nhận dạng đối tượng, chẳng hạn như Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs) và nhiều thuật toán machine learning khác. Sự đa dạng của các danh mục và chất lượng hình ảnh cao khiến nó trở thành một tập dữ liệu tuyệt vời cho nghiên cứu và phát triển trong lĩnh vực machine learning và computer vision.
Cách sử dụng
Để huấn luyện một model YOLO trên tập dữ liệu Caltech-101 trong 100 epochs, bạn có thể sử dụng các đoạn code sau. Để xem danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Training của model.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="caltech101", epochs=100, imgsz=416)Hình ảnh và chú thích mẫu
Tập dữ liệu Caltech-101 chứa các hình ảnh màu chất lượng cao về nhiều đối tượng khác nhau, cung cấp một tập dữ liệu được cấu trúc tốt cho các tác vụ image classification. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:

Ví dụ này thể hiện sự đa dạng và phức tạp của các đối tượng trong tập dữ liệu Caltech-101, nhấn mạnh tầm quan trọng của một tập dữ liệu đa dạng để huấn luyện các model nhận dạng đối tượng mạnh mẽ.
Trích dẫn và Ghi nhận
Nếu bạn sử dụng tập dữ liệu Caltech-101 trong nghiên cứu hoặc công việc phát triển của mình, vui lòng trích dẫn bài báo sau:
@article{fei2007learning,
title={Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories},
author={Fei-Fei, Li and Fergus, Rob and Perona, Pietro},
journal={Computer vision and Image understanding},
volume={106},
number={1},
pages={59--70},
year={2007},
publisher={Elsevier}
}Chúng tôi xin gửi lời tri ân đến Li Fei-Fei, Rob Fergus và Pietro Perona vì đã tạo ra và duy trì tập dữ liệu Caltech-101 như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu machine learning và computer vision. Để biết thêm thông tin về tập dữ liệu Caltech-101 và những người tạo ra nó, hãy truy cập trang web tập dữ liệu Caltech-101.
Câu hỏi thường gặp (FAQ)
Tập dữ liệu Caltech-101 được sử dụng để làm gì trong machine learning?
Tập dữ liệu Caltech-101 được sử dụng rộng rãi trong machine learning cho các tác vụ nhận dạng đối tượng. Nó chứa khoảng 9.000 hình ảnh thuộc 101 danh mục, cung cấp một tiêu chuẩn đánh giá đầy thách thức cho việc đánh giá các thuật toán nhận dạng đối tượng. Các nhà nghiên cứu tận dụng nó để huấn luyện và kiểm thử các model, đặc biệt là Convolutional Neural Networks (CNNs) và Support Vector Machines (SVMs), trong computer vision.
Làm thế nào để tôi có thể huấn luyện một model Ultralytics YOLO trên tập dữ liệu Caltech-101?
Để huấn luyện một model Ultralytics YOLO trên tập dữ liệu Caltech-101, bạn có thể sử dụng các đoạn code được cung cấp. Ví dụ, để huấn luyện trong 100 epochs:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="caltech101", epochs=100, imgsz=416)Để biết thêm các đối số và tùy chọn chi tiết, hãy tham khảo trang Training của model.
Các tính năng chính của tập dữ liệu Caltech-101 là gì?
Tập dữ liệu Caltech-101 bao gồm:
- Khoảng 9.000 hình ảnh màu thuộc 101 danh mục.
- Các danh mục bao gồm nhiều loại đối tượng, bao gồm động vật, phương tiện và vật dụng gia đình.
- Số lượng hình ảnh trong mỗi danh mục thay đổi, thường từ 40 đến 800.
- Kích thước hình ảnh thay đổi, với hầu hết ở độ phân giải trung bình.
Những tính năng này làm cho nó trở thành một lựa chọn tuyệt vời để huấn luyện và đánh giá các model nhận dạng đối tượng trong machine learning và computer vision.
Tại sao tôi nên trích dẫn tập dữ liệu Caltech-101 trong nghiên cứu của mình?
Việc trích dẫn tập dữ liệu Caltech-101 trong nghiên cứu của bạn là sự ghi nhận những đóng góp của các tác giả và cung cấp tài liệu tham khảo cho những người khác có thể sử dụng tập dữ liệu này. Trích dẫn được khuyến nghị là:
@article{fei2007learning,
title={Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories},
author={Fei-Fei, Li and Fergus, Rob and Perona, Pietro},
journal={Computer vision and Image understanding},
volume={106},
number={1},
pages={59--70},
year={2007},
publisher={Elsevier}
}Việc trích dẫn giúp duy trì tính toàn vẹn của công trình học thuật và hỗ trợ đồng nghiệp trong việc tìm kiếm tài nguyên gốc.
Tôi có thể sử dụng Ultralytics Platform để huấn luyện các model trên tập dữ liệu Caltech-101 không?
Có, bạn có thể sử dụng Ultralytics Platform để huấn luyện các model trên tập dữ liệu Caltech-101. Ultralytics Platform cung cấp một nền tảng trực quan để quản lý tập dữ liệu, huấn luyện model và triển khai chúng mà không cần viết code quá nhiều. Để biết hướng dẫn chi tiết, hãy tham khảo bài đăng trên blog về cách huấn luyện các model tùy chỉnh của bạn với Ultralytics Platform.