Tập dữ liệu Caltech-101

Q: What is the Caltech-101 dataset used for in machine learning?

Bộ dữ liệu Caltech-101 được sử dụng rộng rãi trong máy học cho các tác vụ nhận dạng đối tượng. Nó chứa khoảng 9.000 hình ảnh thuộc 101 danh mục, cung cấp một chuẩn mực đầy thách thức để đánh giá các thuật toán nhận dạng đối tượng. Các nhà nghiên cứu tận dụng nó để huấn luyện và kiểm tra các mô hình, đặc biệt là Mạng nơ-ron tích chập (CNN) và Máy vectơ hỗ trợ (SVM), trong thị giác máy tính.

Q: How can I train an Ultralytics YOLO model on the Caltech-101 dataset?

Để huấn luyện một mô hình Ultralytics YOLO trên bộ dữ liệu Caltech-101, bạn có thể sử dụng các đoạn mã được cung cấp. Ví dụ: để huấn luyện trong 100 epochs: Để biết thêm các đối số và tùy chọn chi tiết, hãy tham khảo trang Huấn luyện mô hình.

Q: What are the key features of the Caltech-101 dataset?

Bộ dữ liệu Caltech-101 bao gồm: Những tính năng này làm cho nó trở thành một lựa chọn tuyệt vời để huấn luyện và đánh giá các mô hình nhận dạng đối tượng trong máy học và thị giác máy tính.

Q: Why should I cite the Caltech-101 dataset in my research?

Việc trích dẫn bộ dữ liệu Caltech-101 trong nghiên cứu của bạn ghi nhận những đóng góp của người tạo và cung cấp tài liệu tham khảo cho những người khác có thể sử dụng bộ dữ liệu này. Trích dẫn được đề xuất là: Trích dẫn giúp duy trì tính toàn vẹn của công việc học thuật và hỗ trợ các đồng nghiệp trong việc xác định vị trí tài nguyên gốc.

Tập dữ liệu Caltech-101 là một tập dữ liệu được sử dụng rộng rãi cho các tác vụ nhận dạng đối tượng, chứa khoảng 9.000 hình ảnh từ 101 danh mục đối tượng. Các danh mục được chọn để phản ánh sự đa dạng của các đối tượng trong thế giới thực và bản thân các hình ảnh được lựa chọn và chú thích cẩn thận để cung cấp một chuẩn mực đầy thách thức cho các thuật toán nhận dạng đối tượng.

Xem: Cách huấn luyện Phân loại hình ảnh Mô hình sử dụng tập dữ liệu Caltech-256 với Nền tảng Ultralytics

Tự động phân chia dữ liệu

Bộ dữ liệu Caltech-101 được cung cấp không đi kèm với các phân chia train/validation được xác định trước. Tuy nhiên, khi bạn sử dụng các lệnh huấn luyện được cung cấp trong các ví dụ sử dụng bên dưới, framework Ultralytics sẽ tự động phân chia bộ dữ liệu cho bạn. Phân chia mặc định được sử dụng là 80% cho tập huấn luyện và 20% cho tập validation.

Các tính năng chính

Tập dữ liệu Caltech-101 bao gồm khoảng 9.000 hình ảnh màu được chia thành 101 danh mục.
Các danh mục bao gồm nhiều đối tượng khác nhau, bao gồm động vật, phương tiện, đồ gia dụng và con người.
Số lượng ảnh trên mỗi danh mục khác nhau, với khoảng 40 đến 800 ảnh trong mỗi danh mục.
Hình ảnh có kích thước khác nhau, hầu hết là độ phân giải trung bình.
Caltech-101 được sử dụng rộng rãi để huấn luyện và thử nghiệm trong lĩnh vực học máy, đặc biệt là cho các tác vụ nhận dạng đối tượng.

Cấu trúc bộ dữ liệu

Không giống như nhiều bộ dữ liệu khác, bộ dữ liệu Caltech-101 không được chia chính thức thành các tập huấn luyện và thử nghiệm. Người dùng thường tự tạo các phân chia dựa trên nhu cầu cụ thể của họ. Tuy nhiên, một thông lệ phổ biến là sử dụng một tập hợp con ngẫu nhiên của hình ảnh để huấn luyện (ví dụ: 30 hình ảnh trên mỗi danh mục) và các hình ảnh còn lại để thử nghiệm.

Các ứng dụng

Bộ dữ liệu Caltech-101 được sử dụng rộng rãi để huấn luyện và đánh giá các mô hình học sâu trong các tác vụ nhận dạng đối tượng, chẳng hạn như Mạng nơ-ron tích chập (CNN), Máy vectơ hỗ trợ (SVM) và nhiều thuật toán học máy khác. Sự đa dạng về danh mục và hình ảnh chất lượng cao khiến nó trở thành một bộ dữ liệu tuyệt vời cho nghiên cứu và phát triển trong lĩnh vực học máy và thị giác máy tính.

Cách sử dụng

Để huấn luyện một mô hình YOLO trên bộ dữ liệu Caltech-101 trong 100 epochs, bạn có thể sử dụng các đoạn mã sau. Để có danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Huấn luyện của mô hình.

Ví dụ huấn luyện

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="caltech101", epochs=100, imgsz=416)

# Start training from a pretrained *.pt model
yolo classify train data=caltech101 model=yolo26n-cls.pt epochs=100 imgsz=416

Ảnh và Chú thích mẫu

Bộ dữ liệu Caltech-101 chứa hình ảnh màu chất lượng cao của nhiều đối tượng khác nhau, cung cấp một bộ dữ liệu có cấu trúc tốt cho các tác vụ phân loại hình ảnh. Dưới đây là một số ví dụ về hình ảnh từ bộ dữ liệu:

Các mẫu dữ liệu phân loại hình ảnh Caltech-101

Ví dụ này thể hiện sự đa dạng và phức tạp của các đối tượng trong bộ dữ liệu Caltech-101, nhấn mạnh tầm quan trọng của một bộ dữ liệu đa dạng để huấn luyện các mô hình nhận dạng đối tượng mạnh mẽ.

Trích dẫn và Lời cảm ơn

Nếu bạn sử dụng bộ dữ liệu Caltech-101 trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

BibTeX

@article{fei2007learning,
  title={Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories},
  author={Fei-Fei, Li and Fergus, Rob and Perona, Pietro},
  journal={Computer vision and Image understanding},
  volume={106},
  number={1},
  pages={59--70},
  year={2007},
  publisher={Elsevier}
}

Chúng tôi xin cảm ơn Li Fei-Fei, Rob Fergus và Pietro Perona vì đã tạo và duy trì bộ dữ liệu Caltech-101 như một nguồn tài nguyên quý giá cho cộng đồng nghiên cứu học máy và thị giác máy tính. Để biết thêm thông tin về bộ dữ liệu Caltech-101 và những người tạo ra nó, hãy truy cập trang web bộ dữ liệu Caltech-101.

Câu hỏi thường gặp

Bộ dữ liệu Caltech-101 được sử dụng để làm gì trong máy học?

Bộ dữ liệu Caltech-101 được sử dụng rộng rãi trong machine learning cho các tác vụ nhận dạng đối tượng. Nó chứa khoảng 9.000 hình ảnh trên 101 danh mục, cung cấp một chuẩn mực đầy thách thức để đánh giá các thuật toán nhận dạng đối tượng. Các nhà nghiên cứu tận dụng nó để đào tạo và kiểm tra các mô hình, đặc biệt là Convolutional Neural Networks (CNNs) và Support Vector Machines (SVMs), trong computer vision.

Làm cách nào để huấn luyện mô hình Ultralytics YOLO trên bộ dữ liệu Caltech-101?

Để huấn luyện mô hình Ultralytics YOLO trên bộ dữ liệu Caltech-101, bạn có thể sử dụng các đoạn mã được cung cấp. Ví dụ: để huấn luyện trong 100 epochs:

Ví dụ huấn luyện

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="caltech101", epochs=100, imgsz=416)

# Start training from a pretrained *.pt model
yolo classify train data=caltech101 model=yolo26n-cls.pt epochs=100 imgsz=416

Để biết thêm các đối số và tùy chọn chi tiết, hãy tham khảo trang Huấn luyện mô hình.

Các tính năng chính của bộ dữ liệu Caltech-101 là gì?

Bộ dữ liệu Caltech-101 bao gồm:

Khoảng 9.000 hình ảnh màu trên 101 danh mục.
Các danh mục bao gồm nhiều loại đối tượng khác nhau, bao gồm động vật, phương tiện và đồ gia dụng.
Số lượng hình ảnh khác nhau cho mỗi danh mục, thường từ 40 đến 800.
Kích thước hình ảnh đa dạng, phần lớn có độ phân giải trung bình.

Các tính năng này làm cho nó trở thành một lựa chọn tuyệt vời để đào tạo và đánh giá các mô hình nhận dạng đối tượng trong máy học và thị giác máy tính.

Tại sao tôi nên trích dẫn bộ dữ liệu Caltech-101 trong nghiên cứu của mình?

Trích dẫn bộ dữ liệu Caltech-101 trong nghiên cứu của bạn ghi nhận những đóng góp của người tạo và cung cấp tài liệu tham khảo cho những người khác có thể sử dụng bộ dữ liệu này. Trích dẫn được đề xuất là:

BibTeX

@article{fei2007learning,
  title={Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories},
  author={Fei-Fei, Li and Fergus, Rob and Perona, Pietro},
  journal={Computer vision and Image understanding},
  volume={106},
  number={1},
  pages={59--70},
  year={2007},
  publisher={Elsevier}
}

Trích dẫn giúp duy trì tính toàn vẹn của công trình học thuật và hỗ trợ đồng nghiệp xác định vị trí tài nguyên gốc.

Tôi có thể sử dụng Nền tảng Ultralytics để huấn luyện các mô hình trên tập dữ liệu Caltech-101 không?

Có, bạn có thể sử dụng Nền tảng Ultralytics để huấn luyện các mô hình trên tập dữ liệu Caltech-101. Nền tảng Ultralytics cung cấp một nền tảng trực quan để quản lý tập dữ liệu, huấn luyện mô hình và triển khai chúng mà không cần viết nhiều mã. Để có hướng dẫn chi tiết, hãy tham khảo bài đăng trên blog cách huấn luyện các mô hình tùy chỉnh của bạn với Nền tảng Ultralytics.

📅 Được tạo 2 năm trước ✍️ Cập nhật 3 tháng trước