Chuyển đến nội dung

Quản lý tập dữ liệu với Ultralytics HUB-SDK

Chào mừng bạn đến với tài liệu Quản lý Bộ dữ liệu Ultralytics HUB-SDK! 👋

Quản lý bộ dữ liệu hiệu quả là rất quan trọng trong máy học. Cho dù bạn là một nhà khoa học dữ liệu dày dặn kinh nghiệm hay người mới bắt đầu, việc biết cách xử lý các hoạt động của bộ dữ liệu có thể hợp lý hóa quy trình làm việc của bạn. Trang này bao gồm các kiến thức cơ bản về cách thực hiện các hoạt động trên bộ dữ liệu bằng Ultralytics HUB-SDK trong Python. Các ví dụ được cung cấp minh họa cách lấy, tạo, cập nhật, xóa và liệt kê bộ dữ liệu, đồng thời cách lấy URL để truy cập bộ dữ liệu và tải lên bộ dữ liệu.

Hãy cùng bắt đầu nào! 🚀

Lấy một Bộ dữ liệu theo ID

Để tìm nạp một bộ dữ liệu cụ thể một cách nhanh chóng bằng ID duy nhất của nó, hãy sử dụng đoạn mã bên dưới. Điều này cho phép bạn truy cập thông tin cần thiết, bao gồm cả dữ liệu của nó.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Để biết thêm chi tiết về Datasets class và các phương thức của nó, xem Tài liệu tham khảo cho hub_sdk/modules/datasets.py.

Tạo một Tập dữ liệu

Để tạo một bộ dữ liệu mới, hãy xác định một tên thân thiện cho bộ dữ liệu của bạn và sử dụng create_dataset phương pháp như hình dưới đây:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Xem create_dataset method trong tài liệu tham khảo API để biết thêm thông tin.

Cập nhật bộ dữ liệu

Khi các dự án phát triển, bạn có thể cần sửa đổi metadata của bộ dữ liệu. Việc này đơn giản như chạy đoạn mã sau với các chi tiết mới:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Hàm update method cung cấp thêm chi tiết về cập nhật bộ dữ liệu.

Xóa một bộ dữ liệu

Để xóa một bộ dữ liệu, cho dù để làm gọn không gian làm việc của bạn hay vì nó không còn cần thiết nữa, bạn có thể xóa vĩnh viễn nó bằng cách gọi delete phương thức:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Để biết thêm về các tùy chọn xóa, bao gồm cả xóa vĩnh viễn, hãy xem delete method documentation.

Liệt kê bộ dữ liệu

Để duyệt qua các bộ dữ liệu của bạn, hãy liệt kê tất cả các bộ dữ liệu của bạn bằng phân trang. Điều này hữu ích khi xử lý một số lượng lớn bộ dữ liệu.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

Hàm DatasetList class cung cấp thêm chi tiết về việc liệt kê và phân trang bộ dữ liệu.

Lấy URL từ Bộ nhớ

Hàm này tìm nạp URL để truy cập bộ nhớ dữ liệu, giúp bạn dễ dàng tải xuống các tệp hoặc tạo phẩm bộ dữ liệu được lưu trữ từ xa.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Hàm get_download_link tài liệu phương thức cung cấp thêm chi tiết.

Tải lên Bộ dữ liệu

Việc tải lên bộ dữ liệu của bạn rất đơn giản. Đặt ID bộ dữ liệu của bạn và đường dẫn tệp, sau đó sử dụng upload_dataset function:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

Hàm upload_dataset method cung cấp thêm chi tiết về tải lên bộ dữ liệu. Bạn cũng có thể tìm hiểu về các DatasetUpload class.

Hãy nhớ kiểm tra kỹ ID Bộ dữ liệu và đường dẫn tệp của bạn để đảm bảo mọi thứ chạy trơn tru.

Nếu bạn gặp bất kỳ vấn đề nào hoặc có thắc mắc, nhóm hỗ trợ của chúng tôi luôn sẵn lòng trợ giúp. 🤝

Chúc bạn xử lý dữ liệu vui vẻ và mong rằng các mô hình của bạn sẽ chính xác và sâu sắc! 🌟



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận