Bỏ qua nội dung

Quản lý tập dữ liệu với Ultralytics HUB-SDK

Chào mừng đến với Ultralytics Tài liệu quản lý tập dữ liệu HUB-SDK! 👋

Quản lý tập dữ liệu hiệu quả là rất quan trọng trong học máy. Cho dù bạn là nhà khoa học dữ liệu dày dạn kinh nghiệm hay người mới bắt đầu, việc biết cách xử lý các hoạt động tập dữ liệu có thể hợp lý hóa quy trình làm việc của bạn. Trang này đề cập đến những điều cơ bản về thực hiện các hoạt động trên tập dữ liệu bằng Ultralytics HUB -SDK trong Python . Các ví dụ được cung cấp minh họa cách lấy, tạo, cập nhật, xóa và liệt kê các tập dữ liệu, cũng như cách lấy URL để truy cập tập dữ liệu và tải lên tập dữ liệu.

Hãy cùng khám phá nhé! 🚀

Lấy một tập dữ liệu theo ID

Để lấy nhanh một tập dữ liệu cụ thể bằng ID duy nhất của nó, hãy sử dụng đoạn mã bên dưới. Điều này cho phép bạn truy cập thông tin cần thiết, bao gồm cả dữ liệu của nó.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Để biết thêm chi tiết về Datasets lớp và các phương pháp của nó, hãy xem Tài liệu tham khảo cho hub_sdk/modules/datasets.py.

Tạo một tập dữ liệu

Để tạo một tập dữ liệu mới, hãy xác định tên thân thiện cho tập dữ liệu của bạn và sử dụng create_dataset phương pháp như được hiển thị dưới đây:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Xem create_dataset phương pháp trong tài liệu tham khảo API để biết thêm thông tin.

Cập nhật một tập dữ liệu

Khi các dự án phát triển, bạn có thể cần phải sửa đổi siêu dữ liệu của tập dữ liệu. Việc này đơn giản như chạy mã sau với các chi tiết mới:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Các update phương pháp này cung cấp thêm thông tin chi tiết về việc cập nhật tập dữ liệu.

Xóa một tập dữ liệu

Để xóa một tập dữ liệu, cho dù là để dọn dẹp không gian làm việc của bạn hay vì nó không còn cần thiết nữa, bạn có thể xóa vĩnh viễn nó bằng cách gọi lệnh delete phương pháp:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Để biết thêm về các tùy chọn xóa, bao gồm xóa cứng, hãy xem delete tài liệu phương pháp.

Liệt kê các tập dữ liệu

Để duyệt qua các tập dữ liệu của bạn, hãy liệt kê tất cả các tập dữ liệu của bạn theo phân trang. Điều này hữu ích khi xử lý một số lượng lớn các tập dữ liệu.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

Các DatasetList Lớp này cung cấp thêm thông tin chi tiết về việc liệt kê và phân trang các tập dữ liệu.

Lấy URL từ Storage

Hàm này lấy URL để truy cập bộ nhớ dữ liệu, giúp dễ dàng tải xuống các tệp dữ liệu hoặc hiện vật được lưu trữ từ xa.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Các get_download_link tài liệu phương pháp cung cấp thêm thông tin chi tiết.

Tải lên tập dữ liệu

Tải lên tập dữ liệu của bạn rất đơn giản. Đặt ID tập dữ liệu của bạn và đường dẫn tệp, sau đó sử dụng upload_dataset chức năng:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

Các upload_dataset phương pháp cung cấp thêm chi tiết về việc tải lên các tập dữ liệu. Bạn cũng có thể tìm hiểu về các DatasetUpload lớp học.

Nhớ kiểm tra lại ID Bộ dữ liệu và đường dẫn tệp để đảm bảo mọi thứ chạy trơn tru.

Nếu bạn gặp bất kỳ vấn đề hoặc có thắc mắc nào, nhóm hỗ trợ của chúng tôi luôn sẵn sàng trợ giúp. 🤝

Chúc bạn thu thập dữ liệu vui vẻ và mô hình của bạn sẽ chính xác và sâu sắc! 🌟

📅 Được tạo ra cách đây 1 năm ✏️ Đã cập nhật cách đây 1 tháng

Bình luận