Quản lý tập dữ liệu với Ultralytics HUB-SDK
Chào mừng đến với Ultralytics Tài liệu quản lý tập dữ liệu HUB-SDK! 👋
Quản lý tập dữ liệu hiệu quả là rất quan trọng trong học máy. Cho dù bạn là nhà khoa học dữ liệu dày dạn kinh nghiệm hay người mới bắt đầu, việc biết cách xử lý các hoạt động tập dữ liệu có thể hợp lý hóa quy trình làm việc của bạn. Trang này đề cập đến những điều cơ bản về thực hiện các hoạt động trên tập dữ liệu bằng Ultralytics HUB -SDK trong Python . Các ví dụ được cung cấp minh họa cách lấy, tạo, cập nhật, xóa và liệt kê các tập dữ liệu, cũng như cách lấy URL để truy cập tập dữ liệu và tải lên tập dữ liệu.
Hãy cùng khám phá nhé! 🚀
Lấy một tập dữ liệu theo ID
Để lấy nhanh một tập dữ liệu cụ thể bằng ID duy nhất của nó, hãy sử dụng đoạn mã bên dưới. Điều này cho phép bạn truy cập thông tin cần thiết, bao gồm cả dữ liệu của nó.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Để biết thêm chi tiết về Datasets
lớp và các phương pháp của nó, hãy xem Tài liệu tham khảo cho hub_sdk/modules/datasets.py
.
Tạo một tập dữ liệu
Để tạo một tập dữ liệu mới, hãy xác định tên thân thiện cho tập dữ liệu của bạn và sử dụng create_dataset
phương pháp như được hiển thị dưới đây:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Xem create_dataset
phương pháp trong tài liệu tham khảo API để biết thêm thông tin.
Cập nhật một tập dữ liệu
Khi các dự án phát triển, bạn có thể cần phải sửa đổi siêu dữ liệu của tập dữ liệu. Việc này đơn giản như chạy mã sau với các chi tiết mới:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Các update
phương pháp này cung cấp thêm thông tin chi tiết về việc cập nhật tập dữ liệu.
Xóa một tập dữ liệu
Để xóa một tập dữ liệu, cho dù là để dọn dẹp không gian làm việc của bạn hay vì nó không còn cần thiết nữa, bạn có thể xóa vĩnh viễn nó bằng cách gọi lệnh delete
phương pháp:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Để biết thêm về các tùy chọn xóa, bao gồm xóa cứng, hãy xem delete
tài liệu phương pháp.
Liệt kê các tập dữ liệu
Để duyệt qua các tập dữ liệu của bạn, hãy liệt kê tất cả các tập dữ liệu của bạn theo phân trang. Điều này hữu ích khi xử lý một số lượng lớn các tập dữ liệu.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results) # Show the datasets on the current page
# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)
# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)
Các DatasetList
Lớp này cung cấp thêm thông tin chi tiết về việc liệt kê và phân trang các tập dữ liệu.
Lấy URL từ Storage
Hàm này lấy URL để truy cập bộ nhớ dữ liệu, giúp dễ dàng tải xuống các tệp dữ liệu hoặc hiện vật được lưu trữ từ xa.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Các get_download_link
tài liệu phương pháp cung cấp thêm thông tin chi tiết.
Tải lên tập dữ liệu
Tải lên tập dữ liệu của bạn rất đơn giản. Đặt ID tập dữ liệu của bạn và đường dẫn tệp, sau đó sử dụng upload_dataset
chức năng:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Specify the correct file path
print("Dataset has been uploaded.")
Các upload_dataset
phương pháp cung cấp thêm chi tiết về việc tải lên các tập dữ liệu. Bạn cũng có thể tìm hiểu về các DatasetUpload
lớp học.
Nhớ kiểm tra lại ID Bộ dữ liệu và đường dẫn tệp để đảm bảo mọi thứ chạy trơn tru.
Nếu bạn gặp bất kỳ vấn đề hoặc có thắc mắc nào, nhóm hỗ trợ của chúng tôi luôn sẵn sàng trợ giúp. 🤝
Chúc bạn thu thập dữ liệu vui vẻ và mô hình của bạn sẽ chính xác và sâu sắc! 🌟