Bỏ qua nội dung

Hoạt động quản lý tập dữ liệu với Ultralytics HUB-SDK

Chào mừng bạn đến với Tài liệu quản lý bộ dữ liệu Ultralytics HUB-SDK! 👋

Quản lý tập dữ liệu hiệu quả là rất quan trọng trong thế giới Học máy. Cho dù bạn là nhà khoa học dữ liệu dày dạn kinh nghiệm hay người mới bắt đầu trong lĩnh vực này, việc biết cách xử lý các hoạt động tập dữ liệu có thể hợp lý hóa quy trình làm việc của bạn. Trang này đề cập đến những điều cơ bản về thực hiện các hoạt động trên tập dữ liệu bằng cách sử dụng Ultralytics HUB-SDK trong Python . Các ví dụ được cung cấp minh họa cách lấy, tạo, cập nhật, xóa, liệt kê các tập dữ liệu, lấy URL để truy cập tập dữ liệu và tải lên các tập dữ liệu.

Hãy cùng khám phá nhé! 🚀

Lấy một tập dữ liệu theo ID

Bạn đang tìm một tập dữ liệu cụ thể? Hãy nhanh chóng lấy nó bằng ID duy nhất của nó với đoạn mã bên dưới. Điều này sẽ cho phép bạn truy cập thông tin cần thiết, bao gồm cả dữ liệu của nó.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Tạo một tập dữ liệu

Sẵn sàng bắt đầu một dự án mới? Thực hiện theo các bước dưới đây để tạo một tập dữ liệu mới. Tất cả những gì bạn cần là xác định một tên thân thiện cho tập dữ liệu của bạn và sử dụng create_dataset phương pháp.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Cập nhật một tập dữ liệu

Khi các dự án phát triển, các tập dữ liệu của bạn cũng vậy. Nếu bạn cần sửa đổi siêu dữ liệu của tập dữ liệu, chỉ cần chạy mã sau với các chi tiết mới.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Xóa một tập dữ liệu

Nếu bạn cần xóa một tập dữ liệu, cho dù là để dọn dẹp không gian làm việc hay vì không còn cần thiết nữa, bạn có thể xóa vĩnh viễn tập dữ liệu đó bằng cách gọi lệnh delete phương pháp như được trình bày ở đây.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Liệt kê các tập dữ liệu

Để duyệt qua các tập dữ liệu của bạn hoặc tìm tập dữ liệu bạn cần, bạn có thể liệt kê tất cả các tập dữ liệu của mình bằng cách phân trang. Điều này hữu ích khi xử lý số lượng lớn các tập dữ liệu.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Lấy URL từ Storage

Chức năng tiện lợi này sẽ lấy URL để truy cập bộ nhớ dữ liệu, giúp bạn dễ dàng tải xuống các tệp dữ liệu hoặc hiện vật được lưu trữ từ xa.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Tải lên tập dữ liệu

Tải lên tập dữ liệu của bạn là một quá trình đơn giản. Đặt ID của tập dữ liệu và đường dẫn tệp bạn muốn tải lên, sau đó sử dụng upload_dataset chức năng như được mô tả chi tiết bên dưới.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Hãy nhớ rằng, khi bạn làm việc với các tập dữ liệu, việc kiểm tra và xác minh từng bước của quy trình luôn là một thói quen tốt. Kiểm tra lại ID tập dữ liệu và đường dẫn tệp để đảm bảo mọi thứ diễn ra suôn sẻ.

Nếu bạn gặp bất kỳ vấn đề hoặc có bất kỳ câu hỏi nào, nhóm hỗ trợ thân thiện của chúng tôi luôn sẵn sàng giúp bạn giải quyết mọi thách thức. 🤝

Chúc bạn thu thập dữ liệu vui vẻ và mô hình của bạn sẽ chính xác và sâu sắc! 🌟

Bình luận