Bỏ để qua phần nội dung

Hoạt động quản lý tập dữ liệu với Ultralytics HUB-SDK

Chào mừng bạn đến với Ultralytics Tài liệu quản lý tập dữ liệu HUB-SDK! 👋

Quản lý bộ dữ liệu hiệu quả là rất quan trọng trong thế giới Machine Learning. Cho dù bạn là một nhà khoa học dữ liệu dày dạn kinh nghiệm hay người mới bắt đầu trong lĩnh vực này, biết cách xử lý các hoạt động của tập dữ liệu có thể hợp lý hóa quy trình làm việc của bạn. Trang này trình bày những điều cơ bản về việc thực hiện các thao tác trên bộ dữ liệu bằng cách sử dụng Ultralytics HUB-SDK trong Python. Các ví dụ được cung cấp minh họa cách lấy, tạo, cập nhật, xóa, liệt kê tập dữ liệu, lấy URL để truy cập tập dữ liệu và tải lên tập dữ liệu.

Hãy đi sâu vào! 🚀

Nhận tập dữ liệu theo ID

Tìm kiếm một tập dữ liệu cụ thể? Tìm nạp nó nhanh chóng bằng cách sử dụng ID duy nhất của nó với đoạn mã bên dưới. Điều này sẽ cho phép bạn truy cập thông tin cần thiết, bao gồm cả dữ liệu của nó.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Tạo tập dữ liệu

Sẵn sàng để bắt đầu một dự án mới? Làm theo các bước dưới đây để tạo tập dữ liệu mới. Tất cả những gì bạn cần là xác định một tên thân thiện cho tập dữ liệu của bạn và sử dụng create_dataset phương pháp.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Cập nhật tập dữ liệu

Khi các dự án phát triển, bộ dữ liệu của bạn cũng vậy. Nếu bạn cần sửa đổi siêu dữ liệu của tập dữ liệu, nó đơn giản như chạy mã sau với các chi tiết mới.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Xóa tập dữ liệu

Nếu bạn cần xóa một tập dữ liệu, cho dù để giải mã không gian làm việc của bạn hoặc vì nó không còn cần thiết nữa, bạn có thể xóa vĩnh viễn nó bằng cách gọi delete phương pháp như được hiển thị ở đây.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Danh sách tập dữ liệu

Để duyệt qua các bộ dữ liệu của bạn hoặc tìm bộ dữ liệu bạn cần, bạn có thể liệt kê tất cả các bộ dữ liệu của mình với phân trang. Nó rất hữu ích khi xử lý một số lượng lớn các bộ dữ liệu.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Lấy URL từ Bộ nhớ

Chức năng tiện lợi này tìm nạp URL để truy cập lưu trữ tập dữ liệu, giúp bạn dễ dàng tải xuống các tệp tập dữ liệu hoặc thành phần lạ được lưu trữ từ xa.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Tải lên tập dữ liệu

Tải lên tập dữ liệu của bạn là một quá trình đơn giản. Đặt ID tập dữ liệu của bạn và đường dẫn tệp bạn muốn tải lên, sau đó sử dụng upload_dataset chức năng như chi tiết bên dưới.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Hãy nhớ rằng, khi bạn đang làm việc với các bộ dữ liệu, luôn luôn là một thực hành tốt để kiểm tra và xác minh từng bước của quy trình. Kiểm tra kỹ ID tập dữ liệu và đường dẫn tệp của bạn để đảm bảo mọi thứ chạy trơn tru.

Nếu bạn gặp bất kỳ vấn đề nào hoặc có bất kỳ câu hỏi nào, nhóm hỗ trợ thân thiện của chúng tôi luôn sẵn sàng giúp bạn vượt qua mọi thách thức. 🤝

Chúc bạn sắp xếp dữ liệu vui vẻ và có thể các mô hình của bạn chính xác và sâu sắc! 🌟


Ý kiến