Datensatzverwaltung mit Ultralytics HUB-SDK
Willkommen bei der Ultralytics HUB-SDK Dokumentation zur Datensatzverwaltung! 👋
Effizientes Datensatzmanagement ist im maschinellen Lernen von entscheidender Bedeutung. Egal, ob Sie ein erfahrener Data Scientist oder ein Anfänger sind, das Wissen, wie man mit Datensatzoperationen umgeht, kann Ihren Workflow optimieren. Diese Seite behandelt die Grundlagen der Durchführung von Operationen an Datensätzen mit dem Ultralytics HUB-SDK in python. Die bereitgestellten Beispiele veranschaulichen, wie man Datensätze abruft, erstellt, aktualisiert, löscht und auflistet, und auch, wie man eine URL für den Datensatz-Zugriff erhält und Datensätze hochlädt.
Los geht's! 🚀
Datensatz nach ID abrufen
Um einen bestimmten Datensatz schnell anhand seiner eindeutigen ID abzurufen, verwenden Sie den folgenden Codeausschnitt. Auf diese Weise können Sie auf wichtige Informationen zugreifen, einschließlich seiner Daten.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Weitere Details zum Datasets
Klasse und ihre Methoden finden Sie im Referenz für hub_sdk/modules/datasets.py
.
Datensatz erstellen
Um einen neuen Datensatz zu erstellen, definieren Sie einen passenden Namen für Ihren Datensatz und verwenden Sie den create_dataset
Methode, wie unten gezeigt, verwenden:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Siehe die create_dataset
Methode in der API-Referenz für weitere Informationen.
Einen Datensatz aktualisieren
Im Laufe der Projektentwicklung kann es erforderlich sein, die Metadaten Ihres Datensatzes zu ändern. Dies ist so einfach wie das Ausführen des folgenden Codes mit den neuen Details:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Die update
Die Methode bietet weitere Details zum Aktualisieren von Datensätzen.
Dataset löschen
Um einen Datensatz zu entfernen, sei es, um Ihren Arbeitsbereich aufzuräumen oder weil er nicht mehr benötigt wird, können Sie ihn dauerhaft löschen, indem Sie den delete
Methode auf:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Weitere Informationen zu Löschoptionen, einschließlich endgültiger Löschungen, finden Sie unter delete
Methodendokumentation.
Datensätze auflisten
Um Ihre Datensätze zu durchsuchen, listen Sie alle Ihre Datensätze mit Paginierung auf. Dies ist hilfreich, wenn Sie mit einer großen Anzahl von Datensätzen arbeiten.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results) # Show the datasets on the current page
# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)
# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)
Die DatasetList
Klasse bietet weitere Details zum Auflisten und Paginieren von Datensätzen.
URL aus dem Speicher abrufen
Diese Funktion ruft eine URL für den Zugriff auf den Datensatzspeicher ab, wodurch das Herunterladen von Datensatzdateien oder Remote gespeicherten Artefakten vereinfacht wird.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Die get_download_link
Die Methodendokumentation enthält zusätzliche Details.
Datensatz hochladen
Das Hochladen Ihres Datensatzes ist unkompliziert. Legen Sie die ID Ihres Datensatzes und den Dateipfad fest und verwenden Sie dann den upload_dataset
Funktion:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Specify the correct file path
print("Dataset has been uploaded.")
Die upload_dataset
Die Methode bietet weitere Details zum Hochladen von Datensätzen. Sie können sich auch über die zugehörige DatasetUpload
Klasse.
Denken Sie daran, Ihre Dataset-IDs und Dateipfade nochmals zu überprüfen, um einen reibungslosen Ablauf zu gewährleisten.
Sollten Sie auf Probleme stoßen oder Fragen haben, steht Ihnen unser Support-Team gerne zur Seite. 🤝
Viel Spaß beim Data Wrangling, und mögen Ihre Modelle genau und aufschlussreich sein! 🌟