Zum Inhalt springen

Datensatzverwaltung mit Ultralytics HUB-SDK

Willkommen bei der Ultralytics HUB-SDK Dataset Management Dokumentation! 👋

Effiziente Datensatzverwaltung ist beim maschinellen Lernen von entscheidender Bedeutung. Egal, ob Sie ein erfahrener Datenwissenschaftler oder ein Anfänger sind, wenn Sie wissen, wie Sie mit Datensatzoperationen umgehen, können Sie Ihren Arbeitsablauf optimieren. Auf dieser Seite werden die Grundlagen der Durchführung von Operationen mit Datensätzen unter Verwendung des Ultralytics HUB-SDK in Python behandelt. Die Beispiele veranschaulichen, wie man Datensätze abruft, erstellt, aktualisiert, löscht und auflistet, und wie man eine URL für den Zugriff auf Datensätze abruft und Datensätze hochlädt.

Lasst uns eintauchen! 🚀

Abrufen eines Datensatzes nach ID

Um einen bestimmten Datensatz anhand seiner eindeutigen ID schnell abzurufen, verwenden Sie den nachstehenden Codeschnipsel. Damit können Sie auf wichtige Informationen, einschließlich der Daten, zugreifen.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Für weitere Einzelheiten über die Datasets Klasse und ihre Methoden, siehe die Referenz für hub_sdk/modules/datasets.py.

Einen Datensatz erstellen

Um einen neuen Datensatz zu erstellen, definieren Sie einen freundlichen Namen für Ihren Datensatz und verwenden die create_dataset Methode wie unten gezeigt:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Siehe die create_dataset Methode in der API-Referenz für weitere Informationen.

Aktualisieren eines Datensatzes

Wenn sich Projekte weiterentwickeln, müssen Sie möglicherweise die Metadaten Ihres Datensatzes ändern. Dies ist ganz einfach, indem Sie den folgenden Code mit den neuen Details ausführen:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Die update Methode enthält weitere Einzelheiten zur Aktualisierung von Datensätzen.

Löschen eines Datensatzes

Um einen Datensatz zu entfernen, sei es, um Ihren Arbeitsbereich zu entrümpeln oder weil er nicht mehr benötigt wird, können Sie ihn dauerhaft löschen, indem Sie den Befehl delete Methode:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Weitere Informationen zu den Löschoptionen, einschließlich des harten Löschens, finden Sie im Abschnitt delete Dokumentation der Methode.

Datensätze auflisten

Um Ihre Datensätze zu durchsuchen, listen Sie alle Ihre Datensätze mit Paginierung auf. Dies ist hilfreich, wenn Sie mit einer großen Anzahl von Datensätzen arbeiten.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

Die DatasetList Klasse enthält weitere Einzelheiten zur Auflistung und Paginierung von Datensätzen.

URL aus dem Speicher holen

Diese Funktion ruft eine URL für den Zugriff auf den Datensatzspeicher ab und erleichtert so das Herunterladen von Dateien oder Artefakten, die an einem anderen Ort gespeichert sind.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Die get_download_link Die Dokumentation der Methode enthält weitere Einzelheiten.

Datensatz hochladen

Das Hochladen Ihres Datensatzes ist ganz einfach. Legen Sie die ID Ihres Datensatzes und den Dateipfad fest und verwenden Sie dann die upload_dataset Funktion:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

Die upload_dataset bietet weitere Einzelheiten zum Hochladen von Datensätzen. Sie können sich auch über die damit verbundenen DatasetUpload Klasse.

Vergessen Sie nicht, Ihre Dataset-IDs und Dateipfade zu überprüfen, um sicherzustellen, dass alles reibungslos funktioniert.

Sollten Sie Probleme oder Fragen haben, steht Ihnen unser Support-Team gerne zur Verfügung. 🤝

Wir wünschen Ihnen viel Spaß bei der Datenverarbeitung und hoffen, dass Ihre Modelle genau und aufschlussreich sind! 🌟

📅 Erstellt vor 1 Jahr ✏️ Aktualisiert vor 1 Monat

Kommentare