Set di dati KITTI

Il dataset kitti è uno dei più influenti dataset di riferimento per la guida autonoma e la computer vision. Pubblicato dal Karlsruhe Institute of Technology e dal Toyota Technological Institute di Chicago, contiene dati di telecamere stereo, LiDAR e GPS/IMU raccolti da scenari di guida reali.

Guarda: Come addestrare Ultralytics YOLO11 sul dataset KITTI 🚀

È ampiamente utilizzato per valutare gli algoritmi di rilevamento degli oggetti, stima della profondità, flusso ottico e odometria visiva. Il set di dati è pienamente compatibile con Ultralytics YOLO11 per il rilevamento di oggetti 2D e può essere facilmente integrato nella piattaforma Ultralytics per l'addestramento e la valutazione.

Struttura del set di dati

Attenzione

Il set di test originale di Kitti è escluso in quanto non contiene annotazioni di verità.

In totale, il set di dati comprende 7.481 immagini, ciascuna abbinata ad annotazioni dettagliate per oggetti come automobili, pedoni, ciclisti e altri elementi stradali. Il set di dati è suddiviso in due sottoinsiemi principali:

Set di addestramento: Contiene 5.985 immagini con etichette annotate utilizzate per l'addestramento del modello.
Set di convalida: Include 1.496 immagini con le relative annotazioni, utilizzate per la valutazione delle prestazioni e il benchmarking.

Applicazioni

Il set di dati Kitti consente di compiere progressi nella guida autonoma e nella robotica, supportando attività quali:

Percezione dei veicoli autonomi: Formazione di modelli per detect e track veicoli, pedoni e ostacoli per una navigazione sicura nei sistemi di guida autonoma.
Comprensione della scena 3D: Supportare la stima della profondità, la visione stereo e la localizzazione degli oggetti 3D per aiutare le macchine a comprendere gli ambienti spaziali.
Flusso ottico e previsione del movimento: Consentire l'analisi del movimento per prevedere il movimento degli oggetti e migliorare la pianificazione delle traiettorie in ambienti dinamici.
Benchmarking della visione artificiale: Serve come punto di riferimento standard per valutare le prestazioni di diverse attività di visione, tra cui il rilevamento di oggetti e il tracciamento.

YAML del set di dati

Ultralytics definisce la configurazione del dataset kitti utilizzando un file YAML. Questo file specifica i percorsi dei dataset, le etichette delle classi e i metadati necessari per l'addestramento. Il file di configurazione è disponibile all'indirizzo yaml

ultralyticsyaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Kitti dataset by Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago
# Documentation: https://docs.ultralytics.com/datasets/detect/kitti/
# Example usage: yolo train data=kitti.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── kitti ← downloads here (390.5 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: kitti # dataset root dir
train: images/train # train images (relative to 'path') 5985 images
val: images/val # val images (relative to 'path') 1496 images

names:
  0: car
  1: van
  2: truck
  3: pedestrian
  4: person_sitting
  5: cyclist
  6: tram
  7: misc

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/kitti.zip

Utilizzo

Per addestrare un modello YOLO11n sul dataset kitti per 100 epoch con una dimensione dell'immagine di 640, utilizzare i seguenti comandi. Per maggiori dettagli, consultare la pagina Addestramento.

Esempio di addestramento

PythonCLI

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on kitti dataset
results = model.train(data="kitti.yaml", epochs=100, imgsz=640)

yolo detect train data=kitti.yaml model=yolo11n.pt epochs=100 imgsz=640

È inoltre possibile eseguire attività di valutazione, inferenza ed esportazione direttamente dalla riga di comando o dall'API Python , utilizzando lo stesso file di configurazione.

Immagini di esempio e annotazioni

Il set di dati kitti offre diversi scenari di guida. Ogni immagine include annotazioni di bounding box per compiti di rilevamento di oggetti 2D. Gli esempi mostrano la ricca varietà del set di dati, consentendo una robusta generalizzazione del modello in diverse condizioni del mondo reale.

Immagine campione di Kitti

Citazioni e ringraziamenti

Se utilizzate il set di dati kitti nella vostra ricerca, siete pregati di citare il seguente documento:

Citazione

BibTeX

@article{Geiger2013IJRR,
  author = {Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun},
  title = {Vision meets Robotics: The KITTI Dataset},
  journal = {International Journal of Robotics Research (IJRR)},
  year = {2013}
}

Ringraziamo la KITTI Vision Benchmark Suite per aver fornito questo set di dati completo che continua a dare forma ai progressi nella computer vision, nella robotica e nei sistemi autonomi. Per ulteriori informazioni, visitare il sito Web di kitti.

Domande frequenti

A cosa serve il dataset kitti?

Il set di dati kitti è utilizzato principalmente per la ricerca sulla computer vision nella guida autonoma e supporta compiti come il rilevamento di oggetti, la stima della profondità, il flusso ottico e la localizzazione 3D.

Quante immagini sono incluse nel dataset di kitti?

Il set di dati comprende 5.985 immagini di addestramento etichettate e 1.496 immagini di validazione acquisite in scene urbane, rurali e autostradali. Il set di test originale è escluso in quanto non contiene annotazioni di verità.

Quali classi di oggetti sono annotate nel dataset?

kitti include annotazioni per oggetti come automobili, pedoni, ciclisti, camion, tram e utenti stradali vari.

Posso addestrare i modelli Ultralytics YOLO11 utilizzando il dataset kitti?

Sì, kitti è pienamente compatibile con Ultralytics YOLO11. È possibile addestrare e validare i modelli direttamente utilizzando il file di configurazione YAML fornito.

Dove posso trovare il file di configurazione del dataset di kitti?

È possibile accedere al file YAML all'indirizzo yaml