Tập dữ liệu KITTI

Mở tập dữ liệu KITTI trong Colab

Tập dữ liệu kitti là một trong những tập dữ liệu chuẩn mực có tầm ảnh hưởng lớn nhất đối với xe tự hành và thị giác máy tính. Được phát hành bởi Viện Công nghệ Karlsruhe và Viện Công nghệ Toyota tại Chicago, tập dữ liệu này chứa dữ liệu camera stereo, LiDAR và GPS/IMU được thu thập từ các kịch bản lái xe trong thế giới thực.



Watch: How to Train Ultralytics YOLO26 on the KITTI Dataset 🚀

Nó được sử dụng rộng rãi để đánh giá các thuật toán trong việc phát hiện đối tượng, ước tính độ sâu, luồng quang học và đo khoảng cách thị giác. Tập dữ liệu này hoàn toàn tương thích với Ultralytics YOLO26 cho các tác vụ phát hiện đối tượng 2D và có thể dễ dàng tích hợp vào nền tảng Ultralytics để huấn luyện và đánh giá.

Cấu trúc tập dữ liệu

Cảnh báo

Tập kiểm thử gốc của Kitti bị loại trừ tại đây vì nó không chứa các chú thích ground-truth.

Tổng cộng, tập dữ liệu bao gồm 7.481 hình ảnh, mỗi hình ảnh đi kèm với các chú thích chi tiết cho các đối tượng như ô tô, người đi bộ, người đi xe đạp và các yếu tố đường bộ khác. Tập dữ liệu được chia thành hai nhóm con chính:

  • Tập huấn luyện (Training set): Chứa 5.985 hình ảnh với các nhãn chú thích được sử dụng để huấn luyện mô hình.
  • Tập xác thực (Validation set): Bao gồm 1.496 hình ảnh với các chú thích tương ứng được sử dụng để đánh giá hiệu suất và so sánh chuẩn.

Ứng dụng

Tập dữ liệu Kitti thúc đẩy những tiến bộ trong xe tự hành và robot, hỗ trợ các tác vụ như:

  • Nhận thức xe tự hành: Huấn luyện mô hình để phát hiện và theo dõi các phương tiện, người đi bộ và chướng ngại vật để điều hướng an toàn trong các hệ thống tự lái.
  • Hiểu cảnh quan 3D: Hỗ trợ ước tính độ sâu, thị giác stereo và định vị đối tượng 3D để giúp máy móc hiểu được môi trường không gian.
  • Luồng quang học và dự đoán chuyển động: Cho phép phân tích chuyển động để dự đoán sự di chuyển của các đối tượng và cải thiện việc lập kế hoạch quỹ đạo trong các môi trường động.
  • Đánh giá chuẩn thị giác máy tính: Đóng vai trò là một chuẩn mực để đánh giá hiệu suất trên nhiều tác vụ thị giác, bao gồm phát hiện và theo dõi đối tượng.

Dataset YAML

Ultralytics xác định cấu hình tập dữ liệu kitti bằng cách sử dụng tệp YAML. Tệp này chỉ định các đường dẫn tập dữ liệu, nhãn lớp và siêu dữ liệu cần thiết cho việc huấn luyện. Tệp cấu hình có sẵn tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/kitti.yaml.

ultralytics/cfg/datasets/kitti.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# KITTI dataset by Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago
# Documentation: https://docs.ultralytics.com/datasets/detect/kitti/
# Example usage: yolo train data=kitti.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── kitti ← downloads here (390.5 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: kitti # dataset root dir
train: images/train # train images (relative to 'path') 5985 images
val: images/val # val images (relative to 'path') 1496 images

names:
  0: car
  1: van
  2: truck
  3: pedestrian
  4: person_sitting
  5: cyclist
  6: tram
  7: misc

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/kitti.zip

Cách sử dụng

Để huấn luyện mô hình YOLO26n trên tập dữ liệu kitti trong 100 epoch với kích thước hình ảnh là 640, hãy sử dụng các lệnh sau. Để biết thêm chi tiết, hãy tham khảo trang Huấn luyện.

Ví dụ huấn luyện
from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on kitti dataset
results = model.train(data="kitti.yaml", epochs=100, imgsz=640)

Bạn cũng có thể thực hiện các tác vụ đánh giá, suy luậnxuất trực tiếp từ dòng lệnh hoặc Python API bằng cách sử dụng cùng tệp cấu hình.

Hình ảnh và chú thích mẫu

Tập dữ liệu kitti cung cấp các kịch bản lái xe đa dạng. Mỗi hình ảnh bao gồm các chú thích hộp bao (bounding box) cho các tác vụ phát hiện đối tượng 2D. Các ví dụ này thể hiện sự phong phú của tập dữ liệu, cho phép mô hình khái quát hóa mạnh mẽ trong nhiều điều kiện thực tế khác nhau.

KITTI dataset vehicle detection sample

Trích dẫn và Ghi nhận

Nếu bạn sử dụng tập dữ liệu kitti trong nghiên cứu của mình, vui lòng trích dẫn bài báo sau:

Trích dẫn
@article{Geiger2013IJRR,
  author = {Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun},
  title = {Vision meets Robotics: The KITTI Dataset},
  journal = {International Journal of Robotics Research (IJRR)},
  year = {2013}
}

Chúng tôi ghi nhận KITTI Vision Benchmark Suite vì đã cung cấp tập dữ liệu toàn diện này, vốn tiếp tục định hình sự tiến bộ trong thị giác máy tính, robot và các hệ thống tự hành. Truy cập trang web kitti để biết thêm thông tin.

Các câu hỏi thường gặp (FAQs)

Tập dữ liệu kitti được sử dụng để làm gì?

Tập dữ liệu kitti chủ yếu được sử dụng cho nghiên cứu thị giác máy tính trong lĩnh vực xe tự hành, hỗ trợ các tác vụ như phát hiện đối tượng, ước tính độ sâu, luồng quang học và định vị 3D.

Tập dữ liệu kitti bao gồm bao nhiêu hình ảnh?

Tập dữ liệu bao gồm 5.985 hình ảnh huấn luyện có nhãn và 1.496 hình ảnh xác thực được chụp tại các khung cảnh đô thị, nông thôn và đường cao tốc. Tập kiểm thử gốc bị loại trừ tại đây vì nó không chứa các chú thích ground-truth.

Những lớp đối tượng nào được chú thích trong tập dữ liệu?

kitti bao gồm các chú thích cho các đối tượng như ô tô, người đi bộ, người đi xe đạp, xe tải, xe điện và các đối tượng tham gia giao thông khác.

Tôi có thể huấn luyện các mô hình Ultralytics YOLO26 bằng tập dữ liệu kitti không?

Có, kitti hoàn toàn tương thích với Ultralytics YOLO26. Bạn có thể huấn luyệnxác thực mô hình trực tiếp bằng tệp cấu hình YAML được cung cấp.

Tôi có thể tìm tệp cấu hình tập dữ liệu kitti ở đâu?

Bạn có thể truy cập tệp YAML tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/kitti.yaml.

Bình luận