Tập dữ liệu KITTI

Tập dữ liệu kitti là một trong những tập dữ liệu chuẩn có ảnh hưởng nhất cho lái xe tự hành và thị giác máy tính. Được phát hành bởi Viện Công nghệ Karlsruhe và Viện Công nghệ Toyota tại Chicago, nó chứa dữ liệu camera stereo, LiDAR và GPS/IMU được thu thập từ các kịch bản lái xe trong thế giới thực.

Xem: Cách huấn luyện Ultralytics YOLO26 trên tập dữ liệu KITTI 🚀

Nó được sử dụng rộng rãi để đánh giá các thuật toán trong detect đối tượng, ước tính độ sâu, luồng quang học và đo lường quán tính hình ảnh. Tập dữ liệu này hoàn toàn tương thích với Ultralytics YOLO26 cho các tác vụ detect đối tượng 2D và có thể dễ dàng tích hợp vào nền tảng Ultralytics để huấn luyện và đánh giá.

Cấu trúc bộ dữ liệu

Cảnh báo

Tập kiểm tra gốc của Kitti bị loại trừ ở đây vì nó không chứa chú thích ground-truth.

Tổng cộng, tập dữ liệu bao gồm 7.481 hình ảnh, mỗi hình ảnh được ghép nối với các chú thích chi tiết cho các đối tượng như ô tô, người đi bộ, người đi xe đạp và các yếu tố đường bộ khác. Tập dữ liệu được chia thành hai tập con chính:

Tập huấn luyện: Chứa 5.985 hình ảnh với nhãn được chú thích được sử dụng để huấn luyện mô hình.
Tập xác thực: Bao gồm 1.496 hình ảnh với các chú thích tương ứng được sử dụng để đánh giá hiệu suất và chấm điểm chuẩn.

Các ứng dụng

Bộ dữ liệu Kitti thúc đẩy những tiến bộ trong lái xe tự hành và robot học, hỗ trợ các tác vụ như:

Nhận thức của phương tiện tự hành: Huấn luyện các mô hình để detect và track phương tiện, người đi bộ và chướng ngại vật nhằm điều hướng an toàn trong các hệ thống tự lái.
Hiểu cảnh 3D: Hỗ trợ ước tính độ sâu, thị giác lập thể và định vị vật thể 3D để giúp máy móc hiểu được môi trường không gian.
Lưu lượng quang học và dự đoán chuyển động: Cho phép phân tích chuyển động để dự đoán chuyển động của vật thể và cải thiện việc lập kế hoạch quỹ đạo trong môi trường động.
Đánh giá chuẩn thị giác máy tính: Đóng vai trò là một tiêu chuẩn đánh giá hiệu suất trên nhiều tác vụ thị giác, bao gồm detect vật thể và track.

YAML bộ dữ liệu

Ultralytics định nghĩa cấu hình bộ dữ liệu kitti bằng cách sử dụng tệp yaml. Tệp này chỉ định đường dẫn bộ dữ liệu, nhãn lớp và siêu dữ liệu cần thiết cho việc huấn luyện. Tệp cấu hình có sẵn tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/kitti.yaml.

ultralytics/cfg/datasets/kitti.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# KITTI dataset by Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago
# Documentation: https://docs.ultralytics.com/datasets/detect/kitti/
# Example usage: yolo train data=kitti.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── kitti ← downloads here (390.5 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: kitti # dataset root dir
train: images/train # train images (relative to 'path') 5985 images
val: images/val # val images (relative to 'path') 1496 images

names:
  0: car
  1: van
  2: truck
  3: pedestrian
  4: person_sitting
  5: cyclist
  6: tram
  7: misc

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/kitti.zip

Cách sử dụng

Để huấn luyện mô hình YOLO26n trên tập dữ liệu kitti trong 100 epochs với kích thước ảnh 640, hãy sử dụng các lệnh sau. Để biết thêm chi tiết, hãy tham khảo trang Huấn luyện.

Ví dụ huấn luyện

PythonCLI

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on kitti dataset
results = model.train(data="kitti.yaml", epochs=100, imgsz=640)

yolo detect train data=kitti.yaml model=yolo26n.pt epochs=100 imgsz=640

Bạn cũng có thể thực hiện các tác vụ đánh giá, suy luận và xuất trực tiếp từ dòng lệnh hoặc API Python bằng cách sử dụng cùng một tệp cấu hình.

Ảnh và Chú thích mẫu

Bộ dữ liệu Kitti cung cấp nhiều kịch bản lái xe đa dạng. Mỗi hình ảnh bao gồm các chú thích hộp giới hạn cho các tác vụ phát hiện đối tượng 2D. Các ví dụ minh họa sự đa dạng phong phú của bộ dữ liệu, cho phép khái quát hóa mô hình mạnh mẽ trong nhiều điều kiện thực tế khác nhau.

Bộ dữ liệu KITTI - mẫu phát hiện phương tiện

Trích dẫn và Lời cảm ơn

Nếu bạn sử dụng bộ dữ liệu kitti trong nghiên cứu của mình, vui lòng trích dẫn bài báo sau:

Trích dẫn

BibTeX

@article{Geiger2013IJRR,
  author = {Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun},
  title = {Vision meets Robotics: The KITTI Dataset},
  journal = {International Journal of Robotics Research (IJRR)},
  year = {2013}
}

Chúng tôi ghi nhận Bộ tiêu chuẩn thị giác KITTI đã cung cấp bộ dữ liệu toàn diện này, tiếp tục định hình sự tiến bộ trong thị giác máy tính, robot học và các hệ thống tự hành. Truy cập trang web kitti để biết thêm thông tin.

Câu hỏi thường gặp

Tập dữ liệu kitti được sử dụng để làm gì?

Bộ dữ liệu kitti chủ yếu được sử dụng cho nghiên cứu thị giác máy tính trong lái xe tự hành, hỗ trợ các tác vụ như detect vật thể, ước tính độ sâu, lưu lượng quang học và định vị 3D.

Có bao nhiêu hình ảnh được bao gồm trong tập dữ liệu kitti?

Bộ dữ liệu bao gồm 5.985 hình ảnh huấn luyện được gán nhãn và 1.496 hình ảnh xác thực được chụp trên các cảnh quan đô thị, nông thôn và đường cao tốc. Tập hợp thử nghiệm gốc bị loại trừ ở đây vì nó không chứa chú thích ground-truth.

Những lớp đối tượng nào được chú thích trong tập dữ liệu?

kitti bao gồm các chú thích cho các vật thể như ô tô, người đi bộ, người đi xe đạp, xe tải, xe điện và những người tham gia giao thông khác.

Tôi có thể huấn luyện các mô hình Ultralytics YOLO26 bằng tập dữ liệu kitti không?

Có, kitti hoàn toàn tương thích với Ultralytics YOLO26. Bạn có thể huấn luyện và xác thực các mô hình trực tiếp bằng cách sử dụng tệp cấu hình yaml được cung cấp.

Tôi có thể tìm tệp cấu hình tập dữ liệu kitti ở đâu?

Bạn có thể truy cập tệp yaml tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/kitti.yaml.

📅 Được tạo 3 tháng trước ✏️ Cập nhật 16 ngày trước