Bộ dữ liệu KITTI
Bộ dữ liệu kitti là một trong những bộ dữ liệu chuẩn có ảnh hưởng nhất đến lĩnh vực lái xe tự động và thị giác máy tính. Được phát hành bởi Viện Công nghệ Karlsruhe và Viện Công nghệ Toyota tại Chicago, bộ dữ liệu này chứa dữ liệu camera stereo, LiDAR và GPS/IMU được thu thập từ các tình huống lái xe thực tế.
Nó được sử dụng rộng rãi để đánh giá các thuật toán trong phát hiện đối tượng, ước tính độ sâu, dòng quang học và đo thị lực. Bộ dữ liệu hoàn toàn tương thích với Ultralytics YOLO11 cho các nhiệm vụ phát hiện đối tượng 2D và có thể dễ dàng tích hợp vào Ultralytics nền tảng đào tạo và đánh giá.
Cấu trúc bộ dữ liệu
Cảnh báo
Bộ kiểm tra gốc của Kitti bị loại trừ ở đây vì nó không chứa chú thích thực tế.
Tổng cộng, bộ dữ liệu bao gồm 7.481 hình ảnh, mỗi hình ảnh được ghép nối với chú thích chi tiết cho các đối tượng như ô tô, người đi bộ, người đi xe đạp và các yếu tố đường bộ khác. Bộ dữ liệu được chia thành hai tập hợp con chính:
- Bộ đào tạo: Bao gồm 5.985 hình ảnh có nhãn chú thích được sử dụng để đào tạo mô hình.
- Bộ xác thực: Bao gồm 1.496 hình ảnh có chú thích tương ứng được sử dụng để đánh giá hiệu suất và so sánh chuẩn.
Các ứng dụng
Bộ dữ liệu Kitti cho phép cải tiến trong lĩnh vực lái xe tự động và robot, hỗ trợ các nhiệm vụ như:
- Nhận thức xe tự hành : Mô hình đào tạo để phát hiện và theo dõi xe, người đi bộ và chướng ngại vật để điều hướng an toàn trong hệ thống xe tự lái.
- Hiểu cảnh 3D : Hỗ trợ ước tính độ sâu, tầm nhìn lập thể và định vị vật thể 3D để giúp máy móc hiểu được môi trường không gian.
- Dự đoán chuyển động và dòng chảy quang học : Cho phép phân tích chuyển động để dự đoán chuyển động của vật thể và cải thiện khả năng lập kế hoạch quỹ đạo trong môi trường động.
- Đánh giá chuẩn về thị giác máy tính : Hoạt động như một chuẩn mực để đánh giá hiệu suất trên nhiều tác vụ thị giác, bao gồm phát hiện và theo dõi đối tượng.
YAML bộ dữ liệu
Ultralytics Định nghĩa cấu hình tập dữ liệu kitti bằng tệp YAML. Tệp này chỉ định đường dẫn tập dữ liệu, nhãn lớp và siêu dữ liệu cần thiết cho quá trình huấn luyện. Tệp cấu hình có sẵn tại https://github.com/ ultralytics / ultralytics /blob/main/ ultralytics /cfg/datasets/kitti.yaml .
ultralytics /cfg/datasets/kitti.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# Kitti dataset by Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago
# Documentation: https://docs.ultralytics.com/datasets/detect/kitti/
# Example usage: yolo train data=kitti.yaml
# parent
# ├── ultralytics
# └── datasets
# └── kitti ← downloads here (390.5 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: kitti # dataset root dir
train: images/train # train images (relative to 'path') 5985 images
val: images/val # val images (relative to 'path') 1496 images
names:
0: car
1: van
2: truck
3: pedestrian
4: person_sitting
5: cyclist
6: tram
7: misc
# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/kitti.zip
Cách sử dụng
Để huấn luyện mô hình YOLO11n trên tập dữ liệu kitti trong 100 kỷ nguyên với kích thước ảnh là 640, hãy sử dụng các lệnh sau. Để biết thêm chi tiết, vui lòng tham khảo trang Huấn luyện .
Ví dụ huấn luyện
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on kitti dataset
results = model.train(data="kitti.yaml", epochs=100, imgsz=640)
yolo detect train data=kitti.yaml model=yolo11n.pt epochs=100 imgsz=640
Bạn cũng có thể thực hiện đánh giá, suy luận và xuất tác vụ trực tiếp từ dòng lệnh hoặc Python API sử dụng cùng một tệp cấu hình.
Ảnh và Chú thích mẫu
Bộ dữ liệu kitti cung cấp nhiều kịch bản lái xe đa dạng. Mỗi hình ảnh đều bao gồm chú thích hộp giới hạn cho các tác vụ phát hiện vật thể 2D. Ví dụ này cho thấy sự đa dạng phong phú của bộ dữ liệu, cho phép khái quát hóa mô hình mạnh mẽ trong nhiều điều kiện thực tế khác nhau.

Trích dẫn và Lời cảm ơn
Nếu bạn sử dụng tập dữ liệu kitti trong nghiên cứu của mình, vui lòng trích dẫn bài báo sau:
Trích dẫn
@article{Geiger2013IJRR,
author = {Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun},
title = {Vision meets Robotics: The KITTI Dataset},
journal = {International Journal of Robotics Research (IJRR)},
year = {2013}
}
Chúng tôi xin cảm ơn KITTI Vision Benchmark Suite đã cung cấp bộ dữ liệu toàn diện này, góp phần định hình sự tiến bộ trong lĩnh vực thị giác máy tính, robot và hệ thống tự động. Truy cập trang web kitti để biết thêm thông tin.
Câu hỏi thường gặp
Bộ dữ liệu kitti được sử dụng để làm gì?
Bộ dữ liệu kitti chủ yếu được sử dụng cho nghiên cứu thị giác máy tính trong lĩnh vực lái xe tự động, hỗ trợ các tác vụ như phát hiện vật thể, ước tính độ sâu, luồng quang học và định vị 3D.
Có bao nhiêu hình ảnh được đưa vào bộ dữ liệu kitti?
Bộ dữ liệu bao gồm 5.985 ảnh huấn luyện được gắn nhãn và 1.496 ảnh xác thực được chụp trên các cảnh đô thị, nông thôn và đường cao tốc. Bộ dữ liệu thử nghiệm ban đầu bị loại trừ ở đây vì không chứa chú thích thực tế.
Những lớp đối tượng nào được chú thích trong tập dữ liệu?
kitti bao gồm chú thích cho các đối tượng như ô tô, người đi bộ, người đi xe đạp, xe tải, xe điện và những người sử dụng đường bộ khác.
Tôi có thể tập luyện không? Ultralytics YOLO11 mô hình sử dụng tập dữ liệu kitti?
Có, kitti hoàn toàn tương thích với Ultralytics YOLO11 . Bạn có thể đào tạo và xác thực các mô hình trực tiếp bằng cách sử dụng tệp cấu hình YAML được cung cấp.
Tôi có thể tìm tệp cấu hình bộ dữ liệu kitti ở đâu?
Bạn có thể truy cập tệp YAML tại https://github.com/ ultralytics / ultralytics /blob/main/ ultralytics /cfg/datasets/kitti.yaml .