Link to this sectionBộ dữ liệu KITTI#
Bộ dữ liệu kitti là một trong những bộ dữ liệu chuẩn mực có ảnh hưởng nhất cho lái xe tự động và thị giác máy tính. Được phát hành bởi Viện Công nghệ Karlsruhe và Viện Công nghệ Toyota tại Chicago, bộ dữ liệu này chứa dữ liệu camera stereo, LiDAR và GPS/IMU được thu thập từ các kịch bản lái xe trong thế giới thực.
Watch: How to Train Ultralytics YOLO26 on the KITTI Dataset 🚀
Bộ dữ liệu này được sử dụng rộng rãi để đánh giá các thuật toán trong phát hiện đối tượng, ước tính độ sâu, luồng quang học và đo khoảng cách thị giác. Bộ dữ liệu này hoàn toàn tương thích với Ultralytics YOLO26 cho các tác vụ phát hiện đối tượng 2D và có thể dễ dàng tích hợp vào nền tảng Ultralytics để đào tạo và đánh giá.
Link to this sectionCấu trúc tập dữ liệu#
Tập kiểm thử gốc của kitti bị loại trừ ở đây vì nó không chứa các chú thích ground-truth.
Tổng cộng, bộ dữ liệu bao gồm 7.481 hình ảnh, mỗi hình ảnh được ghép nối với các chú thích chi tiết cho các đối tượng như ô tô, người đi bộ, người đi xe đạp và các yếu tố đường bộ khác. Bộ dữ liệu được chia thành hai tập hợp con chính:
- Tập huấn luyện (Training set): Chứa 5.985 hình ảnh với các nhãn chú thích được sử dụng để huấn luyện mô hình.
- Tập kiểm chứng (Validation set): Bao gồm 1.496 hình ảnh với các chú thích tương ứng được sử dụng để đánh giá hiệu suất và so sánh chuẩn.
Link to this sectionỨng dụng#
Bộ dữ liệu kitti cho phép đạt được những tiến bộ trong lái xe tự động và robot, hỗ trợ các tác vụ như:
- Nhận thức xe tự lái: Huấn luyện các mô hình để phát hiện và theo dõi phương tiện, người đi bộ và chướng ngại vật để điều hướng an toàn trong các hệ thống tự lái.
- Hiểu bối cảnh 3D: Hỗ trợ ước tính độ sâu, thị giác stereo và định vị đối tượng 3D để giúp máy móc hiểu các môi trường không gian.
- Luồng quang học và dự đoán chuyển động: Cho phép phân tích chuyển động để dự đoán sự di chuyển của các đối tượng và cải thiện lập kế hoạch quỹ đạo trong các môi trường động.
- So sánh chuẩn thị giác máy tính: Đóng vai trò là một tiêu chuẩn đánh giá hiệu suất trên nhiều tác vụ thị giác, bao gồm phát hiện và theo dõi đối tượng.
Link to this sectionYAML tập dữ liệu#
Ultralytics xác định cấu hình bộ dữ liệu kitti bằng cách sử dụng tệp YAML. Tệp này chỉ định các đường dẫn bộ dữ liệu, nhãn lớp và siêu dữ liệu cần thiết cho việc huấn luyện. Tệp cấu hình có sẵn tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/kitti.yaml.
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# KITTI dataset by Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago
# Documentation: https://docs.ultralytics.com/datasets/detect/kitti
# Example usage: yolo train data=kitti.yaml
# parent
# ├── ultralytics
# └── datasets
# └── kitti ← downloads here (390.5 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: kitti # dataset root dir
train: images/train # train images (relative to 'path') 5985 images
val: images/val # val images (relative to 'path') 1496 images
names:
0: car
1: van
2: truck
3: pedestrian
4: person_sitting
5: cyclist
6: tram
7: misc
# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/kitti.zipLink to this sectionCách sử dụng#
Để huấn luyện mô hình YOLO26n trên bộ dữ liệu kitti trong 100 epoch với kích thước hình ảnh là 640, hãy sử dụng các lệnh sau. Để biết thêm chi tiết, hãy tham khảo trang Huấn luyện (Training).
from ultralytics import YOLO
# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")
# Train on kitti dataset
results = model.train(data="kitti.yaml", epochs=100, imgsz=640)Bạn cũng có thể thực hiện đánh giá, suy luận (inference) và các tác vụ xuất (export) trực tiếp từ dòng lệnh hoặc API Python bằng cách sử dụng cùng một tệp cấu hình.
Link to this sectionHình ảnh mẫu và chú thích#
Bộ dữ liệu kitti cung cấp các kịch bản lái xe đa dạng. Mỗi hình ảnh bao gồm các chú thích hộp bao (bounding box) cho các tác vụ phát hiện đối tượng 2D. Các ví dụ thể hiện sự phong phú của bộ dữ liệu, cho phép mô hình khái quát hóa mạnh mẽ trong nhiều điều kiện thực tế khác nhau.
Link to this sectionTrích dẫn và Ghi nhận#
Nếu bạn sử dụng bộ dữ liệu kitti trong nghiên cứu của mình, vui lòng trích dẫn bài báo sau:
@article{Geiger2013IJRR,
author = {Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun},
title = {Vision meets Robotics: The KITTI Dataset},
journal = {International Journal of Robotics Research (IJRR)},
year = {2013}
}Chúng tôi xin ghi nhận KITTI Vision Benchmark Suite vì đã cung cấp bộ dữ liệu toàn diện này, vốn tiếp tục định hình sự tiến bộ trong lĩnh vực thị giác máy tính, robot và các hệ thống tự động. Truy cập trang web kitti để biết thêm thông tin.
Link to this sectionCâu hỏi thường gặp (FAQs)#
Link to this sectionBộ dữ liệu kitti được sử dụng để làm gì?#
Bộ dữ liệu kitti chủ yếu được sử dụng cho nghiên cứu thị giác máy tính trong lái xe tự động, hỗ trợ các tác vụ như phát hiện đối tượng, ước tính độ sâu, luồng quang học và định vị 3D.
Link to this sectionBộ dữ liệu kitti bao gồm bao nhiêu hình ảnh?#
Bộ dữ liệu bao gồm 5.985 hình ảnh huấn luyện được dán nhãn và 1.496 hình ảnh kiểm chứng được chụp trên các khung cảnh đô thị, nông thôn và đường cao tốc. Tập kiểm thử gốc bị loại trừ ở đây vì nó không chứa các chú thích ground-truth.
Link to this sectionNhững lớp đối tượng nào được chú thích trong bộ dữ liệu?#
kitti bao gồm các chú thích cho các đối tượng như ô tô, người đi bộ, người đi xe đạp, xe tải, xe điện và các loại người tham gia giao thông khác.
Link to this sectionTôi có thể huấn luyện các mô hình Ultralytics YOLO26 bằng cách sử dụng bộ dữ liệu kitti không?#
Có, kitti hoàn toàn tương thích với Ultralytics YOLO26. Bạn có thể huấn luyện (train) và kiểm chứng (validate) các mô hình trực tiếp bằng cách sử dụng tệp cấu hình YAML được cung cấp.
Link to this sectionTôi có thể tìm tệp cấu hình bộ dữ liệu kitti ở đâu?#
Bạn có thể truy cập tệp YAML tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/kitti.yaml.