Link to this sectionTập dữ liệu Argoverse#

Name: Bộ dữ liệu phát hiện Argoverse
Creator: Argo AI
License: https://creativecommons.org/licenses/by-nc-sa/4.0/
Keywords: Tập dữ liệu Argoverse, Argoverse-HD, object detection, Phát hiện 2D, lái xe tự động, bộ dữ liệu xe tự lái, YOLO26, phát hiện giao thông, Ultralytics

Bộ dữ liệu Argoverse của Ultralytics (Argoverse-HD) là bộ dữ liệu phát hiện đối tượng 2D bao gồm 54.446 hình ảnh lái xe tự động có dán nhãn — 39.384 cho đào tạo và 15.062 cho kiểm thử — trên 8 lớp: người, xe đạp, ô tô, xe máy, xe buýt, xe tải, đèn giao thông và biển báo dừng. Các hình ảnh được ghi lại từ camera trước trung tâm của xe và các chú thích đến từ dự án nhận thức luồng của Đại học Carnegie Mellon, được xây dựng trên dữ liệu lái xe Argoverse 1.1 của Argo AI. Đây là một tập chuẩn thực tế, quy mô lớn để đào tạo các mô hình thị giác máy tính nhằm phát hiện các đối tượng trên đường trong các tình huống lái xe tự động.

Yêu cầu tải xuống thủ công

Tệp *.zip Argoverse-HD (~31,5 GB) cần thiết cho việc đào tạo đã bị xóa khỏi Amazon S3 sau khi Ford đóng cửa Argo AI. Tệp này có sẵn để tải xuống thủ công từ Google Drive — tính năng tải xuống tự động sẽ không hoạt động, vì vậy hãy tải xuống tệp lưu trữ trước khi đào tạo.

Link to this sectionTính năng chính#

8 lớp phát hiện đối tượng: người, xe đạp, ô tô, xe máy, xe buýt, xe tải, đèn giao thông và biển báo dừng.
54.446 hình ảnh có dán nhãn — 39.384 cho đào tạo và 15.062 cho kiểm thử — cộng với một tập dữ liệu kiểm tra không dán nhãn được dành riêng cho thử thách eval.ai.
~31,5 GB các khung hình camera trước trung tâm độ phân giải cao được ghi lại trong các cảnh lái xe tự động trong đô thị.
Các chú thích được tự động chuyển đổi sang định dạng YOLO trong lần sử dụng đầu tiên, vì vậy bộ dữ liệu này đào tạo trực tiếp với các mô hình phát hiện Ultralytics YOLO.

Link to this sectionCấu trúc tập dữ liệu#

Bộ dữ liệu Argoverse-HD được chia thành ba tập hợp con được xác định trước, được định nghĩa bởi cấu hình Argoverse.yaml:

Split	Hình ảnh	Nhãn
Huấn luyện (Train)	39.384	Có
Validation	15.062	Có
Kiểm thử	—	Không dán nhãn (thử thách eval.ai)

Tất cả các hình ảnh chia sẻ chung 8 lớp đối tượng (chỉ số 0–7): người, xe đạp, ô tô, xe máy, xe buýt, xe tải, đèn giao thông và biển báo dừng.

Chuyển đổi YOLO tự động

Sau khi tải xuống thủ công, Ultralytics sẽ tự động chuyển đổi các chú thích Argoverse-HD gốc thành nhãn phát hiện YOLO vào lần đầu tiên bạn đào tạo, vì vậy không cần tiền xử lý thủ công.

Link to this sectionỨng dụng#

Bộ dữ liệu Argoverse-HD hỗ trợ một loạt các ứng dụng phát hiện đối tượng trong lái xe tự động:

Nhận thức lái xe tự động — phát hiện phương tiện, người đi bộ và người đi xe đạp từ camera hướng về phía trước để hỗ trợ điều hướng phương tiện tự lái.
Hệ thống hỗ trợ lái xe nâng cao (ADAS) — nhận diện đèn giao thông và biển báo dừng để cảnh báo tài xế theo thời gian thực.
Giám sát giao thông — đếm và theo dõi người tham gia giao thông trong các cảnh đô thị để phục vụ phân tích thành phố thông minh.
Nghiên cứu và tạo mẫu — một tập chuẩn thực tế, quy mô lớn để học đào tạo mô hình và dự đoán trên dữ liệu lái xe.

Link to this sectionYAML tập dữ liệu#

Tệp YAML xác định cấu hình tập dữ liệu, bao gồm các đường dẫn, lớp và các chi tiết liên quan khác. Đối với tập dữ liệu Argoverse, tệp Argoverse.yaml được duy trì tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/Argoverse.yaml.

ultralytics/cfg/datasets/Argoverse.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Argoverse-HD dataset (ring-front-center camera) by Argo AI: https://www.cs.cmu.edu/~mengtial/proj/streaming/
# Documentation: https://docs.ultralytics.com/datasets/detect/argoverse
# Example usage: yolo train data=Argoverse.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── Argoverse ← downloads here (31.5 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: Argoverse # dataset root dir
train: Argoverse-1.1/images/train/ # train images (relative to 'path') 39384 images
val: Argoverse-1.1/images/val/ # val images (relative to 'path') 15062 images
test: Argoverse-1.1/images/test/ # test images (optional) https://eval.ai/web/challenges/challenge-page/800/overview

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: bus
  5: truck
  6: traffic_light
  7: stop_sign

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import json
  from pathlib import Path

  from ultralytics.utils import TQDM
  from ultralytics.utils.downloads import download

  def argoverse2yolo(annotation_file):
      """Convert Argoverse dataset annotations to YOLO format for object detection tasks."""
      labels = {}
      with open(annotation_file, encoding="utf-8") as f:
          a = json.load(f)
      for annot in TQDM(a["annotations"], desc=f"Converting {annotation_file} to YOLO format..."):
          img_id = annot["image_id"]
          img_name = a["images"][img_id]["name"]
          img_label_name = f"{Path(img_name).stem}.txt"

          cls = annot["category_id"]  # instance class id
          x_center, y_center, width, height = annot["bbox"]
          x_center = (x_center + width / 2) / 1920.0  # offset and scale
          y_center = (y_center + height / 2) / 1200.0  # offset and scale
          width /= 1920.0  # scale
          height /= 1200.0  # scale

          img_dir = annotation_file.parents[2] / "Argoverse-1.1" / "labels" / a["seq_dirs"][a["images"][annot["image_id"]]["sid"]]
          if not img_dir.exists():
              img_dir.mkdir(parents=True, exist_ok=True)

          k = str(img_dir / img_label_name)
          if k not in labels:
              labels[k] = []
          labels[k].append(f"{cls} {x_center} {y_center} {width} {height}\n")

      for k in labels:
          with open(k, "w", encoding="utf-8") as f:
              f.writelines(labels[k])

  # Download 'https://argoverse-hd.s3.amazonaws.com/Argoverse-HD-Full.zip' (deprecated S3 link)
  dir = Path(yaml["path"])  # dataset root dir
  urls = ["https://drive.google.com/file/d/1st9qW3BeIwQsnR0t8mRpvbsSWIo16ACi/view?usp=drive_link"]
  print("\n\nWARNING: Argoverse dataset MUST be downloaded manually, autodownload will NOT work.")
  print(f"WARNING: Manually download Argoverse dataset '{urls[0]}' to '{dir}' and re-run your command.\n\n")
  # download(urls, dir=dir)

  # Convert
  annotations_dir = "Argoverse-HD/annotations/"
  (dir / "Argoverse-1.1" / "tracking").rename(dir / "Argoverse-1.1" / "images")  # rename 'tracking' to 'images'
  for d in "train.json", "val.json":
      argoverse2yolo(dir / annotations_dir / d)  # convert Argoverse annotations to YOLO labels

Link to this sectionCách sử dụng#

Để đào tạo mô hình YOLO26n trên bộ dữ liệu Argoverse trong 100 epoch với kích thước hình ảnh là 640, hãy sử dụng các mẫu mã sau. Để có danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.

Ví dụ về Training

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="Argoverse.yaml", epochs=100, imgsz=640)

Sau khi đào tạo, hãy chạy suy luận với mô hình đã tinh chỉnh trên các hình ảnh hoặc video lái xe mới:

Ví dụ về Inference

from ultralytics import YOLO

# Load a model
model = YOLO("path/to/best.pt")  # load an Argoverse fine-tuned model

# Inference using the model
results = model.predict("path/to/driving-scene.jpg")

Link to this sectionDữ liệu mẫu và Chú thích#

Bộ dữ liệu Argoverse-HD chứa các hình ảnh lái xe độ phân giải cao được ghi lại từ camera trước trung tâm, được chú thích bằng các hộp bao (bounding box) 2D cho 8 lớp đối tượng. Dưới đây là hình ảnh ví dụ từ bộ dữ liệu với các chú thích tương ứng:

Cảnh lái xe tự động Argoverse-HD với các đối tượng đường bộ được chú thích

Cảnh lái xe được chú thích: Hình ảnh này cho thấy các đối tượng trên đường — chẳng hạn như phương tiện và người đi bộ — được dán nhãn với các hộp bao 2D, định dạng mà các mô hình YOLO học để dự đoán trong quá trình đào tạo.

Link to this sectionTrích dẫn và Ghi nhận#

Các chú thích phát hiện 2D Argoverse-HD được sử dụng trong bộ dữ liệu này đến từ công trình nghiên cứu nhận thức luồng của Đại học Carnegie Mellon. Nếu bạn sử dụng bộ dữ liệu này trong nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn:

Trích dẫn

@inproceedings{li2020towards,
  title={Towards Streaming Perception},
  author={Li, Mengtian and Wang, Yu-Xiong and Ramanan, Deva},
  booktitle={Proceedings of the European Conference on Computer Vision (ECCV)},
  pages={473--488},
  year={2020}
}

@inproceedings{chang2019argoverse,
  title={Argoverse: 3D Tracking and Forecasting with Rich Maps},
  author={Chang, Ming-Fang and Lambert, John and Sangkloy, Patsorn and Singh, Jagjeet and Bak, Slawomir and Hartnett, Andrew and Wang, Dequan and Carr, Peter and Lucey, Simon and Ramanan, Deva and others},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={8748--8757},
  year={2019}
}

Chúng tôi muốn ghi nhận Đại học Carnegie Mellon vì các chú thích phát hiện Argoverse-HD và Argo AI vì đã tạo ra bộ dữ liệu Argoverse gốc như một tài nguyên có giá trị cho cộng đồng nghiên cứu lái xe tự động.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionBộ dữ liệu Argoverse là gì và nó được sử dụng để làm gì?#

Bộ dữ liệu Argoverse của Ultralytics (Argoverse-HD) là một bộ dữ liệu phát hiện đối tượng 2D gồm 54.446 hình ảnh lái xe tự động trên 8 lớp — người, xe đạp, ô tô, xe máy, xe buýt, xe tải, đèn giao thông và biển báo dừng. Nó được sử dụng để đào tạo và đánh giá các mô hình phát hiện đối tượng đường bộ từ camera phía trước của phương tiện, hỗ trợ nghiên cứu về nhận thức tự lái, ADAS và giám sát giao thông.

Link to this sectionBộ dữ liệu Argoverse có bao nhiêu lớp và hình ảnh?#

Bộ dữ liệu Argoverse-HD có 8 lớp (người, xe đạp, ô tô, xe máy, xe buýt, xe tải, đèn giao thông và biển báo dừng) và 54.446 hình ảnh có dán nhãn — 39.384 cho đào tạo và 15.062 cho kiểm thử — cộng với một tập dữ liệu kiểm tra không dán nhãn được dành riêng cho thử thách eval.ai.

Link to this sectionBộ dữ liệu Argoverse là phát hiện 2D hay 3D trong Ultralytics?#

Trong Ultralytics, đây là một bộ dữ liệu phát hiện đối tượng 2D (các khung hình camera Argoverse-HD với các hộp bao 2D), không phải bộ dữ liệu theo dõi 3D, dự báo chuyển động hay nghiên cứu LiDAR từ chương trình Argoverse mở rộng. Bạn đào tạo nó với một mô hình phát hiện tiêu chuẩn như yolo26n.pt.

Link to this sectionLàm thế nào để đào tạo mô hình YOLO26 bằng bộ dữ liệu Argoverse?#

Trước tiên hãy tải xuống bộ dữ liệu theo cách thủ công (xem bên dưới), sau đó đào tạo với tệp cấu hình Argoverse.yaml:

Ví dụ

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="Argoverse.yaml", epochs=100, imgsz=640)

Để biết giải thích chi tiết về các đối số, hãy tham khảo trang Training của mô hình.

Link to this sectionTôi có thể tải tập dữ liệu Argoverse ở đâu sau khi nó bị xóa khỏi Amazon S3?#

Tệp *.zip Argoverse-HD (~31,5 GB), trước đây được lưu trữ trên Amazon S3, giờ đây có thể được tải xuống thủ công từ Google Drive. Tính năng tải xuống tự động sẽ không hoạt động, vì vậy hãy lấy tệp lưu trữ trước khi chạy lệnh đào tạo của bạn.

Link to this sectionTôi có thể sử dụng bộ dữ liệu Argoverse với Ultralytics Platform không?#

Có. Ultralytics Platform cho phép bạn tải lên và quản lý phiên bản cho các bộ dữ liệu lớn như Argoverse-HD, sau đó đào tạo và triển khai các mô hình phát hiện đối tượng trên đám mây mà không cần thiết lập cục bộ phức tạp. Bạn cũng có thể duyệt qua các bộ dữ liệu liên quan trong tổng quan về bộ dữ liệu phát hiện.

Người đóng góp

GLglenn-jocher¹³ RAraimbekovm³ MAMatthewNoyce¹ RIRizwanMunawar¹

Đã tạo 12 thg 11, 2023Đã cập nhật Hôm qua