Chuyển đến nội dung

Bộ dữ liệu

Bộ dữ liệu của nền tảng Ultralytics cung cấp giải pháp tối ưu hóa việc quản lý dữ liệu huấn luyện. Sau khi tải lên, bộ dữ liệu có thể được sử dụng ngay lập tức để huấn luyện mô hình, với quá trình xử lý tự động và tạo số liệu thống kê.


Xem: Tải lên các tập dữ liệu lên Ultralytics Nền tảng

Tải lên Bộ dữ liệu

Ultralytics Nền tảng hỗ trợ nhiều định dạng tải lên khác nhau để tăng tính linh hoạt:

Định dạngMô tả
ẢnhCác tệp hình ảnh riêng lẻ (JPG, PNG, WebP, TIFF, RAW)
Tệp lưu trữ ZIPThư mục nén chứa hình ảnh và nhãn tùy chọn.
Băng hìnhCác tệp MP4, AVI - các khung hình được trích xuất ở tốc độ ~1 khung hình/giây
YOLO Định dạngTiêu chuẩn YOLO cấu trúc thư mục có nhãn

Trích xuất khung hình video

Khi tải video lên, các khung hình sẽ được tự động trích xuất:

  • Tốc độ khung hình : ~1 khung hình mỗi giây
  • Số khung hình tối đa : 100 khung hình mỗi video
  • Xử lý : Trích xuất dữ liệu phía máy khách trước khi tải lên.
  • Định dạng : Các khung hình được chuyển đổi sang định dạng hình ảnh tiêu chuẩn.

Đây là giải pháp lý tưởng để tạo bộ dữ liệu huấn luyện từ cảnh quay giám sát, ghi hình hành động hoặc bất kỳ nguồn video nào.

Chuẩn bị tập dữ liệu của bạn

Đối với các tập dữ liệu được gắn nhãn, hãy sử dụng tiêu chuẩn. YOLO định dạng:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Tệp YAML định nghĩa cấu hình tập dữ liệu của bạn:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Quá trình tải lên

  1. Truy cập mục Tập dữ liệu trong thanh bên.
  2. Nhấp vào Tải lên tập dữ liệu hoặc kéo tệp vào khu vực tải lên.
  3. Chọn loại nhiệm vụ ( detect , segment , tư thế, OBB, classify )
  4. Thêm tên và mô tả (nếu có).
  5. Nhấp vào Tải lên

Sau khi tải lên, nền tảng sẽ xử lý dữ liệu của bạn:

  1. Chuẩn hóa : Ảnh có kích thước lớn đã được thu nhỏ (tối đa 4096px)
  2. Ảnh thu nhỏ : Ảnh xem trước có kích thước 256px được tạo tự động
  3. Phân tích nhãn : YOLO nhãn định dạng được trích xuất
  4. Thống kê : Tính toán phân bố lớp.
Xác thực trước khi tải lên

Bạn có thể kiểm tra tính hợp lệ của tập dữ liệu cục bộ trước khi tải lên:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Xem hình ảnh

Xem hình ảnh trong bộ dữ liệu của bạn ở nhiều bố cục khác nhau:

XemMô tả
LướiLưới hình thu nhỏ với lớp phủ chú thích
Nhỏ gọnẢnh thu nhỏ nhỏ hơn để dễ dàng quét nhanh.
BànDanh sách bao gồm tên tệp, kích thước và số lượng nhãn.

Trình xem toàn màn hình

Nhấp chuột vào bất kỳ hình ảnh nào để mở trình xem toàn màn hình với:

  • Điều hướng : Sử dụng phím mũi tên hoặc nhấp chuột để duyệt
  • Siêu dữ liệu : Tên tệp, kích thước, phân tách, số lượng nhãn
  • Chú thích : Bật/tắt hiển thị chú thích
  • Phân loại theo lớp : Số lượng nhãn theo từng lớp

Lọc theo Tách

Lọc hình ảnh theo phân chia tập dữ liệu của chúng:

Tách raMục đích
Huấn luyệnĐược sử dụng để huấn luyện mô hình.
ValĐược sử dụng để xác thực trong quá trình huấn luyện.
Bài kiểm traĐược sử dụng cho đánh giá cuối cùng
Không rõKhông có sự phân chia nào được chỉ định.

Thống kê tập dữ liệu

Tab Thống kê cung cấp chức năng phân tích tự động tập dữ liệu của bạn:

Phân phối lớp

Biểu đồ cột thể hiện số lượng chú thích cho mỗi lớp:

Bản đồ nhiệt vị trí

Hình ảnh minh họa vị trí hiển thị chú thích trong ảnh:

Phân tích chiều

Biểu đồ phân tán thể hiện kích thước ảnh (chiều rộng so với chiều cao):

Bộ nhớ đệm thống kê

Số liệu thống kê được lưu vào bộ nhớ đệm trong 5 phút. Các thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.

Xuất tập dữ liệu

Xuất bộ dữ liệu của bạn ở định dạng NDJSON để sử dụng ngoại tuyến:

  1. Mở menu thao tác tập dữ liệu
  2. Nhấp vào Xuất
  3. Tải xuống tệp NDJSON

Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

Xem tài liệu hướng dẫn định dạng NDJSON Ultralytics để biết thông số kỹ thuật đầy đủ.

URI tập dữ liệu

Bộ dữ liệu Nền tảng Tham chiếu sử dụng ul:// Định dạng URI:

ul://username/datasets/dataset-slug

Sử dụng URI này để huấn luyện mô hình từ bất kỳ đâu:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100

Huấn luyện mọi lúc mọi nơi với Platform Data

Hàm ul:// URI hoạt động trong mọi môi trường:

  • Máy cục bộ : Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động.
  • Google Colab : Truy cập bộ dữ liệu nền tảng của bạn trong sổ tay Jupyter.
  • Máy chủ từ xa : Huấn luyện trên máy ảo đám mây với quyền truy cập đầy đủ vào bộ dữ liệu.

Cài đặt hiển thị

Kiểm soát ai có thể xem tập dữ liệu của bạn:

Thiết lậpMô tả
Riêng tưChỉ bạn mới có thể truy cập
Công cộngBất kỳ ai cũng có thể xem trên trang Khám phá.

Để thay đổi chế độ hiển thị:

  1. Mở menu thao tác tập dữ liệu
  2. Nhấp vào Chỉnh sửa
  3. Bật/tắt cài đặt hiển thị
  4. Nhấp vào Lưu

Chỉnh sửa Tập dữ liệu

Cập nhật tên, mô tả hoặc chế độ hiển thị của tập dữ liệu:

  1. Mở menu thao tác tập dữ liệu
  2. Nhấp vào Chỉnh sửa
  3. Thực hiện thay đổi
  4. Nhấp vào Lưu

Xóa bộ dữ liệu

Xóa tập dữ liệu mà bạn không còn cần nữa:

  1. Mở menu thao tác tập dữ liệu
  2. Nhấp vào Xóa
  3. Xác nhận xóa

Thùng rác và Khôi phục

Các tập dữ liệu đã xóa sẽ được chuyển vào Thùng rác trong 30 ngày. Bạn có thể khôi phục chúng từ trang Thùng rác trong Cài đặt.

Huấn luyện trên tập dữ liệu

Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:

  1. Nhấp vào "Huấn luyện mô hình" trên trang tập dữ liệu.
  2. Chọn một dự án hoặc tạo dự án mới.
  3. Cấu hình các tham số huấn luyện
  4. Bắt đầu huấn luyện

Xem phần Đào tạo về Điện toán đám mây để biết thêm chi tiết.

Câu hỏi thường gặp

Dữ liệu của tôi sẽ được xử lý như thế nào sau khi tải lên?

Dữ liệu của bạn được xử lý và lưu trữ tại khu vực bạn đã chọn (Mỹ, EU hoặc...) AP ). Các hình ảnh là:

  1. Đã được kiểm tra về định dạng và kích thước.
  2. Đã chuẩn hóa nếu kích thước lớn hơn 4096px (giữ nguyên tỷ lệ khung hình)
  3. Được lưu trữ bằng phương thức lưu trữ theo địa chỉ nội dung (CAS) với thuật toán băm SHA-256.
  4. Ảnh thu nhỏ được tạo ở kích thước 256px để duyệt nhanh hơn.
  5. Sẽ không bao giờ chia sẻ mà không có sự cho phép của bạn.

Quá trình lưu trữ hoạt động như thế nào?

Ultralytics Nền tảng này sử dụng bộ nhớ dựa trên địa chỉ nội dung (CAS) để lưu trữ hiệu quả:

  • Loại bỏ trùng lặp : Các hình ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần.
  • Tính toàn vẹn : Thuật toán băm SHA-256 đảm bảo tính toàn vẹn của dữ liệu.
  • Hiệu quả : Giảm chi phí lưu trữ và tăng tốc độ xử lý.
  • Khu vực : Dữ liệu được lưu trữ trong khu vực bạn đã chọn (Mỹ, EU hoặc...) AP )

Tôi có thể thêm hình ảnh vào tập dữ liệu hiện có không?

Vâng, hãy sử dụng nút "Thêm hình ảnh" trên trang dữ liệu để tải lên các hình ảnh bổ sung. Số liệu thống kê mới sẽ được tính toán tự động.

Làm thế nào để chuyển hình ảnh giữa các tập dữ liệu?

Sử dụng tính năng chọn hàng loạt:

  1. Chọn hình ảnh trong thư viện
  2. Nhấp vào Di chuyển hoặc Sao chép
  3. Chọn tập dữ liệu đích

Những định dạng nhãn nào được hỗ trợ?

Ultralytics Nền tảng hỗ trợ YOLO định dạng nhãn:

  • Phát hiện: class_id x_center y_center width height
  • Phân đoạn: class_id x1 y1 x2 y2 ... (các điểm đa giác)
  • Pose (Dáng điệu/Tư thế): class_id x_center y_center width height kp1_x kp1_y kp1_v ...
  • OBB: class_id x1 y1 x2 y2 x3 y3 x4 y4

Tất cả các tọa độ đều được chuẩn hóa (trong khoảng 0-1).



📅 Được tạo 0 ngày trước ✏️ Được cập nhật 0 ngày trước
glenn-jocher

Bình luận