Chuyển đến nội dung

Bộ dữ liệu

Ultralytics Platform cung cấp một giải pháp tối ưu để quản lý dữ liệu huấn luyện của bạn. Sau khi tải lên, các tập dữ liệu có thể được sử dụng ngay lập tức để huấn luyện mô hình, với khả năng xử lý tự động và tạo thống kê.

Tải lên Bộ dữ liệu

Ultralytics Nền tảng hỗ trợ nhiều định dạng tải lên khác nhau để tăng tính linh hoạt.

Các định dạng hình ảnh được hỗ trợ

Định dạngPhần mở rộngGhi chú
JPEG.jpg, .jpegPhổ biến nhất, được khuyến nghị
PNG.pngỦng hộ tính minh bạch
WebP.webpHiện đại, khả năng nén tốt
BMP.bmpChưa nén
GIF.gifKhung hình đầu tiên được trích xuất
TIFF.tiff, .tifChất lượng cao
HEIC.heicẢnh chụp bằng iPhone
AVIF.avifĐịnh dạng thế hệ tiếp theo
JP2.jp2JPEG 2000
DNG.dngMáy ảnh RAW

Các định dạng video được hỗ trợ

Video được tự động trích xuất thành từng khung hình:

Định dạngPhần mở rộngChiết xuất
MP4.mp41 FPS, tối đa 100 khung hình/giây
WebM.webm1 FPS, tối đa 100 khung hình/giây
MOV.mov1 FPS, tối đa 100 khung hình/giây
AVI.avi1 FPS, tối đa 100 khung hình/giây
MKV.mkv1 FPS, tối đa 100 khung hình/giây
M4V.m4v1 FPS, tối đa 100 khung hình/giây

Giới hạn kích thước tệp

LoạiKích thước tối đa
ẢnhMỗi cái có dung lượng 50 MB.
Video1 GB mỗi cái
Tệp ZIP50 GB

Lưu trữ

Hỗ trợ các tệp ZIP có dung lượng lên đến 50GB, giữ nguyên cấu trúc thư mục và tự động giải nén, xử lý.

Chuẩn bị Tập dữ liệu của bạn

Đối với các tập dữ liệu đã được gán nhãn, hãy sử dụng định dạng YOLO tiêu chuẩn:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Tệp YAML định nghĩa cấu hình tập dữ liệu của bạn:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Quy trình tải lên

  1. Điều hướng đến Tập dữ liệu trong thanh bên
  2. Nhấp vào Tải lên Tập dữ liệu hoặc kéo tệp vào khu vực tải lên
  3. Chọn loại tác vụ (detect, segment, pose, obb, classify)
  4. Thêm tên và mô tả tùy chọn
  5. Nhấp vào Tải lên

Sau khi tải lên, Nền tảng sẽ xử lý dữ liệu của bạn:

  1. Chuẩn hóa: Hình ảnh lớn được thay đổi kích thước (tối đa 4096px)
  2. Hình thu nhỏ: Hình xem trước 256px được tạo
  3. Phân tích nhãn: Nhãn định dạng YOLO được trích xuất
  4. Thống kê: Phân bố lớp được tính toán
Xác thực trước khi tải lên

Bạn có thể xác thực tập dữ liệu của mình cục bộ trước khi tải lên:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Duyệt hình ảnh

Xem hình ảnh tập dữ liệu của bạn trong nhiều bố cục khác nhau:

XemMô tả
Dạng lướiLưới hình thu nhỏ với lớp phủ chú thích
Thu gọnHình thu nhỏ nhỏ hơn để quét nhanh
BảngDanh sách với tên tệp, kích thước và số lượng nhãn

Trình xem toàn màn hình

Nhấp vào bất kỳ hình ảnh nào để mở trình xem toàn màn hình với:

  • Điều hướng: Phím mũi tên hoặc nhấp để duyệt
  • Siêu dữ liệu: Tên tệp, kích thước, phân tách, số lượng nhãn
  • Chú thích: Bật/tắt hiển thị chú thích
  • Phân tích lớp: Số lượng nhãn theo từng lớp

Lọc theo phân tách

Lọc hình ảnh theo phân tách tập dữ liệu của chúng:

Phân táchMục đích
Huấn luyệnĐược sử dụng để huấn luyện mô hình
ValĐược sử dụng để xác thực trong quá trình huấn luyện
Kiểm thửĐược sử dụng để đánh giá cuối cùng
Không xác địnhChưa gán phân tách

Thống kê tập dữ liệu

Tab Thống kê cung cấp phân tích tự động về tập dữ liệu của bạn:

Phân phối lớp

Biểu đồ cột hiển thị số lượng chú thích trên mỗi lớp:

Bản đồ nhiệt vị trí

Trực quan hóa vị trí chú thích xuất hiện trong hình ảnh:

Phân tích kích thước

Biểu đồ phân tán kích thước hình ảnh (chiều rộng so với chiều cao):

Bộ nhớ đệm thống kê

Thống kê được lưu vào bộ nhớ đệm trong 5 phút. Các thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.

Xuất Tập dữ liệu

Xuất tập dữ liệu của bạn ở định dạng NDJSON để sử dụng ngoại tuyến:

  1. Mở menu hành động tập dữ liệu
  2. Nhấp vào Xuất
  3. Tải xuống tệp NDJSON

Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

Xem tài liệu định dạng NDJSON của Ultralytics để biết thông số kỹ thuật đầy đủ.

URI tập dữ liệu

Tham chiếu các tập dữ liệu Nền tảng bằng cách sử dụng ul:// định dạng URI:

ul://username/datasets/dataset-slug

Sử dụng URI này để huấn luyện mô hình từ bất kỳ đâu:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Huấn luyện mọi nơi với dữ liệu Nền tảng

Hàm ul:// URI hoạt động trong mọi môi trường:

  • Máy cục bộ: Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động
  • Google Colab: Truy cập các tập dữ liệu Nền tảng của bạn trong sổ ghi chép
  • Máy chủ từ xa: Huấn luyện trên các máy ảo đám mây với quyền truy cập đầy đủ vào tập dữ liệu

Cài đặt hiển thị

Kiểm soát ai có thể xem tập dữ liệu của bạn:

Thiết lậpMô tả
Riêng tưChỉ bạn có thể truy cập
Công khaiBất kỳ ai cũng có thể xem trên trang Khám phá

Để thay đổi chế độ hiển thị:

  1. Mở menu hành động tập dữ liệu
  2. Nhấp vào Chỉnh sửa
  3. Chuyển đổi cài đặt hiển thị
  4. Nhấp vào Lưu

Chỉnh sửa Tập dữ liệu

Cập nhật tên, mô tả hoặc khả năng hiển thị của tập dữ liệu:

  1. Mở menu hành động tập dữ liệu
  2. Nhấp vào Chỉnh sửa
  3. Thực hiện thay đổi
  4. Nhấp vào Lưu

Xóa bộ dữ liệu

Xóa tập dữ liệu bạn không còn cần:

  1. Mở menu hành động tập dữ liệu
  2. Nhấp vào Xóa
  3. Xác nhận xóa

Thùng rác và Khôi phục

Các tập dữ liệu đã xóa sẽ được chuyển vào Thùng rác trong 30 ngày. Bạn có thể khôi phục chúng từ trang Thùng rác trong Cài đặt.

Huấn luyện trên tập dữ liệu

Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:

  1. Nhấp vào Huấn luyện Mô hình trên trang tập dữ liệu
  2. Chọn một dự án hoặc tạo mới
  3. Cấu hình các tham số huấn luyện
  4. Bắt đầu huấn luyện

Xem Huấn luyện trên Đám mây để biết chi tiết.

Câu hỏi thường gặp

Dữ liệu của tôi sẽ được xử lý như thế nào sau khi tải lên?

Dữ liệu của bạn được xử lý và lưu trữ trong khu vực bạn đã chọn (US, EU hoặc AP). Hình ảnh được:

  1. Đã xác thực về định dạng và kích thước
  2. Đã chuẩn hóa nếu lớn hơn 4096px (giữ nguyên tỷ lệ khung hình)
  3. Được lưu trữ bằng Lưu trữ dựa trên nội dung (CAS) với băm SHA-256
  4. Hình thu nhỏ được tạo ở 256px để duyệt nhanh

Lưu trữ hoạt động như thế nào?

Nền tảng Ultralytics sử dụng Lưu trữ dựa trên nội dung (CAS) để lưu trữ hiệu quả:

  • Khử trùng lặp: Các hình ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần
  • Tính toàn vẹn: Băm SHA-256 đảm bảo tính toàn vẹn của dữ liệu
  • Hiệu quả: Giảm chi phí lưu trữ và tăng tốc độ xử lý
  • Theo khu vực: Dữ liệu nằm trong khu vực bạn đã chọn (Mỹ, EU hoặc AP)

Tôi có thể thêm hình ảnh vào một tập dữ liệu hiện có không?

Có, sử dụng nút Thêm hình ảnh trên trang tập dữ liệu để tải lên các hình ảnh bổ sung. Các số liệu thống kê mới sẽ được tính toán tự động.

Làm cách nào để di chuyển hình ảnh giữa các tập dữ liệu?

Sử dụng tính năng chọn hàng loạt:

  1. Chọn hình ảnh trong thư viện
  2. Nhấp vào Di chuyển hoặc Sao chép
  3. Chọn tập dữ liệu đích

Những định dạng nhãn nào được hỗ trợ?

Nền tảng Ultralytics hỗ trợ nhãn định dạng YOLO:

Tác vụĐịnh dạngVí dụ
Phát hiệnclass cx cy w h0 0.5 0.5 0.2 0.3
Phân đoạnclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Pose (Dáng điệu/Tư thế)class cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
Phân loạiCấu trúc thư mụctrain/cats/, train/dogs/

Tất cả tọa độ đều được chuẩn hóa (trong khoảng 0-1). Cờ hiển thị tư thế: 0 = không được gắn nhãn, 1 = được gắn nhãn nhưng bị che khuất, 2 = được gắn nhãn và hiển thị rõ.



📅 Được tạo 20 ngày trước ✏️ Cập nhật 12 ngày trước
glenn-jocherLaughing-q

Bình luận