Bộ dữ liệu
Ultralytics Platform cung cấp một giải pháp tối ưu để quản lý dữ liệu huấn luyện của bạn. Sau khi tải lên, các tập dữ liệu có thể được sử dụng ngay lập tức để huấn luyện mô hình, với khả năng xử lý tự động và tạo thống kê.
Tải lên Bộ dữ liệu
Ultralytics Nền tảng hỗ trợ nhiều định dạng tải lên khác nhau để tăng tính linh hoạt.
Các định dạng hình ảnh được hỗ trợ
| Định dạng | Phần mở rộng | Ghi chú |
|---|---|---|
| JPEG | .jpg, .jpeg | Phổ biến nhất, được khuyến nghị |
| PNG | .png | Ủng hộ tính minh bạch |
| WebP | .webp | Hiện đại, khả năng nén tốt |
| BMP | .bmp | Chưa nén |
| GIF | .gif | Khung hình đầu tiên được trích xuất |
| TIFF | .tiff, .tif | Chất lượng cao |
| HEIC | .heic | Ảnh chụp bằng iPhone |
| AVIF | .avif | Định dạng thế hệ tiếp theo |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | Máy ảnh RAW |
Các định dạng video được hỗ trợ
Video được tự động trích xuất thành từng khung hình:
| Định dạng | Phần mở rộng | Chiết xuất |
|---|---|---|
| MP4 | .mp4 | 1 FPS, tối đa 100 khung hình/giây |
| WebM | .webm | 1 FPS, tối đa 100 khung hình/giây |
| MOV | .mov | 1 FPS, tối đa 100 khung hình/giây |
| AVI | .avi | 1 FPS, tối đa 100 khung hình/giây |
| MKV | .mkv | 1 FPS, tối đa 100 khung hình/giây |
| M4V | .m4v | 1 FPS, tối đa 100 khung hình/giây |
Giới hạn kích thước tệp
| Loại | Kích thước tối đa |
|---|---|
| Ảnh | Mỗi cái có dung lượng 50 MB. |
| Video | 1 GB mỗi cái |
| Tệp ZIP | 50 GB |
Lưu trữ
Hỗ trợ các tệp ZIP có dung lượng lên đến 50GB, giữ nguyên cấu trúc thư mục và tự động giải nén, xử lý.
Chuẩn bị Tập dữ liệu của bạn
Đối với các tập dữ liệu đã được gán nhãn, hãy sử dụng định dạng YOLO tiêu chuẩn:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Tệp YAML định nghĩa cấu hình tập dữ liệu của bạn:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Quy trình tải lên
- Điều hướng đến Tập dữ liệu trong thanh bên
- Nhấp vào Tải lên Tập dữ liệu hoặc kéo tệp vào khu vực tải lên
- Chọn loại tác vụ (detect, segment, pose, obb, classify)
- Thêm tên và mô tả tùy chọn
- Nhấp vào Tải lên
Sau khi tải lên, Nền tảng sẽ xử lý dữ liệu của bạn:
- Chuẩn hóa: Hình ảnh lớn được thay đổi kích thước (tối đa 4096px)
- Hình thu nhỏ: Hình xem trước 256px được tạo
- Phân tích nhãn: Nhãn định dạng YOLO được trích xuất
- Thống kê: Phân bố lớp được tính toán
Xác thực trước khi tải lên
Bạn có thể xác thực tập dữ liệu của mình cục bộ trước khi tải lên:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Duyệt hình ảnh
Xem hình ảnh tập dữ liệu của bạn trong nhiều bố cục khác nhau:
| Xem | Mô tả |
|---|---|
| Dạng lưới | Lưới hình thu nhỏ với lớp phủ chú thích |
| Thu gọn | Hình thu nhỏ nhỏ hơn để quét nhanh |
| Bảng | Danh sách với tên tệp, kích thước và số lượng nhãn |
Trình xem toàn màn hình
Nhấp vào bất kỳ hình ảnh nào để mở trình xem toàn màn hình với:
- Điều hướng: Phím mũi tên hoặc nhấp để duyệt
- Siêu dữ liệu: Tên tệp, kích thước, phân tách, số lượng nhãn
- Chú thích: Bật/tắt hiển thị chú thích
- Phân tích lớp: Số lượng nhãn theo từng lớp
Lọc theo phân tách
Lọc hình ảnh theo phân tách tập dữ liệu của chúng:
| Phân tách | Mục đích |
|---|---|
| Huấn luyện | Được sử dụng để huấn luyện mô hình |
| Val | Được sử dụng để xác thực trong quá trình huấn luyện |
| Kiểm thử | Được sử dụng để đánh giá cuối cùng |
| Không xác định | Chưa gán phân tách |
Thống kê tập dữ liệu
Tab Thống kê cung cấp phân tích tự động về tập dữ liệu của bạn:
Phân phối lớp
Biểu đồ cột hiển thị số lượng chú thích trên mỗi lớp:
Bản đồ nhiệt vị trí
Trực quan hóa vị trí chú thích xuất hiện trong hình ảnh:
Phân tích kích thước
Biểu đồ phân tán kích thước hình ảnh (chiều rộng so với chiều cao):
Bộ nhớ đệm thống kê
Thống kê được lưu vào bộ nhớ đệm trong 5 phút. Các thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.
Xuất Tập dữ liệu
Xuất tập dữ liệu của bạn ở định dạng NDJSON để sử dụng ngoại tuyến:
- Mở menu hành động tập dữ liệu
- Nhấp vào Xuất
- Tải xuống tệp NDJSON
Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Xem tài liệu định dạng NDJSON của Ultralytics để biết thông số kỹ thuật đầy đủ.
URI tập dữ liệu
Tham chiếu các tập dữ liệu Nền tảng bằng cách sử dụng ul:// định dạng URI:
ul://username/datasets/dataset-slug
Sử dụng URI này để huấn luyện mô hình từ bất kỳ đâu:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Huấn luyện mọi nơi với dữ liệu Nền tảng
Hàm ul:// URI hoạt động trong mọi môi trường:
- Máy cục bộ: Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động
- Google Colab: Truy cập các tập dữ liệu Nền tảng của bạn trong sổ ghi chép
- Máy chủ từ xa: Huấn luyện trên các máy ảo đám mây với quyền truy cập đầy đủ vào tập dữ liệu
Cài đặt hiển thị
Kiểm soát ai có thể xem tập dữ liệu của bạn:
| Thiết lập | Mô tả |
|---|---|
| Riêng tư | Chỉ bạn có thể truy cập |
| Công khai | Bất kỳ ai cũng có thể xem trên trang Khám phá |
Để thay đổi chế độ hiển thị:
- Mở menu hành động tập dữ liệu
- Nhấp vào Chỉnh sửa
- Chuyển đổi cài đặt hiển thị
- Nhấp vào Lưu
Chỉnh sửa Tập dữ liệu
Cập nhật tên, mô tả hoặc khả năng hiển thị của tập dữ liệu:
- Mở menu hành động tập dữ liệu
- Nhấp vào Chỉnh sửa
- Thực hiện thay đổi
- Nhấp vào Lưu
Xóa bộ dữ liệu
Xóa tập dữ liệu bạn không còn cần:
- Mở menu hành động tập dữ liệu
- Nhấp vào Xóa
- Xác nhận xóa
Thùng rác và Khôi phục
Các tập dữ liệu đã xóa sẽ được chuyển vào Thùng rác trong 30 ngày. Bạn có thể khôi phục chúng từ trang Thùng rác trong Cài đặt.
Huấn luyện trên tập dữ liệu
Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:
- Nhấp vào Huấn luyện Mô hình trên trang tập dữ liệu
- Chọn một dự án hoặc tạo mới
- Cấu hình các tham số huấn luyện
- Bắt đầu huấn luyện
Xem Huấn luyện trên Đám mây để biết chi tiết.
Câu hỏi thường gặp
Dữ liệu của tôi sẽ được xử lý như thế nào sau khi tải lên?
Dữ liệu của bạn được xử lý và lưu trữ trong khu vực bạn đã chọn (US, EU hoặc AP). Hình ảnh được:
- Đã xác thực về định dạng và kích thước
- Đã chuẩn hóa nếu lớn hơn 4096px (giữ nguyên tỷ lệ khung hình)
- Được lưu trữ bằng Lưu trữ dựa trên nội dung (CAS) với băm SHA-256
- Hình thu nhỏ được tạo ở 256px để duyệt nhanh
Lưu trữ hoạt động như thế nào?
Nền tảng Ultralytics sử dụng Lưu trữ dựa trên nội dung (CAS) để lưu trữ hiệu quả:
- Khử trùng lặp: Các hình ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần
- Tính toàn vẹn: Băm SHA-256 đảm bảo tính toàn vẹn của dữ liệu
- Hiệu quả: Giảm chi phí lưu trữ và tăng tốc độ xử lý
- Theo khu vực: Dữ liệu nằm trong khu vực bạn đã chọn (Mỹ, EU hoặc AP)
Tôi có thể thêm hình ảnh vào một tập dữ liệu hiện có không?
Có, sử dụng nút Thêm hình ảnh trên trang tập dữ liệu để tải lên các hình ảnh bổ sung. Các số liệu thống kê mới sẽ được tính toán tự động.
Làm cách nào để di chuyển hình ảnh giữa các tập dữ liệu?
Sử dụng tính năng chọn hàng loạt:
- Chọn hình ảnh trong thư viện
- Nhấp vào Di chuyển hoặc Sao chép
- Chọn tập dữ liệu đích
Những định dạng nhãn nào được hỗ trợ?
Nền tảng Ultralytics hỗ trợ nhãn định dạng YOLO:
| Tác vụ | Định dạng | Ví dụ |
|---|---|---|
| Phát hiện | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Phân đoạn | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose (Dáng điệu/Tư thế) | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Phân loại | Cấu trúc thư mục | train/cats/, train/dogs/ |
Tất cả tọa độ đều được chuẩn hóa (trong khoảng 0-1). Cờ hiển thị tư thế: 0 = không được gắn nhãn, 1 = được gắn nhãn nhưng bị che khuất, 2 = được gắn nhãn và hiển thị rõ.