Bộ dữ liệu
Bộ dữ liệu của nền tảng Ultralytics cung cấp giải pháp tối ưu hóa việc quản lý dữ liệu huấn luyện. Sau khi tải lên, bộ dữ liệu có thể được sử dụng ngay lập tức để huấn luyện mô hình, với quá trình xử lý tự động và tạo số liệu thống kê.
Xem: Tải lên các tập dữ liệu lên Ultralytics Nền tảng
Tải lên Bộ dữ liệu
Ultralytics Nền tảng hỗ trợ nhiều định dạng tải lên khác nhau để tăng tính linh hoạt:
| Định dạng | Mô tả |
|---|---|
| Ảnh | Các tệp hình ảnh riêng lẻ (JPG, PNG, WebP, TIFF, RAW) |
| Tệp lưu trữ ZIP | Thư mục nén chứa hình ảnh và nhãn tùy chọn. |
| Băng hình | Các tệp MP4, AVI - các khung hình được trích xuất ở tốc độ ~1 khung hình/giây |
| YOLO Định dạng | Tiêu chuẩn YOLO cấu trúc thư mục có nhãn |
Trích xuất khung hình video
Khi tải video lên, các khung hình sẽ được tự động trích xuất:
- Tốc độ khung hình : ~1 khung hình mỗi giây
- Số khung hình tối đa : 100 khung hình mỗi video
- Xử lý : Trích xuất dữ liệu phía máy khách trước khi tải lên.
- Định dạng : Các khung hình được chuyển đổi sang định dạng hình ảnh tiêu chuẩn.
Đây là giải pháp lý tưởng để tạo bộ dữ liệu huấn luyện từ cảnh quay giám sát, ghi hình hành động hoặc bất kỳ nguồn video nào.
Chuẩn bị tập dữ liệu của bạn
Đối với các tập dữ liệu được gắn nhãn, hãy sử dụng tiêu chuẩn. YOLO định dạng:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Tệp YAML định nghĩa cấu hình tập dữ liệu của bạn:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Quá trình tải lên
- Truy cập mục Tập dữ liệu trong thanh bên.
- Nhấp vào Tải lên tập dữ liệu hoặc kéo tệp vào khu vực tải lên.
- Chọn loại nhiệm vụ ( detect , segment , tư thế, OBB, classify )
- Thêm tên và mô tả (nếu có).
- Nhấp vào Tải lên
Sau khi tải lên, nền tảng sẽ xử lý dữ liệu của bạn:
- Chuẩn hóa : Ảnh có kích thước lớn đã được thu nhỏ (tối đa 4096px)
- Ảnh thu nhỏ : Ảnh xem trước có kích thước 256px được tạo tự động
- Phân tích nhãn : YOLO nhãn định dạng được trích xuất
- Thống kê : Tính toán phân bố lớp.
Xác thực trước khi tải lên
Bạn có thể kiểm tra tính hợp lệ của tập dữ liệu cục bộ trước khi tải lên:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Xem hình ảnh
Xem hình ảnh trong bộ dữ liệu của bạn ở nhiều bố cục khác nhau:
| Xem | Mô tả |
|---|---|
| Lưới | Lưới hình thu nhỏ với lớp phủ chú thích |
| Nhỏ gọn | Ảnh thu nhỏ nhỏ hơn để dễ dàng quét nhanh. |
| Bàn | Danh sách bao gồm tên tệp, kích thước và số lượng nhãn. |
Trình xem toàn màn hình
Nhấp chuột vào bất kỳ hình ảnh nào để mở trình xem toàn màn hình với:
- Điều hướng : Sử dụng phím mũi tên hoặc nhấp chuột để duyệt
- Siêu dữ liệu : Tên tệp, kích thước, phân tách, số lượng nhãn
- Chú thích : Bật/tắt hiển thị chú thích
- Phân loại theo lớp : Số lượng nhãn theo từng lớp
Lọc theo Tách
Lọc hình ảnh theo phân chia tập dữ liệu của chúng:
| Tách ra | Mục đích |
|---|---|
| Huấn luyện | Được sử dụng để huấn luyện mô hình. |
| Val | Được sử dụng để xác thực trong quá trình huấn luyện. |
| Bài kiểm tra | Được sử dụng cho đánh giá cuối cùng |
| Không rõ | Không có sự phân chia nào được chỉ định. |
Thống kê tập dữ liệu
Tab Thống kê cung cấp chức năng phân tích tự động tập dữ liệu của bạn:
Phân phối lớp
Biểu đồ cột thể hiện số lượng chú thích cho mỗi lớp:
Bản đồ nhiệt vị trí
Hình ảnh minh họa vị trí hiển thị chú thích trong ảnh:
Phân tích chiều
Biểu đồ phân tán thể hiện kích thước ảnh (chiều rộng so với chiều cao):
Bộ nhớ đệm thống kê
Số liệu thống kê được lưu vào bộ nhớ đệm trong 5 phút. Các thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.
Xuất tập dữ liệu
Xuất bộ dữ liệu của bạn ở định dạng NDJSON để sử dụng ngoại tuyến:
- Mở menu thao tác tập dữ liệu
- Nhấp vào Xuất
- Tải xuống tệp NDJSON
Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Xem tài liệu hướng dẫn định dạng NDJSON Ultralytics để biết thông số kỹ thuật đầy đủ.
URI tập dữ liệu
Bộ dữ liệu Nền tảng Tham chiếu sử dụng ul:// Định dạng URI:
ul://username/datasets/dataset-slug
Sử dụng URI này để huấn luyện mô hình từ bất kỳ đâu:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100
Huấn luyện mọi lúc mọi nơi với Platform Data
Hàm ul:// URI hoạt động trong mọi môi trường:
- Máy cục bộ : Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động.
- Google Colab : Truy cập bộ dữ liệu nền tảng của bạn trong sổ tay Jupyter.
- Máy chủ từ xa : Huấn luyện trên máy ảo đám mây với quyền truy cập đầy đủ vào bộ dữ liệu.
Cài đặt hiển thị
Kiểm soát ai có thể xem tập dữ liệu của bạn:
| Thiết lập | Mô tả |
|---|---|
| Riêng tư | Chỉ bạn mới có thể truy cập |
| Công cộng | Bất kỳ ai cũng có thể xem trên trang Khám phá. |
Để thay đổi chế độ hiển thị:
- Mở menu thao tác tập dữ liệu
- Nhấp vào Chỉnh sửa
- Bật/tắt cài đặt hiển thị
- Nhấp vào Lưu
Chỉnh sửa Tập dữ liệu
Cập nhật tên, mô tả hoặc chế độ hiển thị của tập dữ liệu:
- Mở menu thao tác tập dữ liệu
- Nhấp vào Chỉnh sửa
- Thực hiện thay đổi
- Nhấp vào Lưu
Xóa bộ dữ liệu
Xóa tập dữ liệu mà bạn không còn cần nữa:
- Mở menu thao tác tập dữ liệu
- Nhấp vào Xóa
- Xác nhận xóa
Thùng rác và Khôi phục
Các tập dữ liệu đã xóa sẽ được chuyển vào Thùng rác trong 30 ngày. Bạn có thể khôi phục chúng từ trang Thùng rác trong Cài đặt.
Huấn luyện trên tập dữ liệu
Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:
- Nhấp vào "Huấn luyện mô hình" trên trang tập dữ liệu.
- Chọn một dự án hoặc tạo dự án mới.
- Cấu hình các tham số huấn luyện
- Bắt đầu huấn luyện
Xem phần Đào tạo về Điện toán đám mây để biết thêm chi tiết.
Câu hỏi thường gặp
Dữ liệu của tôi sẽ được xử lý như thế nào sau khi tải lên?
Dữ liệu của bạn được xử lý và lưu trữ tại khu vực bạn đã chọn (Mỹ, EU hoặc...) AP ). Các hình ảnh là:
- Đã được kiểm tra về định dạng và kích thước.
- Đã chuẩn hóa nếu kích thước lớn hơn 4096px (giữ nguyên tỷ lệ khung hình)
- Được lưu trữ bằng phương thức lưu trữ theo địa chỉ nội dung (CAS) với thuật toán băm SHA-256.
- Ảnh thu nhỏ được tạo ở kích thước 256px để duyệt nhanh hơn.
- Sẽ không bao giờ chia sẻ mà không có sự cho phép của bạn.
Quá trình lưu trữ hoạt động như thế nào?
Ultralytics Nền tảng này sử dụng bộ nhớ dựa trên địa chỉ nội dung (CAS) để lưu trữ hiệu quả:
- Loại bỏ trùng lặp : Các hình ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần.
- Tính toàn vẹn : Thuật toán băm SHA-256 đảm bảo tính toàn vẹn của dữ liệu.
- Hiệu quả : Giảm chi phí lưu trữ và tăng tốc độ xử lý.
- Khu vực : Dữ liệu được lưu trữ trong khu vực bạn đã chọn (Mỹ, EU hoặc...) AP )
Tôi có thể thêm hình ảnh vào tập dữ liệu hiện có không?
Vâng, hãy sử dụng nút "Thêm hình ảnh" trên trang dữ liệu để tải lên các hình ảnh bổ sung. Số liệu thống kê mới sẽ được tính toán tự động.
Làm thế nào để chuyển hình ảnh giữa các tập dữ liệu?
Sử dụng tính năng chọn hàng loạt:
- Chọn hình ảnh trong thư viện
- Nhấp vào Di chuyển hoặc Sao chép
- Chọn tập dữ liệu đích
Những định dạng nhãn nào được hỗ trợ?
Ultralytics Nền tảng hỗ trợ YOLO định dạng nhãn:
- Phát hiện:
class_id x_center y_center width height - Phân đoạn:
class_id x1 y1 x2 y2 ...(các điểm đa giác) - Pose (Dáng điệu/Tư thế):
class_id x_center y_center width height kp1_x kp1_y kp1_v ... - OBB:
class_id x1 y1 x2 y2 x3 y3 x4 y4
Tất cả các tọa độ đều được chuẩn hóa (trong khoảng 0-1).