Tập dữ liệu
Các tập dữ liệu trên Ultralytics Platform cung cấp giải pháp hợp lý hóa việc quản lý dữ liệu huấn luyện của bạn. Sau khi tải lên, nền tảng sẽ tự động xử lý hình ảnh, nhãn và số liệu thống kê. Một tập dữ liệu đã sẵn sàng để huấn luyện sau khi quá trình xử lý hoàn tất và có ít nhất một hình ảnh trong tập train, ít nhất một hình ảnh trong tập val hoặc test, ít nhất một hình ảnh được gắn nhãn và tổng cộng ít nhất hai hình ảnh.
Tải lên tập dữ liệu
Ultralytics Platform chấp nhận nhiều định dạng tải lên để tạo sự linh hoạt.
Các định dạng được hỗ trợ
| Định dạng | Phần mở rộng | Ghi chú | Kích thước tối đa |
|---|---|---|---|
| JPEG | .jpg, .jpeg | Phổ biến nhất, được khuyến nghị | 50 MB |
| PNG | .png | Hỗ trợ độ trong suốt | 50 MB |
| WebP | .webp | Hiện đại, nén tốt | 50 MB |
| BMP | .bmp | Không nén | 50 MB |
| TIFF | .tiff, .tif | Chất lượng cao | 50 MB |
| HEIC | .heic | Ảnh iPhone | 50 MB |
| AVIF | .avif | Định dạng thế hệ mới | 50 MB |
| JP2 | .jp2 | JPEG 2000 | 50 MB |
| DNG | .dng | Ảnh thô từ máy ảnh | 50 MB |
| MPO | .mpo | Đối tượng đa ảnh | 50 MB |
Chuẩn bị tập dữ liệu của bạn
Nền tảng hỗ trợ Ultralytics YOLO, COCO, Ultralytics NDJSON và tải lên dữ liệu thô (chưa được chú thích):
Sử dụng cấu trúc thư mục YOLO tiêu chuẩn với tệp data.yaml:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yamlTệp YAML xác định cấu hình tập dữ liệu của bạn:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dogThô: Tải lên các hình ảnh chưa được chú thích (không có nhãn). Hữu ích khi bạn định chú thích trực tiếp trên nền tảng bằng trình chỉnh sửa chú thích.
Bạn cũng có thể tải lên hình ảnh mà không cần các thư mục phân chia rõ ràng. Nền tảng tuân thủ mục tiêu phân chia đang hoạt động trong quá trình tải lên và đối với các tập dữ liệu không thuộc loại phân loại, nó có thể tự động tạo một tập dữ liệu xác thực từ một phần của tập huấn luyện khi không có thông tin phân chia nào được cung cấp. Bạn luôn có thể gán lại hình ảnh sau đó bằng cách di chuyển hàng loạt đến tập phân chia hoặc phân phối lại tập phân chia.
Định dạng được phát hiện tự động: các tập dữ liệu có tệp data.yaml chứa các khóa names, train hoặc val sẽ được coi là YOLO. Các tập dữ liệu có tệp JSON COCO (chứa các mảng images, annotations và categories) được coi là COCO. Các tệp xuất .ndjson được nhập dưới dạng Ultralytics NDJSON. Các tập dữ liệu chỉ có hình ảnh và không có chú thích được coi là thô.
Để biết chi tiết định dạng dành riêng cho tác vụ, hãy xem các tác vụ được hỗ trợ và Tổng quan về tập dữ liệu.
Quy trình tải lên
- Điều hướng đến
Datasetstrong thanh bên - Nhấp vào
New Datasethoặc kéo các tệp vào vùng tải lên - Chọn loại tác vụ (xem các tác vụ được hỗ trợ)
- Thêm tên và mô tả tùy chọn
- Đặt chế độ hiển thị (công khai hoặc riêng tư) và giấy phép tùy chọn (xem giấy phép khả dụng)
- Nhấp vào
Create

Sau khi tải lên, nền tảng sẽ xử lý dữ liệu của bạn thông qua một quy trình gồm nhiều giai đoạn:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff- Xác thực: Kiểm tra định dạng và kích thước
- Chuẩn hóa: Các hình ảnh lớn được thay đổi kích thước (tối đa 4096px, chiều tối thiểu 28px)
- Hình thu nhỏ: Các bản xem trước WebP 256px được tạo ra
- Phân tích nhãn: Các nhãn định dạng YOLO và COCO được trích xuất
- Thống kê: Phân phối lớp và kích thước hình ảnh được tính toán

Xác thực trước khi tải lên
Bạn có thể xác thực tập dữ liệu cục bộ của mình trước khi tải lên:
from ultralytics.data.utils import check_det_dataset
check_det_dataset("path/to/data.yaml")Hình ảnh phải có kích thước ít nhất 28px ở cạnh ngắn nhất. Các hình ảnh nhỏ hơn mức này sẽ bị từ chối trong quá trình xử lý. Hình ảnh lớn hơn 4096px ở cạnh dài nhất sẽ tự động được thay đổi kích thước với tỷ lệ khung hình được bảo toàn.
Duyệt hình ảnh
Xem hình ảnh tập dữ liệu của bạn ở nhiều bố cục khác nhau.
Mở bảng Clustering từ thanh công cụ thư viện để khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác.
| Xem | Mô tả |
|---|---|
| Lưới | Lưới hình thu nhỏ với lớp phủ chú thích (mặc định) |
| Gọn | Hình thu nhỏ nhỏ hơn để quét nhanh |
| Bảng | Danh sách bao gồm hình thu nhỏ, tên tệp, kích thước, dung lượng, tập phân chia, các lớp và số lượng nhãn |

Sắp xếp và lọc
Hình ảnh có thể được sắp xếp và lọc để duyệt hiệu quả:
| Sắp xếp | Mô tả |
|---|---|
| Mới nhất / Cũ nhất | Thứ tự tải lên / tạo |
| Tên A-Z / Z-A | Tên tệp theo thứ tự bảng chữ cái |
| Chiều cao ↑/↓ | Chiều cao ảnh tính bằng pixel |
| Chiều rộng ↑/↓ | Chiều rộng ảnh tính bằng pixel |
| Kích thước ↑/↓ | Kích thước tệp trên đĩa |
| Chú thích ↑/↓ | Số lượng chú thích trên mỗi ảnh |
Đối với các tập dữ liệu có hơn 100.000 ảnh, các tùy chọn sắp xếp theo tên / kích thước / chiều rộng / chiều cao sẽ bị vô hiệu hóa để đảm bảo thư viện vẫn phản hồi nhanh. Các tùy chọn sắp xếp theo mới nhất, cũ nhất và số lượng chú thích vẫn khả dụng.
Sử dụng bộ lọc nhãn được đặt thành Unlabeled để nhanh chóng tìm thấy những ảnh vẫn cần chú thích. Điều này đặc biệt hữu ích cho các tập dữ liệu lớn khi bạn muốn theo dõi tiến độ gán nhãn.
Trình xem toàn màn hình
Nhấp vào bất kỳ ảnh nào để mở trình xem toàn màn hình với:
- Điều hướng: Các phím mũi tên hoặc bản xem trước thu nhỏ để duyệt
- Siêu dữ liệu (Metadata): Tên tệp, kích thước, huy hiệu phân đoạn, số lượng chú thích
- Chú thích: Bật/tắt hiển thị lớp phủ chú thích
- Phân tích lớp: Số lượng nhãn theo từng lớp với chỉ báo màu sắc
- Chỉnh sửa: Vào chế độ chú thích để thêm hoặc sửa đổi nhãn
- Tải xuống: Tải xuống tệp ảnh gốc
- Xóa: Xóa ảnh khỏi tập dữ liệu
- Thu phóng:
Cmd/Ctrl+Scroll,Cmd/Ctrl++, hoặcCmd/Ctrl+=để phóng to, vàCmd/Ctrl+-để thu nhỏ - Đặt lại chế độ xem:
Cmd/Ctrl + 0hoặc nút đặt lại để vừa vặn ảnh với trình xem - Di chuyển (Pan): Giữ phím
Spacevà kéo để di chuyển khung hình khi đã phóng to - Chế độ xem pixel: Bật/tắt hiển thị dạng pixel để kiểm tra kỹ

Lọc theo phân đoạn (Split)
Lọc ảnh theo phân đoạn tập dữ liệu của chúng:
| Split | Mục đích |
|---|---|
| Huấn luyện | Dùng cho việc huấn luyện model |
| Val | Dùng cho xác thực trong quá trình huấn luyện |
| Test | Dùng cho đánh giá cuối cùng |
Phân cụm (Clustering)
Bảng Clustering sẽ dự báo tập dữ liệu của bạn thành một biểu đồ phân tán 2D tương tác, nơi các ảnh có hình ảnh tương đồng sẽ nằm gần nhau. Sử dụng nó để khám phá các cụm, phát hiện ảnh trùng lặp hoặc nhiễu, và kiểm tra cách phân chia hoặc các lớp được phân bổ trên dữ liệu của bạn — mà không cần rời khỏi thư viện. Mở nó từ biểu tượng biểu đồ phân tán trong thanh công cụ thư viện trên bất kỳ trang tập dữ liệu nào.

Chạy phân tích
Bắt đầu một phân tích:
- Mở một tập dữ liệu và nhấp vào biểu tượng biểu đồ phân tán trong thanh công cụ thư viện
- Nhấp vào
Analyze Dataset - Chờ thanh tiến trình hoàn tất — kết quả sẽ xuất hiện trong cùng một bảng
Phân tích chạy ở chế độ nền và có thể mất vài phút tùy thuộc vào kích thước tập dữ liệu của bạn. Bạn có thể đóng bảng hoặc rời khỏi trang và quay lại sau.
Trực quan hóa
Sau khi phân tích hoàn tất, bảng sẽ hiển thị một biểu đồ phân tán 2D của tất cả các ảnh được phân tích. Các bộ lọc thư viện (phân đoạn, lớp, đã gán nhãn/chưa gán nhãn) sẽ làm mờ các điểm nằm ngoài bộ lọc để bạn có thể tập trung vào tập hợp con mà mình quan tâm.

Tô màu theo
Thay đổi cách đổ màu cho các điểm dữ liệu bằng menu thả xuống Color by trong thanh công cụ của bảng. Chuyển đổi chế độ xem bất cứ lúc nào — biểu đồ sẽ tự động tô màu lại ngay lập tức để bạn có thể thấy cách các phân đoạn, lớp, hoặc thuộc tính ảnh được phân bổ trên các cụm của mình:
| Tùy chọn | Đổ màu |
|---|---|
| Splits | Train / Val / Test |
| Classes | Lớp chú thích đầu tiên trên mỗi ảnh |
| Chiều rộng | Chiều rộng ảnh |
| Chiều cao | Chiều cao ảnh |
| Kích thước | Kích thước tệp |
| Chú thích | Số lượng chú thích trên mỗi ảnh |

Chọn bằng Lasso
Vẽ vùng chọn tự do xung quanh một khu vực để làm nổi bật các điểm trên biểu đồ. Thư viện sẽ lọc xuống các ảnh tương ứng, cho phép bạn kiểm tra, gán lại nhãn, di chuyển hoặc xóa chúng bằng các thao tác với ảnh thông thường.
Một thẻ bên trên biểu đồ cho biết số lượng điểm đã được chọn — hãy nhấp vào × để xóa vùng chọn Lasso và quay lại chế độ xem toàn bộ thư viện.
Di chuyển và thu phóng
Điều hướng các biểu đồ phân tán lớn trực tiếp bằng chuột và bàn phím:
| Đầu vào | Thao tác |
|---|---|
| Cuộn (Scroll) | Di chuyển biểu đồ trong không gian 2D |
| Cmd/Ctrl+Scroll | Phóng to hoặc thu nhỏ, neo theo con trỏ chuột |
| Giữ phím Space | Chuyển sang chế độ kéo để di chuyển (drag-to-pan) |
Phân tích lại
Nếu tập dữ liệu của bạn thay đổi sau khi phân tích, một nút Re-analyze sẽ xuất hiện ở đầu bảng cho chủ sở hữu và biên tập viên.
Nhấp vào Re-analyze để tính toán lại các embedding và dự báo 2D từ đầu.
Các tab Tập dữ liệu
Mỗi trang tập dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái tập dữ liệu và quyền truy cập của bạn:
Tab Hình ảnh (Images)
Chế độ xem mặc định hiển thị thư viện ảnh với các lớp phủ chú thích. Hỗ trợ các chế độ xem dạng lưới, thu gọn và bảng. Kéo và thả tệp vào đây để thêm nhiều ảnh hơn.
Tab Lớp (Classes)
Tab này xuất hiện khi tập dữ liệu có chứa ảnh.
Quản lý các lớp chú thích cho tập dữ liệu của bạn:
- Biểu đồ tần suất lớp: Biểu đồ cột hiển thị số lượng chú thích theo mỗi lớp với tùy chọn bật/tắt thang đo tuyến tính/logarithmic
- Bảng lớp: Bảng có thể sắp xếp và tìm kiếm, bao gồm tên lớp, số lượng nhãn và số lượng ảnh
- Chỉnh sửa tên lớp: Nhấp vào bất kỳ tên lớp nào để đổi tên trực tiếp
- Chỉnh sửa màu lớp: Nhấp vào ô màu để thay đổi màu sắc của lớp
- Thêm lớp mới: Sử dụng ô nhập liệu ở dưới cùng để thêm lớp

Nếu tập dữ liệu của bạn bị mất cân bằng lớp (ví dụ: 10.000 chú thích "person" nhưng chỉ có 50 "bicycle"), hãy sử dụng công tắc Log Scale trên biểu đồ tần suất lớp để trực quan hóa tất cả các lớp một cách rõ ràng.
Tab Biểu đồ
Tab này xuất hiện khi tập dữ liệu có chứa ảnh.
Các số liệu thống kê được tính toán tự động từ tập dữ liệu của bạn:
| Biểu đồ | Mô tả |
|---|---|
| Phân bổ tập dữ liệu (Split Distribution) | Biểu đồ hình tròn hiển thị số lượng ảnh train/val/test và tỷ lệ phần trăm đã được gán nhãn |
| Các lớp hàng đầu (Top Classes) | Biểu đồ hình tròn của 10 lớp chú thích xuất hiện nhiều nhất |
| Chiều rộng ảnh (Image Widths) | Biểu đồ cột về phân bổ chiều rộng ảnh kèm giá trị trung bình |
| Chiều cao ảnh (Image Heights) | Biểu đồ cột về phân bổ chiều cao ảnh kèm giá trị trung bình |
| Điểm trên mỗi thực thể (Points per Instance) | Số lượng đỉnh đa giác hoặc điểm khóa trên mỗi chú thích (phân đoạn/tư thế) |
| Vị trí chú thích (Annotation Locations) | Bản đồ nhiệt 2D của các vị trí tâm BBox |
| Kích thước ảnh (Image Dimensions) | Bản đồ nhiệt 2D về chiều rộng so với chiều cao cùng các đường hướng dẫn tỷ lệ khung hình |

Các số liệu thống kê được lưu trong bộ nhớ đệm trong 5 phút. Những thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.
Nhấp vào nút mở rộng trên bất kỳ bản đồ nhiệt nào để xem ở chế độ toàn màn hình. Điều này cung cấp cái nhìn chi tiết và rộng hơn — hữu ích để hiểu các mô hình không gian trong các tập dữ liệu lớn.
Tab Model
Xem tất cả các model được huấn luyện trên tập dữ liệu này trong một bảng có thể tìm kiếm:
| Cột | Mô tả |
|---|---|
| Tên | Tên model kèm liên kết |
| Dự án | Dự án cha kèm biểu tượng |
| Trạng thái | Huy hiệu trạng thái huấn luyện |
| Tác vụ | Loại tác vụ YOLO |
| Epochs | Epoch tốt nhất / tổng số epoch |
| mAP50-95 | Mean average precision |
| mAP50 | mAP tại IoU 0.50 |
| Đã tạo | Ngày tạo |

Tab Lỗi
Tab này chỉ xuất hiện khi một hoặc nhiều tệp xử lý thất bại.
Các ảnh xử lý thất bại được liệt kê ở đây với:
- Biểu ngữ lỗi: Tổng số ảnh lỗi và hướng dẫn
- Bảng lỗi: Tên tệp, mô tả lỗi thân thiện với người dùng, gợi ý sửa lỗi và ảnh xem trước thu nhỏ
- Các lỗi phổ biến bao gồm tệp bị hỏng, định dạng không được hỗ trợ, ảnh quá nhỏ (tối thiểu 28px) và chế độ màu không được hỗ trợ

Các lỗi xử lý phổ biến
| Lỗi | Nguyên nhân | Cách sửa |
|---|---|---|
| Không thể đọc tệp ảnh | Định dạng bị hỏng hoặc không được hỗ trợ | Xuất lại từ trình chỉnh sửa ảnh |
| Không đầy đủ hoặc bị hỏng | Tệp bị cắt bớt trong quá trình truyền | Tải lại tệp gốc |
| Ảnh quá nhỏ | Kích thước tối thiểu dưới 28px | Sử dụng ảnh nguồn có độ phân giải cao hơn |
| Chế độ màu không được hỗ trợ | Chế độ màu CMYK hoặc indexed | Chuyển đổi sang chế độ RGB |
Tab Phiên bản (Versions)
Tạo các bản chụp nhanh (snapshot) NDJSON bất biến của tập dữ liệu để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng ảnh, số lượng lớp, số lượng chú thích và kích thước tệp tại thời điểm tạo.
| Cột | Mô tả |
|---|---|
| Phiên bản | Số phiên bản (v1, v2, ...) |
| Mô tả | Mô tả do người dùng cung cấp (có thể chỉnh sửa) |
| Hình ảnh | Số lượng ảnh tại thời điểm chụp nhanh |
| Các lớp | Số lượng lớp tại thời điểm chụp nhanh |
| Chú thích | Số lượng chú thích tại thời điểm chụp nhanh |
| Kích thước | Kích thước tệp xuất NDJSON |
| Đã tạo | Thời điểm phiên bản được tạo |
Để tạo một phiên bản:
- Mở tab Versions
- Tùy chọn nhập mô tả (ví dụ: "Đã thêm 500 ảnh huấn luyện" hoặc "Đã sửa các lớp bị gán nhãn sai")
- Nhấp vào + New Version
- Phiên bản mới xuất hiện trong bảng
- Tải xuống phiên bản riêng biệt từ bảng khi cần
Mỗi phiên bản được đánh số theo trình tự (v1, v2, v3...) và được lưu trữ vĩnh viễn. Bạn có thể tải xuống bất kỳ phiên bản nào trước đó bất cứ lúc nào từ bảng phiên bản.
Tính năng tạo phiên bản khả dụng sau khi tập dữ liệu đạt trạng thái ready.
Tạo phiên bản trước và sau những thay đổi lớn đối với tập dữ liệu của bạn — thêm ảnh, sửa chú thích hoặc cân bằng lại các tập phân chia. Điều này cho phép bạn so sánh hiệu suất model giữa các trạng thái tập dữ liệu khác nhau.
Kích thước hiển thị là kích thước tệp xuất NDJSON, chứa URL ảnh và chú thích — chứ không phải bản thân các tệp ảnh. Dữ liệu ảnh thực tế được lưu trữ riêng và truy cập thông qua các URL có chữ ký.
Xuất tập dữ liệu
Xuất tập dữ liệu của bạn để sử dụng ngoại tuyến với bản tải xuống NDJSON từ tiêu đề tập dữ liệu hoặc tab Versions.
Để xuất:
- Nhấp vào nút Export trong tiêu đề tập dữ liệu
- Tải xuống bản chụp NDJSON hiện tại trực tiếp
- Sử dụng tab Versions khi bạn muốn có một bản chụp được đánh số bất biến mà bạn có thể tải xuống lại sau này

Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng. Dòng đầu tiên chứa siêu dữ liệu tập dữ liệu, theo sau là một dòng cho mỗi ảnh:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}Các URL ảnh trong tệp NDJSON xuất ra đã được ký và có hiệu lực trong 7 ngày. Nếu bạn cần URL mới, hãy xuất lại tập dữ liệu hoặc tạo một phiên bản mới.
Xem tài liệu về định dạng Ultralytics NDJSON để biết thông số kỹ thuật đầy đủ.
Thao tác với ảnh
Hành động nhanh
Nhấp chuột phải vào bất kỳ ảnh nào trong chế độ xem Grid hoặc Compact để truy cập các tác vụ nhanh:
| Thao tác | Mô tả |
|---|---|
| Chuyển sang tập phân chia (Move to Split) | Gán lại ảnh vào tập Train, Val hoặc Test |
| Tải xuống | Tải xuống tệp ảnh gốc |
| Xóa | Xóa ảnh khỏi tập dữ liệu |

Menu ngữ cảnh ảnh hoạt động trên một ảnh đơn lẻ. Đối với các thao tác hàng loạt trên nhiều ảnh, hãy sử dụng chế độ xem Bảng với các ô chọn.
Di chuyển hàng loạt sang tập
Gán lại các ảnh đã chọn sang một tập khác trong cùng tập dữ liệu:
- Chuyển sang chế độ xem Bảng
- Chọn ảnh bằng các ô đánh dấu
- Nhấp chuột phải để mở menu ngữ cảnh
- Chọn
Move to split> Train, Validation, hoặc Test
Bạn cũng có thể kéo và thả ảnh vào các tab lọc tập trong chế độ xem lưới.
Tải lên tất cả ảnh vào một tập dữ liệu, sau đó sử dụng tính năng di chuyển hàng loạt sang tập để tổ chức các tập con thành train, validation và test.
Phân phối lại tập
Phân phối lại tất cả ảnh trên các tập train, validation và test bằng các tỷ lệ tùy chỉnh:
- Nhấp vào thanh phân chia trên thanh công cụ tập dữ liệu để mở hộp thoại Phân phối lại tập
- Điều chỉnh tỷ lệ phần trăm phân chia bằng bất kỳ phương pháp nào dưới đây
- Xem trước số lượng ảnh trực tiếp để xác nhận sự phân phối
- Nhấp Áp dụng để gán lại ngẫu nhiên tất cả ảnh theo tỷ lệ phần trăm của bạn

Hộp thoại cung cấp ba cách để thiết lập tỷ lệ tập mục tiêu của bạn:
| Phương thức | Mô tả |
|---|---|
| Kéo | Kéo các tay cầm giữa các đoạn màu để điều chỉnh trực quan ranh giới phân chia |
| Nhập | Chỉnh sửa đầu vào phần trăm cho bất kỳ tập nào (hai tập còn lại sẽ tự động cân bằng theo tỷ lệ) |
| Tự động | Một cú nhấp chuột để thiết lập ngay tỷ lệ 80/20 train/validation với tập test được đặt là 0% |
Bản xem trước trực tiếp cho thấy chính xác có bao nhiêu ảnh sẽ nằm trong mỗi tập trước khi bạn áp dụng.
Nhấp vào nút Tự động để thiết lập ngay tỷ lệ 80/20 train/validation được đề xuất. Đây là tỷ lệ phổ biến nhất để huấn luyện.
Xóa hàng loạt
Xóa nhiều ảnh cùng lúc:
- Chọn ảnh trong chế độ xem bảng
- Nhấp chuột phải và chọn
Delete - Xác nhận xóa
URI tập dữ liệu
Tham chiếu các tập dữ liệu trên nền tảng bằng định dạng URI ul:// (xem Sử dụng tập dữ liệu nền tảng):
ul://username/datasets/dataset-slug
Sử dụng URI này để huấn luyện các model từ bất cứ đâu:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100URI ul:// hoạt động từ mọi môi trường:
- Máy cục bộ: Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động
- Google Colab: Truy cập các tập dữ liệu nền tảng của bạn trong các notebook
- Máy chủ từ xa: Huấn luyện trên các máy ảo cloud với quyền truy cập đầy đủ vào tập dữ liệu
Các giấy phép khả dụng
Nền tảng hỗ trợ các giấy phép sau cho tập dữ liệu:
| Giấy phép | Loại |
|---|---|
| Không có | Chưa chọn giấy phép |
| CC0-1.0 | Phạm vi công cộng |
| CC-BY-2.5 | Cho phép |
| CC-BY-4.0 | Cho phép |
| CC-BY-SA-4.0 | Copyleft |
| CC-BY-NC-4.0 | Phi thương mại |
| CC-BY-NC-SA-4.0 | Copyleft |
| CC-BY-ND-4.0 | Không phái sinh |
| CC-BY-NC-ND-4.0 | Phi thương mại |
| Apache-2.0 | Cho phép |
| MIT | Cho phép |
| AGPL-3.0 | Copyleft |
| GPL-3.0 | Copyleft |
| Chỉ nghiên cứu | Hạn chế |
| Khác | Tùy chỉnh |
Khi sao chép một tập dữ liệu có giấy phép copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), bản sao sẽ kế thừa giấy phép đó và bộ chọn giấy phép sẽ bị khóa.
Cài đặt hiển thị
Kiểm soát ai có thể nhìn thấy tập dữ liệu của bạn:
| Cài đặt | Mô tả |
|---|---|
| Riêng tư | Chỉ mình bạn có thể truy cập |
| Công khai | Bất kỳ ai cũng có thể xem trên trang Khám phá |
Cài đặt hiển thị được thiết lập khi tạo tập dữ liệu trong hộp thoại New Dataset bằng công tắc bật/tắt. Các tập dữ liệu công khai sẽ hiển thị trên trang Khám phá.
Chỉnh sửa tập dữ liệu
Metadata của tập dữ liệu được chỉnh sửa trực tiếp ngay trên trang tập dữ liệu — không cần hộp thoại:
- Tên: Nhấp vào tên tập dữ liệu để chỉnh sửa. Các thay đổi tự động lưu khi mất tiêu điểm hoặc nhấn
Enter. - Mô tả: Nhấp vào mô tả (hoặc văn bản giữ chỗ "Thêm mô tả...") để chỉnh sửa. Các thay đổi tự động lưu.
- Loại tác vụ: Nhấp vào huy hiệu tác vụ để chọn một loại tác vụ khác.
- Giấy phép: Nhấp vào bộ chọn giấy phép để thay đổi giấy phép của tập dữ liệu.
Mỗi ảnh lưu trữ các chú thích cho tất cả các loại tác vụ cùng nhau. Việc thay đổi loại tác vụ của tập dữ liệu sẽ kiểm soát chú thích nào hiển thị trong trình chỉnh sửa và được bao gồm trong xuất và huấn luyện. Chú thích cho các loại tác vụ khác được giữ nguyên trong cơ sở dữ liệu và sẽ xuất hiện lại khi bạn chuyển đổi quay lại.
Sao chép tập dữ liệu
Khi xem một tập dữ liệu công khai mà bạn không sở hữu, hãy nhấp vào Clone Dataset để tạo bản sao trong không gian làm việc của bạn. Bản sao bao gồm tất cả ảnh, chú thích và định nghĩa lớp. Nếu tập dữ liệu gốc có giấy phép copyleft, bản sao sẽ kế thừa giấy phép đó và bộ chọn giấy phép bị khóa.
Đánh dấu sao và Chia sẻ
- Đánh dấu sao: Nhấp vào nút sao để đánh dấu tập dữ liệu. Số lượng sao hiển thị với tất cả người dùng.
- Chia sẻ: Đối với các tập dữ liệu công khai, nhấp vào nút chia sẻ để sao chép liên kết hoặc chia sẻ lên các nền tảng xã hội.
Xóa tập dữ liệu
Xóa tập dữ liệu bạn không còn cần nữa:
- Mở menu hành động tập dữ liệu
- Nhấp
Delete - Xác nhận trong hộp thoại: "Hành động này sẽ chuyển [name] vào thùng rác. Bạn có thể khôi phục trong vòng 30 ngày."
Các tập dữ liệu bị xóa sẽ được chuyển đến Thùng rác — không bị xóa vĩnh viễn. Bạn có thể khôi phục chúng trong vòng 30 ngày từ Settings > Trash.
Huấn luyện trên Tập dữ liệu
Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:
- Nhấp vào
New Modeltrên trang tập dữ liệu - Chọn một dự án hoặc tạo mới
- Cấu hình các tham số huấn luyện
- Bắt đầu huấn luyện
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fffXem Cloud Training để biết thêm chi tiết.
Câu hỏi thường gặp (FAQ)
Điều gì xảy ra với dữ liệu của tôi sau khi tải lên?
Dữ liệu của bạn được xử lý và lưu trữ tại khu vực bạn đã chọn (US, EU, hoặc AP). Hình ảnh được:
- Xác thực về định dạng và kích thước
- Từ chối nếu kích thước tối thiểu dưới 28px
- Chuẩn hóa nếu lớn hơn 4096px (giữ nguyên tỷ lệ khung hình; mã hóa để tối ưu hóa lưu trữ)
- Lưu trữ bằng Content-Addressable Storage (CAS) với băm XXH3-128
- Hình thu nhỏ (thumbnails) được tạo ở định dạng WebP 256px để duyệt nhanh
Lưu trữ hoạt động như thế nào?
Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để lưu trữ hiệu quả:
- Khử trùng lặp (Deduplication): Các hình ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần
- Toàn vẹn (Integrity): Băm XXH3-128 đảm bảo tính toàn vẹn của dữ liệu
- Hiệu quả (Efficiency): Giảm chi phí lưu trữ và tăng tốc độ xử lý
- Khu vực (Regional): Dữ liệu vẫn ở trong khu vực bạn đã chọn (US, EU, hoặc AP)
Tôi có thể thêm hình ảnh vào tập dữ liệu hiện có không?
Có, hãy kéo và thả tệp vào trang tập dữ liệu hoặc sử dụng nút tải lên để thêm hình ảnh bổ sung. Các số liệu thống kê mới sẽ được tính toán tự động.
Làm cách nào để di chuyển hình ảnh giữa các phân đoạn (splits)?
Sử dụng tính năng di chuyển hàng loạt đến phân đoạn:
- Chọn ảnh trong chế độ xem bảng
- Nhấp chuột phải và chọn
Move to split - Chọn phân đoạn mục tiêu (Train, Validation, hoặc Test)
Các định dạng nhãn nào được hỗ trợ?
Ultralytics Platform hỗ trợ nhãn YOLO, COCO JSON, Ultralytics NDJSON và tải lên hình ảnh thô:
Một tệp .txt cho mỗi hình ảnh với tọa độ chuẩn hóa (phạm vi 0-1):
| Tác vụ | Định dạng | Ví dụ |
|---|---|---|
| Detect | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segment | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classify | Cấu trúc thư mục | train/cats/, train/dogs/ |
Cờ hiển thị pose: 0=không được gắn nhãn, 1=được gắn nhãn nhưng bị che khuất, 2=được gắn nhãn và hiển thị.
Tôi có thể chú thích cùng một tập dữ liệu cho nhiều loại tác vụ không?
Có. Mỗi hình ảnh lưu trữ chú thích cho tất cả 5 loại tác vụ (detect, segment, pose, OBB, classify) cùng nhau. Bạn có thể chuyển đổi loại tác vụ đang hoạt động của tập dữ liệu bất kỳ lúc nào mà không làm mất các chú thích hiện có. Chỉ các chú thích khớp với loại tác vụ đang hoạt động mới được hiển thị trong trình chỉnh sửa và được đưa vào xuất dữ liệu cũng như huấn luyện — chú thích cho các tác vụ khác được giữ nguyên và sẽ xuất hiện lại khi bạn chuyển đổi trở lại.