Tập dữ liệu

Các tập dữ liệu trên Ultralytics Platform cung cấp giải pháp hợp lý hóa việc quản lý dữ liệu huấn luyện của bạn. Sau khi tải lên, nền tảng sẽ tự động xử lý hình ảnh, nhãn và số liệu thống kê. Một tập dữ liệu đã sẵn sàng để huấn luyện sau khi quá trình xử lý hoàn tất và có ít nhất một hình ảnh trong tập train, ít nhất một hình ảnh trong tập val hoặc test, ít nhất một hình ảnh được gắn nhãn và tổng cộng ít nhất hai hình ảnh.

Tải lên tập dữ liệu

Ultralytics Platform chấp nhận nhiều định dạng tải lên để tạo sự linh hoạt.

Các định dạng được hỗ trợ

Định dạngPhần mở rộngGhi chúKích thước tối đa
JPEG.jpg, .jpegPhổ biến nhất, được khuyến nghị50 MB
PNG.pngHỗ trợ độ trong suốt50 MB
WebP.webpHiện đại, nén tốt50 MB
BMP.bmpKhông nén50 MB
TIFF.tiff, .tifChất lượng cao50 MB
HEIC.heicẢnh iPhone50 MB
AVIF.avifĐịnh dạng thế hệ mới50 MB
JP2.jp2JPEG 200050 MB
DNG.dngẢnh thô từ máy ảnh50 MB
MPO.mpoĐối tượng đa ảnh50 MB

Chuẩn bị tập dữ liệu của bạn

Nền tảng hỗ trợ Ultralytics YOLO, COCO, Ultralytics NDJSON và tải lên dữ liệu thô (chưa được chú thích):

Sử dụng cấu trúc thư mục YOLO tiêu chuẩn với tệp data.yaml:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Tệp YAML xác định cấu hình tập dữ liệu của bạn:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog
Tải lên thô

Thô: Tải lên các hình ảnh chưa được chú thích (không có nhãn). Hữu ích khi bạn định chú thích trực tiếp trên nền tảng bằng trình chỉnh sửa chú thích.

Cấu trúc thư mục phẳng

Bạn cũng có thể tải lên hình ảnh mà không cần các thư mục phân chia rõ ràng. Nền tảng tuân thủ mục tiêu phân chia đang hoạt động trong quá trình tải lên và đối với các tập dữ liệu không thuộc loại phân loại, nó có thể tự động tạo một tập dữ liệu xác thực từ một phần của tập huấn luyện khi không có thông tin phân chia nào được cung cấp. Bạn luôn có thể gán lại hình ảnh sau đó bằng cách di chuyển hàng loạt đến tập phân chia hoặc phân phối lại tập phân chia.

Tự động phát hiện định dạng

Định dạng được phát hiện tự động: các tập dữ liệu có tệp data.yaml chứa các khóa names, train hoặc val sẽ được coi là YOLO. Các tập dữ liệu có tệp JSON COCO (chứa các mảng images, annotationscategories) được coi là COCO. Các tệp xuất .ndjson được nhập dưới dạng Ultralytics NDJSON. Các tập dữ liệu chỉ có hình ảnh và không có chú thích được coi là thô.

Để biết chi tiết định dạng dành riêng cho tác vụ, hãy xem các tác vụ được hỗ trợTổng quan về tập dữ liệu.

Quy trình tải lên

  1. Điều hướng đến Datasets trong thanh bên
  2. Nhấp vào New Dataset hoặc kéo các tệp vào vùng tải lên
  3. Chọn loại tác vụ (xem các tác vụ được hỗ trợ)
  4. Thêm tên và mô tả tùy chọn
  5. Đặt chế độ hiển thị (công khai hoặc riêng tư) và giấy phép tùy chọn (xem giấy phép khả dụng)
  6. Nhấp vào Create

Trình chọn tác vụ hộp thoại tải lên tập dữ liệu của Ultralytics Platform

Sau khi tải lên, nền tảng sẽ xử lý dữ liệu của bạn thông qua một quy trình gồm nhiều giai đoạn:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Xác thực: Kiểm tra định dạng và kích thước
  2. Chuẩn hóa: Các hình ảnh lớn được thay đổi kích thước (tối đa 4096px, chiều tối thiểu 28px)
  3. Hình thu nhỏ: Các bản xem trước WebP 256px được tạo ra
  4. Phân tích nhãn: Các nhãn định dạng YOLO và COCO được trích xuất
  5. Thống kê: Phân phối lớp và kích thước hình ảnh được tính toán

Thanh tiến trình tải lên tập dữ liệu của Ultralytics Platform

Xác thực trước khi tải lên

Bạn có thể xác thực tập dữ liệu cục bộ của mình trước khi tải lên:

from ultralytics.data.utils import check_det_dataset

check_det_dataset("path/to/data.yaml")
Yêu cầu về kích thước hình ảnh

Hình ảnh phải có kích thước ít nhất 28px ở cạnh ngắn nhất. Các hình ảnh nhỏ hơn mức này sẽ bị từ chối trong quá trình xử lý. Hình ảnh lớn hơn 4096px ở cạnh dài nhất sẽ tự động được thay đổi kích thước với tỷ lệ khung hình được bảo toàn.

Duyệt hình ảnh

Xem hình ảnh tập dữ liệu của bạn ở nhiều bố cục khác nhau.

Mở bảng Clustering từ thanh công cụ thư viện để khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác.

XemMô tả
LướiLưới hình thu nhỏ với lớp phủ chú thích (mặc định)
GọnHình thu nhỏ nhỏ hơn để quét nhanh
BảngDanh sách bao gồm hình thu nhỏ, tên tệp, kích thước, dung lượng, tập phân chia, các lớp và số lượng nhãn

Chế độ xem lưới thư viện tập dữ liệu của Ultralytics Platform với chú thích

Sắp xếp và lọc

Hình ảnh có thể được sắp xếp và lọc để duyệt hiệu quả:

Sắp xếpMô tả
Mới nhất / Cũ nhấtThứ tự tải lên / tạo
Tên A-Z / Z-ATên tệp theo thứ tự bảng chữ cái
Chiều cao ↑/↓Chiều cao ảnh tính bằng pixel
Chiều rộng ↑/↓Chiều rộng ảnh tính bằng pixel
Kích thước ↑/↓Kích thước tệp trên đĩa
Chú thích ↑/↓Số lượng chú thích trên mỗi ảnh
Tập dữ liệu lớn

Đối với các tập dữ liệu có hơn 100.000 ảnh, các tùy chọn sắp xếp theo tên / kích thước / chiều rộng / chiều cao sẽ bị vô hiệu hóa để đảm bảo thư viện vẫn phản hồi nhanh. Các tùy chọn sắp xếp theo mới nhất, cũ nhất và số lượng chú thích vẫn khả dụng.

Tìm kiếm ảnh chưa được gán nhãn

Sử dụng bộ lọc nhãn được đặt thành Unlabeled để nhanh chóng tìm thấy những ảnh vẫn cần chú thích. Điều này đặc biệt hữu ích cho các tập dữ liệu lớn khi bạn muốn theo dõi tiến độ gán nhãn.

Trình xem toàn màn hình

Nhấp vào bất kỳ ảnh nào để mở trình xem toàn màn hình với:

  • Điều hướng: Các phím mũi tên hoặc bản xem trước thu nhỏ để duyệt
  • Siêu dữ liệu (Metadata): Tên tệp, kích thước, huy hiệu phân đoạn, số lượng chú thích
  • Chú thích: Bật/tắt hiển thị lớp phủ chú thích
  • Phân tích lớp: Số lượng nhãn theo từng lớp với chỉ báo màu sắc
  • Chỉnh sửa: Vào chế độ chú thích để thêm hoặc sửa đổi nhãn
  • Tải xuống: Tải xuống tệp ảnh gốc
  • Xóa: Xóa ảnh khỏi tập dữ liệu
  • Thu phóng: Cmd/Ctrl+Scroll, Cmd/Ctrl++, hoặc Cmd/Ctrl+= để phóng to, và Cmd/Ctrl+- để thu nhỏ
  • Đặt lại chế độ xem: Cmd/Ctrl + 0 hoặc nút đặt lại để vừa vặn ảnh với trình xem
  • Di chuyển (Pan): Giữ phím Space và kéo để di chuyển khung hình khi đã phóng to
  • Chế độ xem pixel: Bật/tắt hiển thị dạng pixel để kiểm tra kỹ

Ultralytics Platform Datasets Fullscreen Viewer With Metadata Panel

Lọc theo phân đoạn (Split)

Lọc ảnh theo phân đoạn tập dữ liệu của chúng:

SplitMục đích
Huấn luyệnDùng cho việc huấn luyện model
ValDùng cho xác thực trong quá trình huấn luyện
TestDùng cho đánh giá cuối cùng

Phân cụm (Clustering)

Bảng Clustering sẽ dự báo tập dữ liệu của bạn thành một biểu đồ phân tán 2D tương tác, nơi các ảnh có hình ảnh tương đồng sẽ nằm gần nhau. Sử dụng nó để khám phá các cụm, phát hiện ảnh trùng lặp hoặc nhiễu, và kiểm tra cách phân chia hoặc các lớp được phân bổ trên dữ liệu của bạn — mà không cần rời khỏi thư viện. Mở nó từ biểu tượng biểu đồ phân tán trong thanh công cụ thư viện trên bất kỳ trang tập dữ liệu nào.

Ultralytics Platform Datasets Clustering Empty State

Chạy phân tích

Bắt đầu một phân tích:

  1. Mở một tập dữ liệu và nhấp vào biểu tượng biểu đồ phân tán trong thanh công cụ thư viện
  2. Nhấp vào Analyze Dataset
  3. Chờ thanh tiến trình hoàn tất — kết quả sẽ xuất hiện trong cùng một bảng

Phân tích chạy ở chế độ nền và có thể mất vài phút tùy thuộc vào kích thước tập dữ liệu của bạn. Bạn có thể đóng bảng hoặc rời khỏi trang và quay lại sau.

Trực quan hóa

Sau khi phân tích hoàn tất, bảng sẽ hiển thị một biểu đồ phân tán 2D của tất cả các ảnh được phân tích. Các bộ lọc thư viện (phân đoạn, lớp, đã gán nhãn/chưa gán nhãn) sẽ làm mờ các điểm nằm ngoài bộ lọc để bạn có thể tập trung vào tập hợp con mà mình quan tâm.

Ultralytics Platform Datasets Clustering Scatter Plot

Tô màu theo

Thay đổi cách đổ màu cho các điểm dữ liệu bằng menu thả xuống Color by trong thanh công cụ của bảng. Chuyển đổi chế độ xem bất cứ lúc nào — biểu đồ sẽ tự động tô màu lại ngay lập tức để bạn có thể thấy cách các phân đoạn, lớp, hoặc thuộc tính ảnh được phân bổ trên các cụm của mình:

Tùy chọnĐổ màu
SplitsTrain / Val / Test
ClassesLớp chú thích đầu tiên trên mỗi ảnh
Chiều rộngChiều rộng ảnh
Chiều caoChiều cao ảnh
Kích thướcKích thước tệp
Chú thíchSố lượng chú thích trên mỗi ảnh

Ultralytics Platform Datasets Clustering Color Modes

Chọn bằng Lasso

Vẽ vùng chọn tự do xung quanh một khu vực để làm nổi bật các điểm trên biểu đồ. Thư viện sẽ lọc xuống các ảnh tương ứng, cho phép bạn kiểm tra, gán lại nhãn, di chuyển hoặc xóa chúng bằng các thao tác với ảnh thông thường.

Xóa lựa chọn

Một thẻ bên trên biểu đồ cho biết số lượng điểm đã được chọn — hãy nhấp vào × để xóa vùng chọn Lasso và quay lại chế độ xem toàn bộ thư viện.

Di chuyển và thu phóng

Điều hướng các biểu đồ phân tán lớn trực tiếp bằng chuột và bàn phím:

Đầu vàoThao tác
Cuộn (Scroll)Di chuyển biểu đồ trong không gian 2D
Cmd/Ctrl+ScrollPhóng to hoặc thu nhỏ, neo theo con trỏ chuột
Giữ phím SpaceChuyển sang chế độ kéo để di chuyển (drag-to-pan)

Phân tích lại

Nếu tập dữ liệu của bạn thay đổi sau khi phân tích, một nút Re-analyze sẽ xuất hiện ở đầu bảng cho chủ sở hữu và biên tập viên.

Nhấp vào Re-analyze để tính toán lại các embedding và dự báo 2D từ đầu.

Các tab Tập dữ liệu

Mỗi trang tập dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái tập dữ liệu và quyền truy cập của bạn:

Tab Hình ảnh (Images)

Chế độ xem mặc định hiển thị thư viện ảnh với các lớp phủ chú thích. Hỗ trợ các chế độ xem dạng lưới, thu gọn và bảng. Kéo và thả tệp vào đây để thêm nhiều ảnh hơn.

Tab Lớp (Classes)

Tab này xuất hiện khi tập dữ liệu có chứa ảnh.

Quản lý các lớp chú thích cho tập dữ liệu của bạn:

  • Biểu đồ tần suất lớp: Biểu đồ cột hiển thị số lượng chú thích theo mỗi lớp với tùy chọn bật/tắt thang đo tuyến tính/logarithmic
  • Bảng lớp: Bảng có thể sắp xếp và tìm kiếm, bao gồm tên lớp, số lượng nhãn và số lượng ảnh
  • Chỉnh sửa tên lớp: Nhấp vào bất kỳ tên lớp nào để đổi tên trực tiếp
  • Chỉnh sửa màu lớp: Nhấp vào ô màu để thay đổi màu sắc của lớp
  • Thêm lớp mới: Sử dụng ô nhập liệu ở dưới cùng để thêm lớp

Ultralytics Platform Datasets Classes Tab Histogram And Table

Thang đo Logarithmic cho các tập dữ liệu mất cân bằng

Nếu tập dữ liệu của bạn bị mất cân bằng lớp (ví dụ: 10.000 chú thích "person" nhưng chỉ có 50 "bicycle"), hãy sử dụng công tắc Log Scale trên biểu đồ tần suất lớp để trực quan hóa tất cả các lớp một cách rõ ràng.

Tab Biểu đồ

Tab này xuất hiện khi tập dữ liệu có chứa ảnh.

Các số liệu thống kê được tính toán tự động từ tập dữ liệu của bạn:

Biểu đồMô tả
Phân bổ tập dữ liệu (Split Distribution)Biểu đồ hình tròn hiển thị số lượng ảnh train/val/test và tỷ lệ phần trăm đã được gán nhãn
Các lớp hàng đầu (Top Classes)Biểu đồ hình tròn của 10 lớp chú thích xuất hiện nhiều nhất
Chiều rộng ảnh (Image Widths)Biểu đồ cột về phân bổ chiều rộng ảnh kèm giá trị trung bình
Chiều cao ảnh (Image Heights)Biểu đồ cột về phân bổ chiều cao ảnh kèm giá trị trung bình
Điểm trên mỗi thực thể (Points per Instance)Số lượng đỉnh đa giác hoặc điểm khóa trên mỗi chú thích (phân đoạn/tư thế)
Vị trí chú thích (Annotation Locations)Bản đồ nhiệt 2D của các vị trí tâm BBox
Kích thước ảnh (Image Dimensions)Bản đồ nhiệt 2D về chiều rộng so với chiều cao cùng các đường hướng dẫn tỷ lệ khung hình

Ultralytics Platform Datasets Charts Tab Statistics Grid

Bộ nhớ đệm thống kê

Các số liệu thống kê được lưu trong bộ nhớ đệm trong 5 phút. Những thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.

Bản đồ nhiệt toàn màn hình

Nhấp vào nút mở rộng trên bất kỳ bản đồ nhiệt nào để xem ở chế độ toàn màn hình. Điều này cung cấp cái nhìn chi tiết và rộng hơn — hữu ích để hiểu các mô hình không gian trong các tập dữ liệu lớn.

Tab Model

Xem tất cả các model được huấn luyện trên tập dữ liệu này trong một bảng có thể tìm kiếm:

CộtMô tả
TênTên model kèm liên kết
Dự ánDự án cha kèm biểu tượng
Trạng tháiHuy hiệu trạng thái huấn luyện
Tác vụLoại tác vụ YOLO
EpochsEpoch tốt nhất / tổng số epoch
mAP50-95Mean average precision
mAP50mAP tại IoU 0.50
Đã tạoNgày tạo

Ultralytics Platform Datasets Models Tab Trained Models Table

Tab Lỗi

Tab này chỉ xuất hiện khi một hoặc nhiều tệp xử lý thất bại.

Các ảnh xử lý thất bại được liệt kê ở đây với:

  • Biểu ngữ lỗi: Tổng số ảnh lỗi và hướng dẫn
  • Bảng lỗi: Tên tệp, mô tả lỗi thân thiện với người dùng, gợi ý sửa lỗi và ảnh xem trước thu nhỏ
  • Các lỗi phổ biến bao gồm tệp bị hỏng, định dạng không được hỗ trợ, ảnh quá nhỏ (tối thiểu 28px) và chế độ màu không được hỗ trợ

Ultralytics Platform Datasets Errors Tab Processing Failures

Các lỗi xử lý phổ biến
LỗiNguyên nhânCách sửa
Không thể đọc tệp ảnhĐịnh dạng bị hỏng hoặc không được hỗ trợXuất lại từ trình chỉnh sửa ảnh
Không đầy đủ hoặc bị hỏngTệp bị cắt bớt trong quá trình truyềnTải lại tệp gốc
Ảnh quá nhỏKích thước tối thiểu dưới 28pxSử dụng ảnh nguồn có độ phân giải cao hơn
Chế độ màu không được hỗ trợChế độ màu CMYK hoặc indexedChuyển đổi sang chế độ RGB

Tab Phiên bản (Versions)

Tạo các bản chụp nhanh (snapshot) NDJSON bất biến của tập dữ liệu để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng ảnh, số lượng lớp, số lượng chú thích và kích thước tệp tại thời điểm tạo.

CộtMô tả
Phiên bảnSố phiên bản (v1, v2, ...)
Mô tảMô tả do người dùng cung cấp (có thể chỉnh sửa)
Hình ảnhSố lượng ảnh tại thời điểm chụp nhanh
Các lớpSố lượng lớp tại thời điểm chụp nhanh
Chú thíchSố lượng chú thích tại thời điểm chụp nhanh
Kích thướcKích thước tệp xuất NDJSON
Đã tạoThời điểm phiên bản được tạo

Để tạo một phiên bản:

  1. Mở tab Versions
  2. Tùy chọn nhập mô tả (ví dụ: "Đã thêm 500 ảnh huấn luyện" hoặc "Đã sửa các lớp bị gán nhãn sai")
  3. Nhấp vào + New Version
  4. Phiên bản mới xuất hiện trong bảng
  5. Tải xuống phiên bản riêng biệt từ bảng khi cần

Mỗi phiên bản được đánh số theo trình tự (v1, v2, v3...) và được lưu trữ vĩnh viễn. Bạn có thể tải xuống bất kỳ phiên bản nào trước đó bất cứ lúc nào từ bảng phiên bản.

Chỉ áp dụng cho tập dữ liệu đã sẵn sàng

Tính năng tạo phiên bản khả dụng sau khi tập dữ liệu đạt trạng thái ready.

Khi nào nên tạo phiên bản

Tạo phiên bản trước và sau những thay đổi lớn đối với tập dữ liệu của bạn — thêm ảnh, sửa chú thích hoặc cân bằng lại các tập phân chia. Điều này cho phép bạn so sánh hiệu suất model giữa các trạng thái tập dữ liệu khác nhau.

Kích thước tệp NDJSON

Kích thước hiển thị là kích thước tệp xuất NDJSON, chứa URL ảnh và chú thích — chứ không phải bản thân các tệp ảnh. Dữ liệu ảnh thực tế được lưu trữ riêng và truy cập thông qua các URL có chữ ký.

Xuất tập dữ liệu

Xuất tập dữ liệu của bạn để sử dụng ngoại tuyến với bản tải xuống NDJSON từ tiêu đề tập dữ liệu hoặc tab Versions.

Để xuất:

  1. Nhấp vào nút Export trong tiêu đề tập dữ liệu
  2. Tải xuống bản chụp NDJSON hiện tại trực tiếp
  3. Sử dụng tab Versions khi bạn muốn có một bản chụp được đánh số bất biến mà bạn có thể tải xuống lại sau này

Ultralytics Platform Datasets Export Ndjson Download

Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng. Dòng đầu tiên chứa siêu dữ liệu tập dữ liệu, theo sau là một dòng cho mỗi ảnh:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
URL có chữ ký

Các URL ảnh trong tệp NDJSON xuất ra đã được ký và có hiệu lực trong 7 ngày. Nếu bạn cần URL mới, hãy xuất lại tập dữ liệu hoặc tạo một phiên bản mới.

Xem tài liệu về định dạng Ultralytics NDJSON để biết thông số kỹ thuật đầy đủ.

Thao tác với ảnh

Hành động nhanh

Nhấp chuột phải vào bất kỳ ảnh nào trong chế độ xem Grid hoặc Compact để truy cập các tác vụ nhanh:

Thao tácMô tả
Chuyển sang tập phân chia (Move to Split)Gán lại ảnh vào tập Train, Val hoặc Test
Tải xuốngTải xuống tệp ảnh gốc
XóaXóa ảnh khỏi tập dữ liệu

Ảnh menu ngữ cảnh thẻ ảnh tập dữ liệu trên nền tảng Ultralytics

Đơn lẻ so với hàng loạt

Menu ngữ cảnh ảnh hoạt động trên một ảnh đơn lẻ. Đối với các thao tác hàng loạt trên nhiều ảnh, hãy sử dụng chế độ xem Bảng với các ô chọn.

Di chuyển hàng loạt sang tập

Gán lại các ảnh đã chọn sang một tập khác trong cùng tập dữ liệu:

  1. Chuyển sang chế độ xem Bảng
  2. Chọn ảnh bằng các ô đánh dấu
  3. Nhấp chuột phải để mở menu ngữ cảnh
  4. Chọn Move to split > Train, Validation, hoặc Test

Bạn cũng có thể kéo và thả ảnh vào các tab lọc tập trong chế độ xem lưới.

Tổ chức các tập Train/Val

Tải lên tất cả ảnh vào một tập dữ liệu, sau đó sử dụng tính năng di chuyển hàng loạt sang tập để tổ chức các tập con thành train, validation và test.

Phân phối lại tập

Phân phối lại tất cả ảnh trên các tập train, validation và test bằng các tỷ lệ tùy chỉnh:

  1. Nhấp vào thanh phân chia trên thanh công cụ tập dữ liệu để mở hộp thoại Phân phối lại tập
  2. Điều chỉnh tỷ lệ phần trăm phân chia bằng bất kỳ phương pháp nào dưới đây
  3. Xem trước số lượng ảnh trực tiếp để xác nhận sự phân phối
  4. Nhấp Áp dụng để gán lại ngẫu nhiên tất cả ảnh theo tỷ lệ phần trăm của bạn

Hộp thoại phân phối lại tập tập dữ liệu trên nền tảng Ultralytics

Hộp thoại cung cấp ba cách để thiết lập tỷ lệ tập mục tiêu của bạn:

Phương thứcMô tả
KéoKéo các tay cầm giữa các đoạn màu để điều chỉnh trực quan ranh giới phân chia
NhậpChỉnh sửa đầu vào phần trăm cho bất kỳ tập nào (hai tập còn lại sẽ tự động cân bằng theo tỷ lệ)
Tự độngMột cú nhấp chuột để thiết lập ngay tỷ lệ 80/20 train/validation với tập test được đặt là 0%

Bản xem trước trực tiếp cho thấy chính xác có bao nhiêu ảnh sẽ nằm trong mỗi tập trước khi bạn áp dụng.

Phân chia nhanh 80/20

Nhấp vào nút Tự động để thiết lập ngay tỷ lệ 80/20 train/validation được đề xuất. Đây là tỷ lệ phổ biến nhất để huấn luyện.

Xóa hàng loạt

Xóa nhiều ảnh cùng lúc:

  1. Chọn ảnh trong chế độ xem bảng
  2. Nhấp chuột phải và chọn Delete
  3. Xác nhận xóa

URI tập dữ liệu

Tham chiếu các tập dữ liệu trên nền tảng bằng định dạng URI ul:// (xem Sử dụng tập dữ liệu nền tảng):

ul://username/datasets/dataset-slug

Sử dụng URI này để huấn luyện các model từ bất cứ đâu:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Huấn luyện ở mọi nơi với dữ liệu nền tảng

URI ul:// hoạt động từ mọi môi trường:

  • Máy cục bộ: Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động
  • Google Colab: Truy cập các tập dữ liệu nền tảng của bạn trong các notebook
  • Máy chủ từ xa: Huấn luyện trên các máy ảo cloud với quyền truy cập đầy đủ vào tập dữ liệu

Các giấy phép khả dụng

Nền tảng hỗ trợ các giấy phép sau cho tập dữ liệu:

Giấy phépLoại
Không cóChưa chọn giấy phép
CC0-1.0Phạm vi công cộng
CC-BY-2.5Cho phép
CC-BY-4.0Cho phép
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0Phi thương mại
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Không phái sinh
CC-BY-NC-ND-4.0Phi thương mại
Apache-2.0Cho phép
MITCho phép
AGPL-3.0Copyleft
GPL-3.0Copyleft
Chỉ nghiên cứuHạn chế
KhácTùy chỉnh
Giấy phép Copyleft

Khi sao chép một tập dữ liệu có giấy phép copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), bản sao sẽ kế thừa giấy phép đó và bộ chọn giấy phép sẽ bị khóa.

Cài đặt hiển thị

Kiểm soát ai có thể nhìn thấy tập dữ liệu của bạn:

Cài đặtMô tả
Riêng tưChỉ mình bạn có thể truy cập
Công khaiBất kỳ ai cũng có thể xem trên trang Khám phá

Cài đặt hiển thị được thiết lập khi tạo tập dữ liệu trong hộp thoại New Dataset bằng công tắc bật/tắt. Các tập dữ liệu công khai sẽ hiển thị trên trang Khám phá.

Chỉnh sửa tập dữ liệu

Metadata của tập dữ liệu được chỉnh sửa trực tiếp ngay trên trang tập dữ liệu — không cần hộp thoại:

  • Tên: Nhấp vào tên tập dữ liệu để chỉnh sửa. Các thay đổi tự động lưu khi mất tiêu điểm hoặc nhấn Enter.
  • Mô tả: Nhấp vào mô tả (hoặc văn bản giữ chỗ "Thêm mô tả...") để chỉnh sửa. Các thay đổi tự động lưu.
  • Loại tác vụ: Nhấp vào huy hiệu tác vụ để chọn một loại tác vụ khác.
  • Giấy phép: Nhấp vào bộ chọn giấy phép để thay đổi giấy phép của tập dữ liệu.
Thay đổi loại tác vụ

Mỗi ảnh lưu trữ các chú thích cho tất cả các loại tác vụ cùng nhau. Việc thay đổi loại tác vụ của tập dữ liệu sẽ kiểm soát chú thích nào hiển thị trong trình chỉnh sửa và được bao gồm trong xuất và huấn luyện. Chú thích cho các loại tác vụ khác được giữ nguyên trong cơ sở dữ liệu và sẽ xuất hiện lại khi bạn chuyển đổi quay lại.

Sao chép tập dữ liệu

Khi xem một tập dữ liệu công khai mà bạn không sở hữu, hãy nhấp vào Clone Dataset để tạo bản sao trong không gian làm việc của bạn. Bản sao bao gồm tất cả ảnh, chú thích và định nghĩa lớp. Nếu tập dữ liệu gốc có giấy phép copyleft, bản sao sẽ kế thừa giấy phép đó và bộ chọn giấy phép bị khóa.

Đánh dấu sao và Chia sẻ

  • Đánh dấu sao: Nhấp vào nút sao để đánh dấu tập dữ liệu. Số lượng sao hiển thị với tất cả người dùng.
  • Chia sẻ: Đối với các tập dữ liệu công khai, nhấp vào nút chia sẻ để sao chép liên kết hoặc chia sẻ lên các nền tảng xã hội.

Xóa tập dữ liệu

Xóa tập dữ liệu bạn không còn cần nữa:

  1. Mở menu hành động tập dữ liệu
  2. Nhấp Delete
  3. Xác nhận trong hộp thoại: "Hành động này sẽ chuyển [name] vào thùng rác. Bạn có thể khôi phục trong vòng 30 ngày."
Thùng rác và Khôi phục

Các tập dữ liệu bị xóa sẽ được chuyển đến Thùng rác — không bị xóa vĩnh viễn. Bạn có thể khôi phục chúng trong vòng 30 ngày từ Settings > Trash.

Huấn luyện trên Tập dữ liệu

Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:

  1. Nhấp vào New Model trên trang tập dữ liệu
  2. Chọn một dự án hoặc tạo mới
  3. Cấu hình các tham số huấn luyện
  4. Bắt đầu huấn luyện
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Xem Cloud Training để biết thêm chi tiết.

Câu hỏi thường gặp (FAQ)

Điều gì xảy ra với dữ liệu của tôi sau khi tải lên?

Dữ liệu của bạn được xử lý và lưu trữ tại khu vực bạn đã chọn (US, EU, hoặc AP). Hình ảnh được:

  1. Xác thực về định dạng và kích thước
  2. Từ chối nếu kích thước tối thiểu dưới 28px
  3. Chuẩn hóa nếu lớn hơn 4096px (giữ nguyên tỷ lệ khung hình; mã hóa để tối ưu hóa lưu trữ)
  4. Lưu trữ bằng Content-Addressable Storage (CAS) với băm XXH3-128
  5. Hình thu nhỏ (thumbnails) được tạo ở định dạng WebP 256px để duyệt nhanh

Lưu trữ hoạt động như thế nào?

Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để lưu trữ hiệu quả:

  • Khử trùng lặp (Deduplication): Các hình ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần
  • Toàn vẹn (Integrity): Băm XXH3-128 đảm bảo tính toàn vẹn của dữ liệu
  • Hiệu quả (Efficiency): Giảm chi phí lưu trữ và tăng tốc độ xử lý
  • Khu vực (Regional): Dữ liệu vẫn ở trong khu vực bạn đã chọn (US, EU, hoặc AP)

Tôi có thể thêm hình ảnh vào tập dữ liệu hiện có không?

Có, hãy kéo và thả tệp vào trang tập dữ liệu hoặc sử dụng nút tải lên để thêm hình ảnh bổ sung. Các số liệu thống kê mới sẽ được tính toán tự động.

Làm cách nào để di chuyển hình ảnh giữa các phân đoạn (splits)?

Sử dụng tính năng di chuyển hàng loạt đến phân đoạn:

  1. Chọn ảnh trong chế độ xem bảng
  2. Nhấp chuột phải và chọn Move to split
  3. Chọn phân đoạn mục tiêu (Train, Validation, hoặc Test)

Các định dạng nhãn nào được hỗ trợ?

Ultralytics Platform hỗ trợ nhãn YOLO, COCO JSON, Ultralytics NDJSON và tải lên hình ảnh thô:

Một tệp .txt cho mỗi hình ảnh với tọa độ chuẩn hóa (phạm vi 0-1):

Tác vụĐịnh dạngVí dụ
Detectclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassifyCấu trúc thư mụctrain/cats/, train/dogs/

Cờ hiển thị pose: 0=không được gắn nhãn, 1=được gắn nhãn nhưng bị che khuất, 2=được gắn nhãn và hiển thị.

Tôi có thể chú thích cùng một tập dữ liệu cho nhiều loại tác vụ không?

Có. Mỗi hình ảnh lưu trữ chú thích cho tất cả 5 loại tác vụ (detect, segment, pose, OBB, classify) cùng nhau. Bạn có thể chuyển đổi loại tác vụ đang hoạt động của tập dữ liệu bất kỳ lúc nào mà không làm mất các chú thích hiện có. Chỉ các chú thích khớp với loại tác vụ đang hoạt động mới được hiển thị trong trình chỉnh sửa và được đưa vào xuất dữ liệu cũng như huấn luyện — chú thích cho các tác vụ khác được giữ nguyên và sẽ xuất hiện lại khi bạn chuyển đổi trở lại.

Bình luận