Chuyển đến nội dung

Bộ dữ liệu

Nền tảng Ultralytics Các tập dữ liệu cung cấp một giải pháp hợp lý để quản lý dữ liệu huấn luyện của bạn. Sau khi tải lên, nền tảng sẽ tự động xử lý hình ảnh, nhãn và số liệu thống kê. Một tập dữ liệu sẵn sàng để huấn luyện khi quá trình xử lý hoàn tất và nó có ít nhất một hình ảnh trong đó. train chia đôi, ít nhất một hình ảnh trong một trong hai val hoặc test Chia thành các phần, mỗi phần ít nhất một hình ảnh có nhãn và tổng cộng ít nhất hai hình ảnh.

Tải lên Bộ dữ liệu

Ultralytics Nền tảng hỗ trợ nhiều định dạng tải lên khác nhau để tăng tính linh hoạt.

Các định dạng được hỗ trợ

Định dạngPhần mở rộngGhi chúKích thước tối đa
JPEG.jpg, .jpegPhổ biến nhất, được khuyến nghị50 MB
PNG.pngỦng hộ tính minh bạch50 MB
WebP.webpHiện đại, khả năng nén tốt50 MB
BMP.bmpChưa nén50 MB
TIFF.tiff, .tifChất lượng cao50 MB
HEIC.heicẢnh chụp bằng iPhone50 MB
AVIF.avifĐịnh dạng thế hệ tiếp theo50 MB
JP2.jp2JPEG 200050 MB
DNG.dngMáy ảnh RAW50 MB
MPO.mpoĐối tượng nhiều hình ảnh50 MB

Video được tự động trích xuất thành từng khung hình ở phía máy khách với tốc độ 1 khung hình/giây (tối đa 100 khung hình mỗi video).

Định dạngPhần mở rộngChiết xuấtKích thước tối đa
MP4.mp41 FPS, tối đa 100 khung hình/giây1 GB
WebM.webm1 FPS, tối đa 100 khung hình/giây1 GB
MOV.mov1 FPS, tối đa 100 khung hình/giây1 GB
AVI.avi1 FPS, tối đa 100 khung hình/giây1 GB
MKV.mkv1 FPS, tối đa 100 khung hình/giây1 GB
M4V.m4v1 FPS, tối đa 100 khung hình/giây1 GB

Trích xuất khung hình video

Các khung hình video được trích xuất với tốc độ 1 khung hình/giây trong trình duyệt trước khi tải lên. Một video dài 60 giây sẽ tạo ra 60 khung hình. Số khung hình tối đa là 100 khung hình mỗi video — đối với các video dài hơn khoảng 100 giây, 100 khung hình sẽ được lấy mẫu đều khắp thời lượng video.

Các tệp lưu trữ được giải nén và xử lý tự động.

Định dạngPhần mở rộngGhi chúMiễn phíProDoanh nghiệp
Mã bưu chính.zipPhổ biến nhất10 GB20 GB50 GB
TAR.tar .tar.gz .tgzNén hoặc thô10 GB20 GB50 GB
NDJSON.ndjsonXuất tập dữ liệu10 GB20 GB50 GB

Chuẩn bị Tập dữ liệu của bạn

Nền tảng này hỗ trợ các định Ultralytics YOLO , COCO , Ultralytics NDJSON và các tệp tải lên thô (không chú thích):

Sử dụng tiêu chuẩn YOLO cấu trúc thư mục với data.yaml tệp:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Tệp YAML định nghĩa cấu hình tập dữ liệu của bạn:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Sử dụng các tệp chú thích JSON với cấu trúc COCO tiêu chuẩn:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

Tệp JSON chứa images, annotations, và categories mảng:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

Chú thích COCO được tự động chuyển đổi trong quá trình tải lên. Detection (bbox), segment (segmentation đa giác), và tư thế (keypoints) tác vụ được hỗ trợ. ID danh mục được ánh xạ lại thành một chuỗi dày đặc có chỉ số 0 trên tất cả các tệp chú thích. Để chuyển đổi giữa các định dạng, xem công cụ chuyển đổi định dạng.

Việc tải lên các tệp phân loại được tự động nhận diện dựa trên bố cục thư mục thông thường:

split/class/image.jpg
class/split/image.jpg
class/image.jpg

Ví dụ:

my-classify-dataset/
├── train/
│   ├── cats/
│   └── dogs/
└── val/
    ├── cats/
    └── dogs/

Ultralytics Bạn có thể tải trực tiếp các tệp xuất NDJSON trở lại Platform. Điều này rất hữu ích khi di chuyển các tập dữ liệu giữa các không gian làm việc mà vẫn bảo toàn siêu dữ liệu, lớp, phân chia và chú thích.

Tải lên thô

Thô: Tải lên hình ảnh chưa được chú thích (không có nhãn). Hữu ích khi bạn có kế hoạch chú thích trực tiếp trên nền tảng bằng cách sử dụng trình chỉnh sửa chú thích.

Cấu trúc thư mục phẳng

Bạn cũng có thể tải lên hình ảnh mà không cần tạo thư mục chia nhỏ rõ ràng. Nền tảng sẽ tôn trọng mục tiêu chia nhỏ đang hoạt động trong quá trình tải lên, và đối với các trường hợp không... classify Với các tập dữ liệu này, nó có thể tự động tạo một tập dữ liệu xác thực được tách ra từ một phần của tập dữ liệu huấn luyện khi không có thông tin phân chia nào được cung cấp. Bạn luôn có thể gán lại hình ảnh sau này bằng cách sử dụng thao tác di chuyển hàng loạt đến tập dữ liệu được tách ra hoặc phân phối lại tập dữ liệu được tách ra.

Tự động phát hiện định dạng

Định dạng được tự động phát hiện: tập dữ liệu có data.yaml chứa names, train, hoặc val các khóa được coi là YOLO . Các tập dữ liệu với COCO Các tệp JSON (chứa images, annotations, và categories mảng) được coi là COCO. .ndjson Hàng xuất khẩu được nhập khẩu như Ultralytics NDJSON. Các tập dữ liệu chỉ chứa hình ảnh và không có chú thích được coi là dữ liệu thô.

Để biết chi tiết về định dạng cụ thể cho từng tác vụ, hãy xem các tác vụ được hỗ trợTổng quan về tập dữ liệu .

Quy trình tải lên

  1. Điều hướng đến Datasets trong thanh bên
  2. Nhấp New Dataset hoặc kéo tệp vào khu vực tải lên
  3. Chọn loại tác vụ (xem các tác vụ được hỗ trợ )
  4. Thêm tên và mô tả tùy chọn
  5. Thiết lập chế độ hiển thị (công khai hoặc riêng tư) và giấy phép tùy chọn (xem các giấy phép hiện có )
  6. Nhấp Create

Ultralytics Hộp thoại tải lên tập dữ liệu nền tảng Bộ chọn tác vụ

Sau khi tải lên, nền tảng xử lý dữ liệu của bạn thông qua một quy trình nhiều giai đoạn:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Xác thực: Kiểm tra định dạng và kích thước
  2. Chuẩn hóa: Ảnh lớn được thay đổi kích thước (tối đa 4096px, kích thước tối thiểu 28px)
  3. Ảnh thu nhỏ: Các bản xem trước WebP 256px được tạo
  4. Phân tích cú pháp nhãn: Nhãn định dạng YOLO và COCO được trích xuất
  5. Thống kê: Phân bố lớp và kích thước hình ảnh được tính toán.

Ultralytics Thanh tiến độ tải lên bộ dữ liệu nền tảng

Xác thực trước khi tải lên

Bạn có thể xác thực tập dữ liệu của mình cục bộ trước khi tải lên:

from ultralytics.data.utils import check_det_dataset

check_det_dataset("path/to/data.yaml")

Yêu cầu về kích thước hình ảnh

Ảnh phải có kích thước tối thiểu 28px ở cạnh ngắn nhất. Ảnh nhỏ hơn kích thước này sẽ bị loại bỏ trong quá trình xử lý. Ảnh có kích thước lớn hơn 4096px ở cạnh dài nhất sẽ tự động được điều chỉnh kích thước mà vẫn giữ nguyên tỷ lệ khung hình.

Duyệt hình ảnh

Xem các hình ảnh trong tập dữ liệu của bạn theo nhiều bố cục khác nhau.

Mở bảng điều khiển Phân cụm từ thanh công cụ thư viện để khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác.

XemMô tả
Dạng lướiLưới hình thu nhỏ với lớp phủ chú thích (mặc định)
Thu gọnHình thu nhỏ nhỏ hơn để quét nhanh
BảngDanh sách bao gồm hình thu nhỏ, tên tệp, kích thước, dung lượng, phân chia, lớp và số lượng nhãn.

Ultralytics Thư viện bộ dữ liệu nền tảng dạng lưới với chú thích

Sắp xếp và lọc

Bạn có thể sắp xếp và lọc hình ảnh để duyệt nhanh hơn:

Sắp xếpMô tả
Mới nhất / Cũ nhấtThứ tự tải lên/tạo
Tên AZ / ZATên tệp theo thứ tự bảng chữ cái
Chiều cao ↑/↓Chiều cao của hình ảnh tính bằng pixel
Chiều rộng ↑/↓Chiều rộng của hình ảnh tính bằng pixel
Kích thước ↑/↓Kích thước tệp trên đĩa
Chú thích ↑/↓Số lượng chú thích trên mỗi hình ảnh

Tập dữ liệu lớn

Đối với các tập dữ liệu trên 100.000 hình ảnh, các tùy chọn sắp xếp theo tên/kích thước/chiều rộng/chiều cao sẽ bị vô hiệu hóa để giữ cho thư viện ảnh luôn tương thích với các thiết bị khác nhau. Các tùy chọn sắp xếp theo ảnh mới nhất, cũ nhất và số lượng chú thích vẫn khả dụng.

Bộ lọcCác tùy chọn
Bộ lọc táchHuấn luyện, Xác nhận, Kiểm tra, hoặc Tất cả
Bộ lọc nhãnTất cả, có nhãn hoặc không có nhãn
Bộ lọc lớpLọc theo tên lớp
Tìm kiếmLọc hình ảnh theo tên tệp

Tìm kiếm hình ảnh chưa được gắn nhãn

Sử dụng bộ lọc nhãn được đặt thành Unlabeled Để nhanh chóng tìm thấy những hình ảnh vẫn cần chú thích. Điều này đặc biệt hữu ích đối với các tập dữ liệu lớn, nơi bạn muốn track ghi nhãn tiến độ.

Trình xem toàn màn hình

Nhấp vào bất kỳ hình ảnh nào để mở trình xem toàn màn hình với:

  • Điều hướng: Phím mũi tên hoặc xem trước hình thu nhỏ để duyệt
  • Siêu dữ liệu: Tên tệp, kích thước, huy hiệu phân tách, số lượng chú thích.
  • Chú thích: Bật/tắt hiển thị lớp phủ chú thích.
  • Phân tích theo lớp: Số lượng nhãn theo từng lớp với chỉ báo màu
  • Chỉnh sửa: Vào chế độ chú thích để thêm hoặc sửa đổi nhãn
  • Tải xuống: Tải xuống tệp hình ảnh gốc
  • Xóa: Xóa hình ảnh khỏi tập dữ liệu
  • Phóng: Cmd/Ctrl+Scroll, Cmd/Ctrl++, hoặc Cmd/Ctrl+= để phóng to và Cmd/Ctrl+- thu nhỏ
  • Đặt lại chế độ xem: Cmd/Ctrl + 0 hoặc nút đặt lại để điều chỉnh hình ảnh cho phù hợp với trình xem.
  • Chảo: Giữ Space và kéo để di chuyển khung vẽ khi phóng to.
  • Chế độ xem pixel: Bật/tắt hiển thị pixel để kiểm tra kỹ lưỡng

Ultralytics Trình xem toàn màn hình các tập dữ liệu nền tảng với bảng siêu dữ liệu

Lọc theo phân tách

Lọc hình ảnh theo phân tách tập dữ liệu của chúng:

Phân táchMục đích
Huấn luyệnĐược sử dụng để huấn luyện mô hình
ValĐược sử dụng để xác thực trong quá trình huấn luyện
Kiểm thửĐược sử dụng để đánh giá cuối cùng

Phân cụm

Hàm Clustering Bảng điều khiển này hiển thị tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác, trong đó các hình ảnh có đặc điểm hình ảnh tương tự sẽ nằm gần nhau. Sử dụng tính năng này để phát hiện các cụm dữ liệu, xác định các bản sao trùng lặp và các giá trị ngoại lệ, đồng thời kiểm tra cách các phân nhóm hoặc lớp được phân bố trong dữ liệu của bạn — mà không cần rời khỏi giao diện xem dữ liệu. Bạn có thể mở tính năng này bằng cách nhấp vào biểu tượng biểu đồ phân tán trên thanh công cụ của giao diện xem dữ liệu ở bất kỳ trang tập dữ liệu nào.

Ultralytics : Tập dữ liệu, Phân cụm, Trạng thái trống

Phân tích quá trình chạy

Bắt đầu phân tích:

  1. Mở một tập dữ liệu và nhấp vào biểu tượng biểu đồ phân tán trên thanh công cụ thư viện
  2. Nhấp Analyze Dataset
  3. Hãy đợi cho đến khi thanh tiến trình hoàn tất — kết quả sẽ hiển thị trong cùng một bảng

Quá trình phân tích sẽ diễn ra ở chế độ nền và có thể mất vài phút tùy thuộc vào kích thước của tập dữ liệu. Bạn có thể đóng bảng điều khiển hoặc rời khỏi trang và quay lại sau.

Hình ảnh hóa

Sau khi quá trình phân tích hoàn tất, bảng điều khiển sẽ hiển thị biểu đồ phân tán 2D của tất cả các hình ảnh đã được phân tích. Các bộ lọc trong thư viện (chia nhỏ, phân loại, có nhãn/không có nhãn) sẽ làm mờ các điểm nằm ngoài phạm vi lọc, giúp bạn tập trung vào tập con mà bạn quan tâm.

Biểu đồ phân tán phân cụm tập dữ liệu Ultralytics

Tô màu theo

Thay đổi cách tô màu các điểm dữ liệu bằng Color by menu thả xuống trên thanh công cụ của bảng điều khiển. Bạn có thể chuyển đổi chế độ xem bất cứ lúc nào — biểu đồ sẽ tự động thay đổi màu sắc ngay lập tức để bạn có thể thấy cách các phân nhóm, lớp hoặc thuộc tính hình ảnh được phân bố trong các cụm của mình:

Tùy chọnTạo bóng
Các đợt chia táchHuấn luyện / Đánh giá / Kiểm tra
Các lớpLớp chú thích đầu tiên trên mỗi hình ảnh
Chiều rộngChiều rộng hình ảnh
Chiều caoChiều cao hình ảnh
Kích thướcKích thước tệp
Chú thíchSố lượng chú thích trên mỗi hình ảnh

Ultralytics : Bộ dữ liệu, Phân cụm, Chế độ màu

Chọn vùng bằng Lasso

Vẽ một vùng chọn tự do xung quanh một khu vực để làm nổi bật các điểm trên biểu đồ. Bộ sưu tập sẽ lọc ra các hình ảnh phù hợp, giúp bạn có thể xem xét, đổi tên, di chuyển hoặc xóa chúng bằng các thao tác xử lý hình ảnh thông thường.

Xóa lựa chọn

Một biểu tượng ở phía trên biểu đồ cho biết có bao nhiêu điểm đã được chọn — hãy nhấp vào × để bỏ chọn vòng lasso và quay lại chế độ xem toàn bộ thư viện.

Di chuyển và thu phóng

Điều khiển các nhóm vật thể lớn trực tiếp bằng chuột và bàn phím:

Dữ liệu đầu vàoHành động
CuộnDi chuyển khung hình trong chế độ 2D
Cmd/Ctrl + cuộnPhóng to hoặc thu nhỏ, lấy điểm con trỏ làm tâm
Giữ phím SpaceChuyển sang chế độ kéo để di chuyển

Phân tích lại

Nếu tập dữ liệu của bạn thay đổi sau khi phân tích, một Re-analyze Nút này xuất hiện ở phía trên cùng của bảng điều khiển dành cho chủ sở hữu và biên tập viên.

Nhấp Re-analyze để tính toán lại các vectơ nhúng và phép chiếu 2D từ đầu.

Các tab tập dữ liệu

Mỗi trang dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái của dữ liệu và quyền truy cập của bạn:

Tab Hình ảnh

Chế độ xem mặc định hiển thị thư viện hình ảnh với các lớp phủ chú thích. Hỗ trợ các chế độ xem dạng lưới, thu gọn và bảng. Kéo và thả tệp vào đây để thêm hình ảnh khác.

Tab Các lớp

Tab này sẽ xuất hiện khi tập dữ liệu có chứa hình ảnh.

Quản lý các lớp chú thích cho tập dữ liệu của bạn:

  • Biểu đồ tần suất lớp: Biểu đồ cột hiển thị số lượng chú thích trên mỗi lớp với tùy chọn chuyển đổi thang tuyến tính/logarit
  • Bảng lớp: Bảng có thể sắp xếp, tìm kiếm với tên lớp, số lượng nhãn và số lượng hình ảnh
  • Chỉnh sửa tên lớp: Nhấp vào bất kỳ tên lớp nào để đổi tên trực tiếp
  • Chỉnh sửa màu lớp: Nhấp vào ô màu để thay đổi màu lớp
  • Thêm lớp mới: Sử dụng trường nhập liệu ở phía dưới để thêm các lớp

Ultralytics Tab Tập dữ liệu nền tảng, Biểu đồ tần số và Bảng.

Thang đo logarit cho tập dữ liệu không cân bằng

Nếu tập dữ liệu của bạn có sự mất cân bằng lớp (ví dụ: 10.000 chú thích "người" nhưng chỉ có 50 "xe đạp"), hãy sử dụng Log Scale Bật biểu đồ phân bố theo lớp để trực quan hóa tất cả các lớp một cách rõ ràng.

Tab Biểu đồ

Tab này sẽ xuất hiện khi tập dữ liệu có chứa hình ảnh.

Thống kê tự động được tính toán từ tập dữ liệu của bạn:

Biểu đồMô tả
Phân phối chia nhỏBiểu đồ hình bánh vòng về số lượng hình ảnh huấn luyện/kiểm định/kiểm tra và phần trăm đã gán nhãn
Các lớp học hàng đầuBiểu đồ hình bánh vòng của 10 lớp chú thích thường gặp nhất
Chiều rộng hình ảnhBiểu đồ phân bố độ rộng ảnh theo giá trị trung bình.
Chiều cao hình ảnhBiểu đồ phân bố chiều cao hình ảnh theo giá trị trung bình.
Điểm trên mỗi lầnSố lượng đỉnh đa giác hoặc điểm đặc trưng cho mỗi chú thích ( segment /tư thế)
Vị trí chú thíchBản đồ nhiệt 2D về vị trí trung tâm hộp giới hạn
Kích thước hình ảnhBản đồ nhiệt 2D chiều rộng so với chiều cao với các đường hướng dẫn tỷ lệ khung hình

Ultralytics Bảng thống kê dữ liệu nền tảng > Biểu đồ > Lưới thống kê

Bộ nhớ đệm thống kê

Thống kê được lưu vào bộ nhớ đệm trong 5 phút. Các thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.

Bản đồ nhiệt toàn màn hình

Nhấp vào nút mở rộng trên bất kỳ bản đồ nhiệt nào để xem ở chế độ toàn màn hình. Điều này cung cấp một chế độ xem lớn hơn, chi tiết hơn — hữu ích để hiểu các mẫu không gian trong các tập dữ liệu lớn.

Tab Mô hình

Xem tất cả các mô hình được huấn luyện trên tập dữ liệu này trong một bảng có thể tìm kiếm:

CộtMô tả
TênTên mô hình kèm liên kết
Dự ánDự án cha có biểu tượng
Trạng tháiHuy hiệu trạng thái đào tạo
Tác vụYOLO loại nhiệm vụ
Số epochEpoch tốt nhất / tổng số epoch
mAP50-95Độ chính xác trung bình
mAP50mAP Tại IoU 0,50
Đã tạoNgày tạo

Ultralytics Tab Mô hình Tập dữ liệu Nền tảng Bảng Mô hình đã huấn luyện

Tab Lỗi

Tab này chỉ xuất hiện khi một hoặc nhiều tệp không thể xử lý.

Các hình ảnh không thể xử lý được liệt kê ở đây kèm theo:

  • Biểu ngữ lỗi: Tổng số hình ảnh bị lỗi và hướng dẫn
  • Bảng lỗi: Tên tệp, mô tả lỗi thân thiện với người dùng, gợi ý khắc phục và hình thu nhỏ xem trước
  • Các lỗi phổ biến bao gồm tệp bị hỏng, định dạng không được hỗ trợ, hình ảnh quá nhỏ (tối thiểu 28px) và chế độ màu không được hỗ trợ

Ultralytics Lỗi bộ dữ liệu nền tảng, Lỗi xử lý tab

Các lỗi xử lý phổ biến
LỗiNguyên nhânSửa chữa
Không thể đọc tệp hình ảnhĐịnh dạng bị hỏng hoặc không được hỗ trợXuất lại từ trình chỉnh sửa ảnh
Không đầy đủ hoặc bị hỏngTệp tin đã bị cắt bớt trong quá trình truyền tải.Tải lại tệp gốc
Ảnh quá nhỏKích thước tối thiểu dưới 28pxSử dụng hình ảnh nguồn có độ phân giải cao hơn.
Chế độ màu không được hỗ trợChế độ màu CMYK hoặc màu được lập chỉ mụcChuyển đổi sang chế độ RGB

Tab Phiên bản

Tạo các ảnh chụp nhanh NDJSON bất biến của tập dữ liệu của bạn để huấn luyện có thể tái tạo. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp, số lượng chú thích và kích thước tệp tại thời điểm tạo.

CộtMô tả
Phiên bảnSố phiên bản (v1, v2, ...)
Mô tảMô tả do người dùng cung cấp (có thể chỉnh sửa)
ẢnhSố lượng ảnh tại thời điểm chụp
Các lớpSố lượng lớp tại thời điểm chụp nhanh
Chú thíchSố lượng chú thích tại thời điểm chụp nhanh
Kích thướckích thước tệp xuất NDJSON
Đã tạoKhi phiên bản được tạo ra

Để tạo một phiên bản:

  1. Mở tab Phiên bản
  2. Bạn có thể nhập thêm mô tả (ví dụ: "Đã thêm 500 hình ảnh huấn luyện" hoặc "Đã sửa lỗi dán nhãn sai các lớp").
  3. Nhấp vào + Phiên bản Mới
  4. Phiên bản mới xuất hiện trong bảng.
  5. Khi cần, hãy tải xuống phiên bản riêng biệt khỏi bảng.

Mỗi phiên bản được đánh số thứ tự (v1, v2, v3...) và được lưu trữ vĩnh viễn. Bạn có thể tải xuống bất kỳ phiên bản nào trước đó bất cứ lúc nào từ bảng phiên bản.

Chỉ có bộ dữ liệu sẵn sàng

Tính năng tạo phiên bản sẽ khả dụng sau khi tập dữ liệu đạt đến kích thước mong muốn. ready trạng thái.

Khi nào nên tạo các phiên bản?

Tạo một phiên bản trước và sau các thay đổi lớn đối với tập dữ liệu của bạn — thêm hình ảnh, sửa chú thích hoặc cân bằng lại các phân tách. Điều này cho phép bạn so sánh hiệu suất mô hình trên các trạng thái tập dữ liệu khác nhau.

Kích thước tệp NDJSON

Kích thước hiển thị là kích thước tệp xuất NDJSON, chứa URL hình ảnh và chú thích — chứ không phải kích thước của chính hình ảnh. Dữ liệu hình ảnh thực tế được lưu trữ riêng biệt và truy cập thông qua các URL đã được ký.

Xuất Tập dữ liệu

Xuất bộ dữ liệu của bạn để sử dụng ngoại tuyến bằng cách tải xuống tệp NDJSON từ tiêu đề bộ dữ liệu hoặc tab Phiên bản.

Để xuất khẩu:

  1. Nhấp vào nút Xuất trong tiêu đề tập dữ liệu
  2. Tải xuống trực tiếp bản chụp nhanh NDJSON hiện tại.
  3. Hãy sử dụng tab Phiên bản khi bạn muốn tạo một bản sao lưu có số thứ tự không thể thay đổi để có thể tải xuống lại sau này.

Ultralytics Xuất tập dữ liệu nền tảng định dạng Ndjson Tải xuống

Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng. Dòng đầu tiên chứa siêu dữ liệu của tập dữ liệu, tiếp theo là một dòng cho mỗi hình ảnh:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

URL đã ký

Các URL hình ảnh trong tệp NDJSON đã xuất được ký điện tử và có hiệu lực trong 7 ngày. Nếu bạn cần các URL mới, hãy xuất lại tập dữ liệu hoặc tạo phiên bản mới.

Xem tài liệu định dạng NDJSON của Ultralytics để biết thông số kỹ thuật đầy đủ.

Thao tác hình ảnh

Thao tác nhanh

Nhấp chuột phải vào bất kỳ hình ảnh nào ở chế độ xem Lưới hoặc Thu gọn để truy cập các thao tác nhanh:

Hành độngMô tả
Di chuyển đến SplitGán lại hình ảnh vào tập huấn luyện, xác thực hoặc kiểm tra.
Tải xuốngTải xuống tệp hình ảnh gốc
XóaXóa hình ảnh khỏi tập dữ liệu

Ultralytics Menu ngữ cảnh Thẻ hình ảnh Bộ dữ liệu nền tảng

Đơn lẻ so với số lượng lớn

Menu ngữ cảnh hình ảnh chỉ hoạt động trên một hình ảnh duy nhất . Để thực hiện các thao tác hàng loạt trên nhiều hình ảnh, hãy sử dụng chế độ xem Bảng với tùy chọn chọn bằng hộp kiểm.

Di chuyển hàng loạt để chia tách

Gán lại các hình ảnh đã chọn vào một nhóm khác trong cùng tập dữ liệu:

  1. Chuyển sang chế độ xem dạng bảng
  2. Chọn hình ảnh bằng cách sử dụng hộp kiểm
  3. Nhấp chuột phải để mở menu ngữ cảnh
  4. Chọn Move to split > Huấn luyện, Xác thực, hoặc Kiểm thử

Bạn cũng có thể kéo và thả hình ảnh vào các tab bộ lọc chia nhỏ trong chế độ xem lưới.

Tổ chức phân chia chuyến tàu/val

Tải tất cả hình ảnh lên một tập dữ liệu duy nhất, sau đó sử dụng chức năng "di chuyển hàng loạt đến các tập chia nhỏ" để sắp xếp các tập con thành các tập huấn luyện, xác thực và kiểm tra.

Phân bổ lại

Phân bổ lại tất cả hình ảnh giữa các tập dữ liệu huấn luyện, xác thực và kiểm tra bằng cách sử dụng tỷ lệ tùy chỉnh:

  1. Nhấp vào thanh chia trong thanh công cụ của tập dữ liệu để mở hộp thoại Phân bổ lại các phần chia.
  2. Điều chỉnh tỷ lệ phân chia bằng bất kỳ phương pháp nào dưới đây.
  3. Xem trước số lượng hình ảnh trực tiếp để xác nhận việc phân phối.
  4. Nhấp vào Áp dụng để phân bổ lại ngẫu nhiên tất cả hình ảnh theo tỷ lệ phần trăm bạn đã chọn.

Ultralytics Hộp thoại phân phối lại dữ liệu nền tảng

Hộp thoại này cung cấp ba cách để thiết lập tỷ lệ phân chia mục tiêu của bạn:

Phương thứcMô tả
Lôi kéoKéo các điểm điều khiển giữa các đoạn màu để điều chỉnh trực quan các ranh giới phân chia.
LoạiChỉnh sửa giá trị phần trăm cho bất kỳ tỷ lệ chia nào (hai tỷ lệ chia còn lại sẽ tự động cân bằng theo tỷ lệ).
Tự độngChỉ với một cú nhấp chuột, bạn có thể thiết lập ngay tỷ lệ phân chia dữ liệu huấn luyện/kiểm chứng là 80/20 và tỷ lệ phân chia dữ liệu kiểm thử là 0%.

Bản xem trước trực tiếp cho thấy chính xác có bao nhiêu hình ảnh sẽ được phân bổ vào mỗi nhóm trước khi bạn áp dụng.

Chia nhanh theo tỷ lệ 80/20

Nhấp vào nút Tự động để thiết lập ngay tỷ lệ phân chia tập huấn luyện/kiểm tra 80/20 được khuyến nghị. Đây là tỷ lệ phổ biến nhất cho việc huấn luyện.

Xóa hàng loạt

Xóa nhiều hình ảnh cùng lúc:

  1. Chọn hình ảnh trong chế độ xem bảng
  2. Nhấp chuột phải và chọn Delete
  3. Xác nhận xóa

URI tập dữ liệu

Tham chiếu các tập dữ liệu Nền tảng bằng cách sử dụng ul:// Định dạng URI (xem Sử dụng tập dữ liệu nền tảng):

ul://username/datasets/dataset-slug

Sử dụng URI này để huấn luyện mô hình từ bất kỳ đâu:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Huấn luyện mọi nơi với dữ liệu Nền tảng

Hàm ul:// URI hoạt động trong mọi môi trường:

  • Máy cục bộ: Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động
  • Google Colab: Truy cập các tập dữ liệu Nền tảng của bạn trong sổ ghi chép
  • Máy chủ từ xa: Huấn luyện trên các máy ảo đám mây với quyền truy cập đầy đủ vào tập dữ liệu

Giấy phép khả dụng

Nền tảng này hỗ trợ các loại giấy phép sau cho các tập dữ liệu:

Giấy phépLoại
Không cóChưa chọn giấy phép nào
CC0-1.0Thuộc phạm vi công cộng
CC-BY-2.5Dễ dãi
CC-BY-4.0Dễ dãi
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0Phi thương mại
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Không có sản phẩm phái sinh
CC-BY-NC-ND-4.0Phi thương mại
Apache-2.0Dễ dãi
MITDễ dãi
AGPL-3.0Copyleft
GPL-3.0Copyleft
Chỉ dành cho nghiên cứuHạn chế
KhácTùy chỉnh

Giấy phép Copyleft

Khi sao chép một tập dữ liệu có giấy phép copyleft ( AGPL-3.0 (GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), bản sao kế thừa giấy phép và trình chọn giấy phép bị khóa.

Cài đặt hiển thị

Kiểm soát ai có thể xem tập dữ liệu của bạn:

Thiết lậpMô tả
Riêng tưChỉ bạn có thể truy cập
Công khaiBất kỳ ai cũng có thể xem trên trang Khám phá

Chế độ hiển thị được thiết lập khi tạo tập dữ liệu trong... New Dataset hộp thoại bằng cách sử dụng công tắc bật/tắt. Các tập dữ liệu công khai hiển thị trên Khám phá trang.

Chỉnh sửa Tập dữ liệu

Siêu dữ liệu tập dữ liệu được chỉnh sửa trực tiếp ngay trên trang tập dữ liệu — không cần hộp thoại:

  • Tên: Nhấp vào tên tập dữ liệu để chỉnh sửa. Các thay đổi tự động lưu khi mất tiêu điểm hoặc Enter.
  • Mô tả: Nhấp vào mô tả (hoặc văn bản giữ chỗ "Thêm mô tả...") để chỉnh sửa. Các thay đổi sẽ tự động lưu.
  • Loại tác vụ: Nhấp vào huy hiệu tác vụ để chọn một loại tác vụ khác.
  • Giấy phép: Nhấp vào bộ chọn giấy phép để thay đổi giấy phép tập dữ liệu.

Thay đổi kiểu tác vụ

Mỗi hình ảnh lưu trữ các chú thích cho tất cả các loại tác vụ cùng nhau. Việc thay đổi loại tác vụ của tập dữ liệu sẽ kiểm soát các chú thích nào hiển thị trong trình chỉnh sửa và được bao gồm trong quá trình xuất và huấn luyện. Các chú thích cho các loại tác vụ khác được lưu giữ trong cơ sở dữ liệu và sẽ xuất hiện lại khi bạn chuyển đổi lại loại tác vụ ban đầu.

Sao chép Tập dữ liệu

Khi xem bộ dữ liệu công khai mà bạn không sở hữu, hãy nhấp vào... Clone Dataset Để tạo một bản sao trong không gian làm việc của bạn. Bản sao bao gồm tất cả hình ảnh, chú thích và định nghĩa lớp. Nếu tập dữ liệu gốc có giấy phép copyleft, bản sao sẽ kế thừa giấy phép đó và trình chọn giấy phép sẽ bị khóa.

Đánh dấu sao và chia sẻ

  • Đánh dấu sao: Nhấp vào nút đánh dấu sao để lưu tập dữ liệu. Số lượt đánh dấu sao hiển thị cho tất cả người dùng.
  • Chia sẻ: Đối với các tập dữ liệu công khai, nhấp vào nút chia sẻ để sao chép liên kết hoặc chia sẻ lên các nền tảng xã hội.

Xóa bộ dữ liệu

Xóa tập dữ liệu bạn không còn cần:

  1. Mở menu hành động tập dữ liệu
  2. Nhấp Delete
  3. Xác nhận trong hộp thoại: "Thao tác này sẽ chuyển [tên] vào thùng rác. Bạn có thể khôi phục nó trong vòng 30 ngày."

Thùng rác và Khôi phục

Các tập dữ liệu đã xóa được chuyển vào Thùng rác — không bị xóa vĩnh viễn. Bạn có thể khôi phục chúng trong vòng 30 ngày từ Settings > Trash.

Huấn luyện trên tập dữ liệu

Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:

  1. Nhấp New Model trên trang tập dữ liệu
  2. Chọn một dự án hoặc tạo mới
  3. Cấu hình các tham số huấn luyện
  4. Bắt đầu huấn luyện
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Xem Huấn luyện trên Đám mây để biết chi tiết.

Câu hỏi thường gặp

Dữ liệu của tôi sẽ được xử lý như thế nào sau khi tải lên?

Dữ liệu của bạn được xử lý và lưu trữ trong khu vực bạn đã chọn (US, EU hoặc AP). Hình ảnh được:

  1. Đã xác thực về định dạng và kích thước
  2. Bị từ chối nếu kích thước tối thiểu nhỏ hơn 28px.
  3. Ảnh sẽ được chuẩn hóa nếu lớn hơn 4096px (giữ nguyên tỷ lệ khung hình; được mã hóa để tối ưu hóa dung lượng lưu trữ).
  4. Được lưu trữ bằng phương thức lưu trữ theo địa chỉ nội dung (CAS) với hàm băm XXH3-128.
  5. Ảnh thu nhỏ được tạo ở độ phân giải 256px WebP để duyệt nhanh.

Lưu trữ hoạt động như thế nào?

Nền tảng Ultralytics sử dụng Lưu trữ dựa trên nội dung (CAS) để lưu trữ hiệu quả:

  • Khử trùng lặp: Các hình ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần
  • Tính toàn vẹn: Băm XXH3-128 đảm bảo tính toàn vẹn dữ liệu
  • Hiệu quả: Giảm chi phí lưu trữ và tăng tốc độ xử lý
  • Theo khu vực: Dữ liệu nằm trong khu vực bạn đã chọn (Mỹ, EU hoặc AP)

Tôi có thể thêm hình ảnh vào một tập dữ liệu hiện có không?

Có, bạn có thể kéo và thả tệp vào trang dữ liệu hoặc sử dụng nút tải lên để thêm hình ảnh bổ sung. Số liệu thống kê mới sẽ được tính toán tự động.

Làm thế nào để di chuyển hình ảnh giữa các màn hình chia đôi?

Sử dụng tính năng di chuyển hàng loạt để chia nhỏ:

  1. Chọn hình ảnh trong chế độ xem bảng
  2. Nhấp chuột phải và chọn Move to split
  3. Chọn tập dữ liệu mục tiêu (Huấn luyện, Xác thực hoặc Kiểm thử)

Những định dạng nhãn nào được hỗ trợ?

Ultralytics Nền tảng hỗ trợ YOLO nhãn, COCO JSON, Ultralytics NDJSON và tải lên hình ảnh thô:

Một .txt Tệp tin cho mỗi hình ảnh với tọa độ chuẩn hóa (phạm vi 0-1):

Tác vụĐịnh dạngVí dụ
Phát hiệnclass cx cy w h0 0.5 0.5 0.2 0.3
Phân đoạnclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Pose (Dáng điệu/Tư thế)class cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
Phân loạiCấu trúc thư mụctrain/cats/, train/dogs/

Các cờ chỉ trạng thái tư thế: 0 = không được gắn nhãn, 1 = được gắn nhãn nhưng bị che khuất, 2 = được gắn nhãn và hiển thị rõ.

Các tệp JSON với images, annotations, và categories mảng. Hỗ trợ detect (bbox), segment (polygon) và pose (keypoints) tác vụ. COCO sử dụng tọa độ pixel tuyệt đối được tự động chuyển đổi sang định dạng chuẩn hóa trong quá trình tải lên.

Ultralytics Các tệp xuất NDJSON có thể được nhập lại vào Platform. Đây là cách đầy đủ nhất để chuyển siêu dữ liệu, các phân vùng và chú thích của tập dữ liệu giữa các không gian làm việc.

Tôi có thể chú thích cùng một tập dữ liệu cho nhiều loại tác vụ không?

Đúng vậy. Mỗi hình ảnh lưu trữ chú thích cho cả 5 loại nhiệm vụ ( detect , segment , tư thế, OBB, classify ) cùng nhau. Bạn có thể chuyển đổi loại tác vụ đang hoạt động của tập dữ liệu bất cứ lúc nào mà không làm mất các chú thích hiện có. Chỉ những chú thích phù hợp với loại tác vụ đang hoạt động mới được hiển thị trong trình chỉnh sửa và được bao gồm trong quá trình xuất và huấn luyện — các chú thích cho các tác vụ khác được bảo lưu và xuất hiện lại khi bạn chuyển đổi trở lại.



📅 Được tạo 3 tháng trước ✏️ Cập nhật 0 ngày trước
glenn-jochersergiuwaxmannt-hakobyanlaodouyamykolaxboikoLaughing-q

Bình luận