Meet YOLO26: next-gen vision AI.

Link to this sectionDatasets#

Các tập dữ liệu trên Ultralytics Platform cung cấp giải pháp hợp lý hóa việc quản lý dữ liệu huấn luyện của bạn. Sau khi tải lên, nền tảng sẽ tự động xử lý hình ảnh, nhãn và số liệu thống kê. Tập dữ liệu sẵn sàng để huấn luyện khi quá trình xử lý hoàn tất và phải có ít nhất một hình ảnh trong tập train, ít nhất một hình ảnh trong tập val hoặc test, ít nhất một hình ảnh có dán nhãn và tổng cộng ít nhất hai hình ảnh.

Link to this sectionTải tập dữ liệu lên#

Ultralytics Platform chấp nhận nhiều định dạng tải lên để tăng tính linh hoạt.

Bạn đã có dữ liệu ở nơi khác?

Nếu bạn đã có tập dữ liệu trên Ultralytics HUB hoặc Roboflow, hãy sử dụng Integrations để nhập trực tiếp — không cần xuất thủ công hoặc tải lên lại.

Link to this sectionCác định dạng được hỗ trợ#

Định dạngPhần mở rộngLưu ýKích thước tối đa
JPEG.jpg, .jpegPhổ biến nhất, được khuyến nghị50 MB
PNG.pngHỗ trợ độ trong suốt50 MB
WebP.webpHiện đại, nén tốt50 MB
BMP.bmpKhông nén50 MB
TIFF.tiff, .tifChất lượng cao50 MB
HEIC.heicẢnh iPhone50 MB
AVIF.avifĐịnh dạng thế hệ mới50 MB
JP2.jp2JPEG 200050 MB
DNG.dngẢnh thô từ máy ảnh50 MB
MPO.mpoĐối tượng đa hình ảnh50 MB

Link to this sectionChuẩn bị tập dữ liệu của bạn#

Nền tảng hỗ trợ Ultralytics YOLO, COCO, Ultralytics NDJSON, và tải lên dữ liệu thô (chưa dán nhãn):

Sử dụng cấu trúc thư mục YOLO tiêu chuẩn với tệp data.yaml:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Tệp YAML xác định cấu hình tập dữ liệu của bạn:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog
Tải lên thô

Thô: Tải lên hình ảnh chưa được chú thích (không có nhãn). Hữu ích khi bạn dự định dán nhãn trực tiếp trên nền tảng bằng trình chỉnh sửa chú thích.

Cấu trúc thư mục phẳng

Bạn cũng có thể tải lên hình ảnh mà không cần các thư mục phân chia rõ ràng. Platform tôn trọng mục tiêu phân chia đang hoạt động trong quá trình tải lên, và đối với các tập dữ liệu không phải phân loại, nó có thể tự động tạo tập xác thực từ một phần của tập huấn luyện khi không cung cấp thông tin phân chia. Bạn luôn có thể gán lại hình ảnh sau đó bằng cách di chuyển hàng loạt hoặc phân phối lại các tập chia.

Tự động phát hiện định dạng

Định dạng được phát hiện tự động: các tập dữ liệu có data.yaml chứa khóa names, train hoặc val được xử lý là YOLO. Các tập dữ liệu có tệp JSON COCO (chứa các mảng images, annotationscategories) được xử lý là COCO. Các tệp xuất .ndjson được nhập dưới dạng Ultralytics NDJSON. Các tập dữ liệu chỉ có hình ảnh mà không có chú thích được xử lý là thô.

Để biết chi tiết định dạng cụ thể cho tác vụ, hãy xem các tác vụ được hỗ trợTổng quan về tập dữ liệu.

Link to this sectionQuy trình tải lên#

  1. Điều hướng đến Datasets trong thanh bên
  2. Nhấp vào New Dataset hoặc kéo tệp vào vùng tải lên
  3. Chọn loại tác vụ (xem các tác vụ được hỗ trợ)
  4. Thêm tên và mô tả tùy chọn
  5. Đặt quyền hiển thị (công khai hoặc riêng tư) và giấy phép tùy chọn (xem các giấy phép khả dụng)
  6. Nhấp vào Create & Upload (hoặc Create Dataset nếu đang tạo tập dữ liệu trống)

Ultralytics Platform Datasets Upload Dialog Task Selector

Sau khi tải lên, nền tảng sẽ xử lý dữ liệu của bạn thông qua đường ống nhiều giai đoạn:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Xác thực: Kiểm tra định dạng và kích thước
  2. Chuẩn hóa: Hình ảnh lớn được thay đổi kích thước (tối đa 4096px, kích thước tối thiểu 28px)
  3. Hình thu nhỏ: Tạo bản xem trước WebP 256px
  4. Phân tích nhãn: Trích xuất các nhãn định dạng YOLO và COCO
  5. Số liệu thống kê: Tính toán phân phối lớp và kích thước hình ảnh

Ultralytics Platform Datasets Upload Progress Bar

Xác thực trước khi tải lên

Bạn có thể xác thực tập dữ liệu của mình cục bộ trước khi tải lên:

from ultralytics.data.utils import check_det_dataset

check_det_dataset("path/to/data.yaml")
Yêu cầu về kích thước hình ảnh

Hình ảnh phải có kích thước ít nhất 28px ở cạnh ngắn nhất. Hình ảnh nhỏ hơn mức này sẽ bị từ chối trong quá trình xử lý. Hình ảnh lớn hơn 4096px ở cạnh dài nhất sẽ tự động được thay đổi kích thước với tỷ lệ khung hình được giữ nguyên.

Link to this sectionDuyệt hình ảnh#

Xem hình ảnh tập dữ liệu của bạn trong nhiều bố cục khác nhau.

Mở bảng Clustering từ thanh công cụ thư viện để khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác.

XemMô tả
Lưới (Grid)Lưới hình thu nhỏ với lớp phủ chú thích (mặc định)
CompactHình thu nhỏ nhỏ hơn để quét nhanh
TableDanh sách có hình thu nhỏ, tên tệp, kích thước, dung lượng, tập chia, lớp và số lượng nhãn

Ultralytics Platform Datasets Gallery Grid View With Annotations

Link to this sectionSắp xếp và Lọc#

Hình ảnh có thể được sắp xếp và lọc để duyệt hiệu quả:

Sắp xếpMô tả
Mới nhất / Cũ nhấtThứ tự tải lên / tạo
Tên A-Z / Z-ATên tệp theo thứ tự bảng chữ cái
Chiều cao ↑/↓Chiều cao ảnh tính bằng pixel
Chiều rộng ↑/↓Chiều rộng ảnh tính bằng pixel
Kích thước ↑/↓Kích thước tệp trên đĩa
Chú thích ↑/↓Số lượng chú thích trên mỗi ảnh
Dataset lớn

Đối với các dataset có hơn 100.000 ảnh, các tùy chọn sắp xếp theo tên / kích thước / chiều rộng / chiều cao sẽ bị vô hiệu hóa để đảm bảo thư viện vẫn phản hồi nhanh. Các tùy chọn sắp xếp theo mới nhất, cũ nhất và số lượng chú thích vẫn được giữ nguyên.

Tìm ảnh chưa dán nhãn

Sử dụng bộ lọc Annotations được đặt thành Unannotated để nhanh chóng tìm thấy các ảnh vẫn cần chú thích. Tính năng này đặc biệt hữu ích cho các dataset lớn khi bạn muốn theo dõi tiến độ dán nhãn.

Link to this sectionTrình xem toàn màn hình#

Nhấp vào bất kỳ ảnh nào để mở trình xem toàn màn hình với:

  • Điều hướng: Sử dụng phím mũi tên hoặc bản xem trước thu nhỏ để duyệt
  • Siêu dữ liệu (Metadata): Tên tệp, kích thước, huy hiệu tách tập (split badge), số lượng chú thích
  • Chú thích: Bật/tắt hiển thị lớp phủ chú thích
  • Phân tích lớp: Số lượng nhãn theo từng lớp với các chỉ báo màu sắc
  • Chỉnh sửa: Vào chế độ chú thích để thêm hoặc sửa đổi nhãn
  • Tải xuống: Tải xuống tệp ảnh gốc
  • Xóa: Xóa ảnh khỏi dataset
  • Thu phóng: Cmd/Ctrl+Scroll, Cmd/Ctrl++, hoặc Cmd/Ctrl+= để phóng to, và Cmd/Ctrl+- để thu nhỏ
  • Đặt lại chế độ xem: Cmd/Ctrl + 0 hoặc nút đặt lại để căn chỉnh ảnh vừa với trình xem
  • Di chuyển (Pan): Giữ Space và kéo để di chuyển canvas khi đã phóng to
  • Xem pixel: Bật/tắt kết xuất pixel để kiểm tra kỹ

Ultralytics Platform Datasets Fullscreen Viewer With Metadata Panel

Link to this sectionLọc theo tách tập (Split)#

Lọc ảnh theo tách tập dataset của chúng:

SplitMục đích
Huấn luyệnĐược sử dụng để huấn luyện model
ValĐược sử dụng để xác thực trong quá trình huấn luyện
TestĐược sử dụng cho đánh giá cuối cùng

Link to this sectionPhân cụm (Clustering)#

Bảng Clustering chiếu dataset của bạn vào một biểu đồ phân tán 2D tương tác, nơi các ảnh có hình ảnh tương tự sẽ nằm gần nhau. Sử dụng nó để hiển thị các cụm, phát hiện các bản sao và giá trị ngoại lệ, cũng như kiểm tra cách phân bổ các tập tách hoặc lớp trên dữ liệu của bạn — mà không cần rời khỏi thư viện. Mở nó từ biểu tượng biểu đồ phân tán trong thanh công cụ thư viện trên bất kỳ trang dataset nào.

Ultralytics Platform Datasets Clustering Empty State

Link to this sectionChạy phân tích#

Bắt đầu phân tích:

  1. Mở một dataset và nhấp vào biểu tượng biểu đồ phân tán trong thanh công cụ thư viện
  2. Nhấp vào Analyze Dataset
  3. Đợi thanh tiến trình hoàn tất — kết quả sẽ xuất hiện trong cùng một bảng

Phân tích chạy ở chế độ nền và có thể mất vài phút tùy thuộc vào kích thước dataset của bạn. Bạn có thể đóng bảng hoặc rời khỏi trang và quay lại sau.

Link to this sectionTrực quan hóa#

Sau khi phân tích hoàn tất, bảng sẽ hiển thị biểu đồ phân tán 2D của tất cả các ảnh đã phân tích. Các bộ lọc thư viện (tách tập, lớp, đã dán nhãn/chưa dán nhãn) sẽ làm mờ các điểm nằm ngoài bộ lọc để bạn có thể tập trung vào tập hợp con mà mình quan tâm.

Ultralytics Platform Datasets Clustering Scatter Plot

Link to this sectionTô màu theo#

Thay đổi cách tô màu các điểm dữ liệu bằng menu thả xuống Color by trong thanh công cụ bảng. Chuyển đổi chế độ xem bất kỳ lúc nào — biểu đồ sẽ tô màu lại ngay lập tức để bạn có thể thấy cách các tập tách, lớp hoặc thuộc tính ảnh được phân bổ trên các cụm của mình:

Tùy chọnTô bóng
SplitsTrain / Val / Test
ClassesLớp chú thích đầu tiên trên mỗi ảnh
WidthChiều rộng ảnh
HeightChiều cao ảnh
SizeKích thước tệp
Chú thíchSố lượng chú thích trên mỗi ảnh

Ultralytics Platform Datasets Clustering Color Modes

Link to this sectionLựa chọn Lasso#

Vẽ một vùng lựa chọn tự do xung quanh một khu vực để làm nổi bật các điểm trên biểu đồ. Thư viện sẽ lọc xuống các ảnh khớp, vì vậy bạn có thể kiểm tra, dán nhãn lại, di chuyển hoặc xóa chúng bằng các thao tác ảnh thông thường.

Xóa lựa chọn

Một thẻ chip phía trên biểu đồ hiển thị số lượng điểm đã chọn — nhấp vào × để xóa lasso và quay lại chế độ xem thư viện đầy đủ.

Link to this sectionDi chuyển và Thu phóng#

Điều hướng các biểu đồ phân tán lớn trực tiếp từ chuột và bàn phím của bạn:

Đầu vàoHành động
Cuộn (Scroll)Di chuyển biểu đồ trong không gian 2D
Cmd/Ctrl+ScrollPhóng to hoặc thu nhỏ, neo tại vị trí con trỏ
Giữ SpaceChuyển sang chế độ kéo để di chuyển (drag-to-pan)

Link to this sectionPhân tích lại#

Nếu dataset của bạn thay đổi sau khi phân tích, nút Re-analyze sẽ xuất hiện ở đầu bảng dành cho chủ sở hữu và biên tập viên.

Nhấp vào Re-analyze để tính toán lại các embedding và phép chiếu 2D từ đầu.

Link to this sectionCác tab Dataset#

Mỗi trang dataset có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái dataset và quyền của bạn:

Link to this sectionTab Ảnh#

Chế độ xem mặc định hiển thị thư viện ảnh với các lớp phủ chú thích. Hỗ trợ các chế độ xem dạng lưới, nhỏ gọn và bảng. Kéo và thả tệp vào đây để thêm ảnh.

Link to this sectionTab Lớp#

Tab này xuất hiện khi dataset đã có ảnh.

Quản lý các lớp chú thích cho dataset của bạn:

  • Biểu đồ cột lớp: Biểu đồ hiển thị số lượng chú thích theo từng lớp với tùy chọn bật/tắt thang đo tuyến tính/log
  • Bảng lớp: Bảng có thể sắp xếp và tìm kiếm với tên lớp, số lượng nhãn và số lượng ảnh
  • Chỉnh sửa tên lớp: Nhấp vào bất kỳ tên lớp nào để đổi tên trực tiếp
  • Chỉnh sửa màu lớp: Nhấp vào mẫu màu để thay đổi màu của lớp
  • Thêm lớp mới: Sử dụng ô nhập liệu ở phía dưới để thêm các lớp

Ultralytics Platform Datasets Classes Tab Histogram And Table

Thang đo log cho các bộ dữ liệu bị mất cân bằng

Nếu bộ dữ liệu của bạn bị mất cân bằng lớp (ví dụ: 10.000 chú thích "person" nhưng chỉ có 50 "bicycle"), hãy sử dụng nút chuyển Log Scale trên biểu đồ tần suất lớp để hiển thị rõ tất cả các lớp.

Link to this sectionTab Biểu đồ#

Tab này xuất hiện khi dataset đã có ảnh.

Các số liệu thống kê tự động được tính toán từ bộ dữ liệu của bạn:

Biểu đồMô tả
Phân bổ tập dữ liệuBiểu đồ tròn hiển thị số lượng ảnh train/val/test và tỷ lệ phần trăm đã được gắn nhãn
Các lớp hàng đầuBiểu đồ tròn hiển thị 10 lớp chú thích xuất hiện thường xuyên nhất
Kích thước ảnhBiểu đồ tần suất phân bổ chiều rộng và chiều cao ảnh (chồng lên nhau) cùng giá trị trung bình
Điểm trên mỗi thực thểSố lượng đỉnh đa giác hoặc điểm chính trên mỗi chú thích (segment/pose)
Vị trí chú thíchBản đồ nhiệt 2D của vị trí trung tâm BBox
Kích thước tệp ảnhBiểu đồ tần suất phân bổ kích thước tệp ảnh
Định dạng ảnhPhân bổ các định dạng ảnh nguồn (JPG, PNG, v.v.)
Kích thước Bounding BoxBiểu đồ tần suất chiều rộng và chiều cao của Bounding Box (chồng lên nhau)
Đối tượng trên mỗi ảnhBiểu đồ tần suất số lượng chú thích trên mỗi ảnh
Kích thước ảnh 2DBản đồ nhiệt 2D so sánh chiều rộng và chiều cao với các đường hướng dẫn tỷ lệ khung hình

Ultralytics Platform Datasets Charts Tab Statistics Grid

Bộ nhớ đệm thống kê

Các số liệu thống kê được lưu trong bộ nhớ đệm trong 5 phút. Các thay đổi đối với chú thích sẽ được phản ánh sau khi bộ nhớ đệm hết hạn.

Bản đồ nhiệt toàn màn hình

Nhấp vào nút mở rộng trên bất kỳ bản đồ nhiệt nào để xem ở chế độ toàn màn hình. Điều này cung cấp cái nhìn chi tiết và lớn hơn — hữu ích để hiểu các mẫu không gian trong các bộ dữ liệu lớn.

Link to this sectionTab Model#

Xem tất cả các model được huấn luyện trên bộ dữ liệu này trong một bảng có thể tìm kiếm:

CộtMô tả
TênTên model kèm liên kết
Dự ánDự án gốc kèm biểu tượng
Trạng tháiNhãn trạng thái huấn luyện
Tác vụLoại tác vụ YOLO
EpochEpoch tốt nhất / tổng số epoch
mAP50-95Mean average precision
mAP50mAP tại IoU 0.50
Đã tạoNgày tạo

Ultralytics Platform Datasets Models Tab Trained Models Table

Link to this sectionTab Lỗi#

Tab này chỉ xuất hiện khi một hoặc nhiều tệp gặp lỗi xử lý.

Các ảnh bị lỗi xử lý được liệt kê tại đây với:

  • Biểu ngữ lỗi: Tổng số ảnh bị lỗi và hướng dẫn
  • Bảng lỗi: Tên tệp, mô tả lỗi dễ hiểu, gợi ý sửa lỗi và hình thu nhỏ xem trước
  • Các lỗi phổ biến bao gồm tệp bị hỏng, định dạng không được hỗ trợ, ảnh quá nhỏ (tối thiểu 28px) và chế độ màu không được hỗ trợ

Ultralytics Platform Datasets Errors Tab Processing Failures

Các lỗi xử lý thường gặp
LỗiNguyên nhânCách sửa
Không thể đọc tệp ảnhĐịnh dạng bị hỏng hoặc không được hỗ trợXuất lại từ trình chỉnh sửa ảnh
Không đầy đủ hoặc bị hỏngTệp bị cắt bớt trong quá trình truyềnTải lại tệp gốc
Ảnh quá nhỏKích thước tối thiểu dưới 28pxSử dụng ảnh nguồn có độ phân giải cao hơn
Chế độ màu không được hỗ trợChế độ màu CMYK hoặc được lập chỉ mụcChuyển đổi sang chế độ RGB

Link to this sectionTab Phiên bản#

Tạo các bản chụp NDJSON bất biến của bộ dữ liệu để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng ảnh, số lượng lớp, số lượng chú thích và kích thước tệp tại thời điểm tạo.

CộtMô tả
Phiên bảnSố phiên bản (v1, v2, ...)
Mô tảMô tả do người dùng cung cấp (có thể chỉnh sửa)
Hình ảnhSố lượng ảnh tại thời điểm chụp nhanh
Các lớpSố lượng lớp tại thời điểm chụp nhanh
Chú thíchSố lượng chú thích tại thời điểm chụp nhanh
Kích thướcKích thước tệp xuất NDJSON
Đã tạoThời điểm phiên bản được tạo

Để tạo một phiên bản:

  1. Mở tab Versions
  2. Nhập mô tả tùy chọn (ví dụ: "Đã thêm 500 ảnh huấn luyện" hoặc "Đã sửa các lớp bị gán nhãn sai")
  3. Nhấp vào + New Version
  4. Phiên bản mới xuất hiện trong bảng
  5. Tải xuống phiên bản riêng biệt từ bảng khi cần

Mỗi phiên bản được đánh số tuần tự (v1, v2, v3...) và được lưu trữ vĩnh viễn. Bạn có thể tải xuống bất kỳ phiên bản nào trước đó bất kỳ lúc nào từ bảng phiên bản.

Chỉ áp dụng cho các bộ dữ liệu sẵn sàng

Tính năng tạo phiên bản khả dụng sau khi bộ dữ liệu đạt trạng thái ready.

Khi nào cần tạo phiên bản

Hãy tạo phiên bản trước và sau những thay đổi lớn đối với bộ dữ liệu của bạn — thêm ảnh, sửa chú thích hoặc cân bằng lại các tập chia. Điều này cho phép bạn so sánh hiệu suất model giữa các trạng thái bộ dữ liệu khác nhau.

Kích thước tệp NDJSON

Kích thước hiển thị là kích thước tệp xuất NDJSON, chứa các URL ảnh và chú thích — chứ không phải bản thân các tệp ảnh. Dữ liệu ảnh thực tế được lưu trữ riêng và được truy cập thông qua các URL có chữ ký.

Link to this sectionXuất Dataset#

Xuất bộ dữ liệu của bạn để sử dụng ngoại tuyến với tệp tải xuống NDJSON từ tiêu đề bộ dữ liệu hoặc tab Phiên bản.

Để xuất:

  1. Nhấp vào nút Download (biểu tượng tải xuống) trong tiêu đề bộ dữ liệu
  2. Tải xuống snapshot NDJSON hiện tại trực tiếp
  3. Sử dụng tab Versions khi bạn muốn có một snapshot được đánh số bất biến mà bạn có thể tải xuống lại sau này

Ultralytics Platform Datasets Export Ndjson Download

Định dạng NDJSON lưu trữ một đối tượng JSON trên mỗi dòng. Dòng đầu tiên chứa metadata của tập dữ liệu, theo sau là một dòng cho mỗi hình ảnh:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "bytes": 12345678, "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
URL được ký

Các URL hình ảnh trong tệp NDJSON được xuất ra đã được ký và có hiệu lực trong 7 ngày. Nếu bạn cần URL mới, hãy xuất lại tập dữ liệu hoặc tạo một phiên bản mới.

Xem tài liệu về định dạng Ultralytics NDJSON để biết thông số kỹ thuật đầy đủ.

Link to this sectionThao tác trên hình ảnh#

Link to this sectionHành động nhanh#

Nhấp chuột phải vào bất kỳ hình ảnh nào trong chế độ xem Grid hoặc Compact để truy cập các hành động nhanh:

Hành độngMô tả
Move to SplitChỉ định lại hình ảnh cho tập Train, Val, hoặc Test
Tải xuống (Download)Tải xuống tệp hình ảnh gốc
DeleteXóa hình ảnh khỏi tập dữ liệu

Ultralytics Platform Datasets Image Card Context Menu

Đơn lẻ vs Hàng loạt

Menu ngữ cảnh hình ảnh hoạt động trên một hình ảnh duy nhất. Đối với các thao tác hàng loạt trên nhiều hình ảnh, hãy sử dụng chế độ xem Table với lựa chọn hộp kiểm.

Link to this sectionDi chuyển hàng loạt đến tập (Bulk Move to Split)#

Chỉ định lại các hình ảnh đã chọn vào một tập khác trong cùng một tập dữ liệu:

  1. Chuyển sang chế độ xem Table
  2. Chọn hình ảnh bằng cách sử dụng các hộp kiểm
  3. Nhấp chuột phải để mở menu ngữ cảnh
  4. Chọn Move to split > Train, Validation, hoặc Test

Bạn cũng có thể kéo và thả hình ảnh vào các tab bộ lọc tập trong chế độ xem lưới.

Tổ chức các tập Train/Val

Tải tất cả hình ảnh lên một tập dữ liệu, sau đó sử dụng tính năng di chuyển hàng loạt để sắp xếp các tập con thành các tập train, validation và test.

Link to this sectionPhân phối lại tập (Split Redistribution)#

Phân phối lại tất cả hình ảnh trên các tập train, validation và test bằng cách sử dụng tỷ lệ tùy chỉnh:

  1. Nhấp vào thanh phân chia (split bar) trong thanh công cụ tập dữ liệu để mở hộp thoại Redistribute Splits
  2. Điều chỉnh tỷ lệ phần trăm phân chia bằng bất kỳ phương pháp nào dưới đây
  3. Xem lại bản xem trước số lượng hình ảnh trực tiếp để xác nhận phân phối
  4. Nhấp vào Apply để chỉ định lại ngẫu nhiên tất cả hình ảnh theo tỷ lệ phần trăm của bạn

Ultralytics Platform Datasets Split Redistribution Dialog

Hộp thoại cung cấp ba cách để đặt tỷ lệ phân chia mục tiêu của bạn:

Phương thứcMô tả
DragKéo các tay cầm giữa các phân đoạn màu để điều chỉnh trực quan ranh giới phân chia
TypeChỉnh sửa đầu vào phần trăm cho bất kỳ tập nào (hai tập còn lại sẽ tự động cân bằng lại theo tỷ lệ)
AutoMột cú nhấp chuột để đặt ngay lập tức tỷ lệ train/validation là 80/20 với tập test được đặt thành 0%

Bản xem trước trực tiếp hiển thị chính xác bao nhiêu hình ảnh sẽ nằm trong mỗi tập trước khi bạn áp dụng.

Chia nhanh 80/20

Nhấp vào nút Auto để đặt ngay lập tức tỷ lệ train/validation 80/20 được khuyến nghị. Đây là tỷ lệ phổ biến nhất cho việc đào tạo.

Link to this sectionXóa hàng loạt#

Xóa nhiều hình ảnh cùng một lúc:

  1. Chọn hình ảnh trong chế độ xem bảng
  2. Nhấp chuột phải và chọn Delete
  3. Xác nhận xóa

Link to this sectionURI Tập dữ liệu#

Tham chiếu các tập dữ liệu trên Platform bằng định dạng URI ul:// (xem Sử dụng tập dữ liệu Platform):

ul://username/datasets/dataset-slug

Sử dụng URI này để huấn luyện các model từ bất cứ đâu:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Huấn luyện ở mọi nơi với dữ liệu Platform

URI ul:// hoạt động từ bất kỳ môi trường nào:

  • Máy cục bộ: Huấn luyện trên phần cứng của bạn, dữ liệu được tải xuống tự động
  • Google Colab: Truy cập các tập dữ liệu Platform của bạn trong các notebook
  • Máy chủ từ xa: Huấn luyện trên các máy ảo cloud với quyền truy cập đầy đủ vào tập dữ liệu

Link to this sectionGiấy phép khả dụng#

Platform hỗ trợ các giấy phép sau cho các tập dữ liệu:

Giấy phépLoại
KhôngKhông có giấy phép nào được chọn
CC0-1.0Phạm vi công cộng
CC-BY-2.5Cho phép
CC-BY-4.0Cho phép
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0Phi thương mại
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Không phái sinh
CC-BY-NC-ND-4.0Phi thương mại
Apache-2.0Cho phép
MITCho phép
AGPL-3.0Copyleft
GPL-3.0Copyleft
Chỉ nghiên cứuHạn chế
KhácTùy chỉnh
Giấy phép Copyleft

Khi sao chép một tập dữ liệu với giấy phép copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), bản sao sẽ kế thừa giấy phép đó và bộ chọn giấy phép sẽ bị khóa.

Link to this sectionCài đặt hiển thị#

Kiểm soát ai có thể thấy tập dữ liệu của bạn:

Cài đặtMô tả
PrivateChỉ bạn mới có thể truy cập
PublicBất kỳ ai cũng có thể xem trên trang Explore

Khả năng hiển thị được đặt khi tạo tập dữ liệu trong hộp thoại New Dataset bằng công tắc gạt. Các tập dữ liệu công khai có thể xem được trên trang Explore.

Link to this sectionChỉnh sửa tập dữ liệu#

Metadata của tập dữ liệu được chỉnh sửa nội dòng trực tiếp trên trang tập dữ liệu — không cần hộp thoại:

  • Name: Nhấp vào tên tập dữ liệu để chỉnh sửa. Các thay đổi tự động lưu khi mất tiêu điểm hoặc nhấn Enter.
  • Description: Nhấp vào mô tả (hoặc trình giữ chỗ "Thêm mô tả...") để chỉnh sửa. Các thay đổi tự động lưu.
  • Task type: Nhấp vào huy hiệu tác vụ để chọn loại tác vụ khác.
  • License: Nhấp vào bộ chọn giấy phép để thay đổi giấy phép của tập dữ liệu.
Thay đổi loại tác vụ

Mỗi hình ảnh lưu trữ chú thích cho tất cả các loại tác vụ cùng nhau. Thay đổi loại tác vụ của tập dữ liệu sẽ kiểm soát chú thích nào hiển thị trong trình chỉnh sửa và được bao gồm trong xuất dữ liệu và huấn luyện. Các chú thích cho các loại tác vụ khác được bảo toàn trong cơ sở dữ liệu và sẽ xuất hiện lại khi bạn chuyển đổi lại.

Link to this sectionSao chép (Clone) Dataset#

Khi xem một tập dữ liệu công khai mà bạn không sở hữu, hãy nhấp vào Clone Dataset để tạo một bản sao trong workspace của bạn. Bản sao này bao gồm tất cả ảnh, chú thích và định nghĩa lớp. Nếu tập dữ liệu gốc có giấy phép copyleft, bản sao sẽ kế thừa giấy phép đó và bộ chọn giấy phép sẽ bị khóa.

Link to this sectionGắn sao và Chia sẻ#

  • Star: Nhấp vào nút sao để đánh dấu tập dữ liệu. Số lượng gắn sao hiển thị cho tất cả người dùng.
  • Share: Đối với các tập dữ liệu công khai, nhấp vào nút chia sẻ để sao chép liên kết hoặc chia sẻ lên các nền tảng mạng xã hội.

Link to this sectionXóa Dataset#

Xóa tập dữ liệu bạn không còn cần dùng:

  1. Mở menu hành động của tập dữ liệu
  2. Nhấp vào Delete
  3. Xác nhận trong hộp thoại: "Thao tác này sẽ di chuyển [name] vào thùng rác. Bạn có thể khôi phục nó trong vòng 30 ngày."
Thùng rác và Khôi phục

Các tập dữ liệu đã xóa được chuyển vào Thùng rác — không bị xóa vĩnh viễn. Bạn có thể khôi phục chúng trong vòng 30 ngày từ Settings > Trash.

Link to this sectionHuấn luyện trên Tập dữ liệu#

Bắt đầu huấn luyện trực tiếp từ tập dữ liệu của bạn:

  1. Nhấp vào New Model trên trang tập dữ liệu
  2. Chọn một project hoặc tạo mới
  3. Cấu hình các tham số huấn luyện
  4. Bắt đầu huấn luyện
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Xem Cloud Training để biết chi tiết.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionĐiều gì xảy ra với dữ liệu của tôi sau khi tải lên?#

Dữ liệu của bạn được xử lý và lưu trữ trong khu vực bạn đã chọn (US, EU, hoặc AP). Ảnh sẽ được:

  1. Xác thực về định dạng và kích thước
  2. Từ chối nếu kích thước tối thiểu dưới 28px
  3. Chuẩn hóa nếu lớn hơn 4096px (giữ nguyên tỷ lệ khung hình; được mã hóa để lưu trữ tối ưu)
  4. Lưu trữ bằng Content-Addressable Storage (CAS) với thuật toán băm XXH3-128
  5. Ảnh thu nhỏ được tạo ở định dạng WebP 256px để duyệt nhanh

Link to this sectionLưu trữ hoạt động như thế nào?#

Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để lưu trữ hiệu quả:

  • Deduplication: Các ảnh giống hệt nhau được tải lên bởi những người dùng khác nhau chỉ được lưu trữ một lần
  • Integrity: Thuật toán băm XXH3-128 đảm bảo tính toàn vẹn của dữ liệu
  • Efficiency: Giảm chi phí lưu trữ và tăng tốc độ xử lý
  • Regional: Dữ liệu nằm trong khu vực bạn đã chọn (US, EU, hoặc AP)

Link to this sectionTôi có thể thêm ảnh vào tập dữ liệu hiện có không?#

Có, kéo và thả tệp vào trang tập dữ liệu hoặc sử dụng nút tải lên để thêm ảnh bổ sung. Các số liệu thống kê mới sẽ được tính toán tự động.

Link to this sectionLàm thế nào để di chuyển ảnh giữa các phân đoạn (splits)?#

Sử dụng tính năng di chuyển hàng loạt đến phân đoạn:

  1. Chọn hình ảnh trong chế độ xem bảng
  2. Nhấp chuột phải và chọn Move to split
  3. Chọn phân đoạn mục tiêu (Train, Validation, hoặc Test)

Link to this sectionNhững định dạng nhãn nào được hỗ trợ?#

Ultralytics Platform hỗ trợ nhãn YOLO, COCO JSON, Ultralytics NDJSON và tải lên ảnh thô:

Một tệp .txt cho mỗi ảnh với tọa độ chuẩn hóa (phạm vi 0-1):

Tác vụĐịnh dạngVí dụ
Detectclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassifyCấu trúc thư mụctrain/cats/, train/dogs/

Cờ hiển thị tư thế (pose visibility): 0=không được dán nhãn, 1=được dán nhãn nhưng bị che khuất, 2=được dán nhãn và hiển thị.

Link to this sectionTôi có thể chú thích cùng một tập dữ liệu cho nhiều loại tác vụ không?#

Có. Mỗi ảnh lưu trữ chú thích cho tất cả 6 loại tác vụ (detect, segment, semantic, pose, OBB, classify) cùng nhau. Bạn có thể chuyển đổi loại tác vụ đang hoạt động của tập dữ liệu bất cứ lúc nào mà không làm mất các chú thích hiện có. Chỉ các chú thích khớp với loại tác vụ đang hoạt động mới được hiển thị trong trình chỉnh sửa và được bao gồm trong các bản xuất và huấn luyện — các chú thích cho các tác vụ khác được bảo toàn và xuất hiện trở lại khi bạn chuyển đổi lại.

Bình luận