Link to this sectionChuẩn bị dữ liệu#
Chuẩn bị dữ liệu là nền tảng cho các model thị giác máy tính thành công. Ultralytics Platform cung cấp các công cụ toàn diện để quản lý dữ liệu huấn luyện của bạn, từ khâu tải lên, gán nhãn cho đến phân tích.
Watch: Get Started with Ultralytics Platform - Data
Link to this sectionTổng quan#
Mục Dữ liệu (Data) của Ultralytics Platform giúp bạn:
- Tải lên hình ảnh, video và tệp dữ liệu (ZIP, TAR bao gồm
.tar.gz/.tgz, NDJSON) - Gán nhãn bằng công cụ vẽ thủ công và tính năng gắn nhãn thông minh dựa trên SAM — chọn từ SAM 2.1 hoặc SAM 3 mới
- Phân tích dữ liệu của bạn bằng thống kê và hình ảnh hóa
- Xuất dưới định dạng NDJSON để huấn luyện cục bộ

Link to this sectionQuy trình làm việc#
graph LR
A[Upload]:::start --> B[Annotate]:::proc
B --> C[Analyze]:::proc
C --> D[Train]:::out
classDef start fill:#4CAF50,color:#fff
classDef proc fill:#2196F3,color:#fff
classDef out fill:#9C27B0,color:#fff| Giai đoạn | Mô tả |
|---|---|
| Tải lên (Upload) | Nhập hình ảnh, video hoặc tệp lưu trữ với quy trình xử lý tự động |
| Gán nhãn (Annotate) | Gán nhãn dữ liệu bằng công cụ thủ công cho cả 6 loại tác vụ, hoặc sử dụng tính năng gán nhãn SAM cho các tác vụ detect, segment, semantic và OBB |
| Phân tích | Xem phân phối lớp, bản đồ nhiệt không gian (spatial heatmaps) và thống kê kích thước |
| Xuất | Tải xuống dưới định dạng NDJSON để sử dụng ngoại tuyến |
Link to this sectionCác tác vụ được hỗ trợ#
Ultralytics Platform hỗ trợ tất cả 6 loại tác vụ YOLO:
| Tác vụ | Mô tả | Công cụ gán nhãn |
|---|---|---|
| Detect | Phát hiện đối tượng (Object detection) với bounding boxes | Công cụ hình chữ nhật |
| Segment | Phân đoạn thực thể (Instance segmentation) với mặt nạ pixel (pixel masks) | Công cụ đa giác |
| Semantic | Phân đoạn ngữ nghĩa (Semantic segmentation) với vùng pixel theo từng lớp | Công cụ đa giác |
| Pose | Ước tính điểm chính (Keypoint estimation) với các mẫu skeleton có sẵn hoặc tùy chỉnh | Công cụ điểm chính |
| OBB | Bounding boxes định hướng (Oriented bounding boxes) cho các đối tượng xoay | Công cụ hộp định hướng |
| Classify | Phân loại cấp độ hình ảnh | Bộ chọn lớp |
Loại tác vụ được thiết lập khi tạo tập dữ liệu và xác định các công cụ gán nhãn nào khả dụng. Bạn có thể thay đổi sau này từ bộ chọn tác vụ trong tiêu đề tập dữ liệu, nhưng các chú thích không tương thích sẽ không được hiển thị sau khi chuyển đổi.
Link to this sectionTính năng chính#
Link to this sectionLưu trữ thông minh#
Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để quản lý dữ liệu hiệu quả:
- Khử trùng lặp: Các hình ảnh giống hệt nhau chỉ được lưu trữ một lần thông qua băm XXH3-128
- Tính toàn vẹn: Định địa chỉ dựa trên hàm băm đảm bảo tính toàn vẹn của dữ liệu
- Hiệu quả: Lưu trữ tối ưu và xử lý nhanh chóng
Link to this sectionURI của tập dữ liệu#
Tham chiếu tập dữ liệu sử dụng định dạng URI ul:// (xem Sử dụng tập dữ liệu trên Platform):
yolo train data=ul://username/datasets/my-datasetĐiều này cho phép huấn luyện trên các tập dữ liệu của nền tảng từ bất kỳ máy nào đã cấu hình API key của bạn.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)Link to this sectionQuản lý phiên bản tập dữ liệu#
Tạo các bản chụp NDJSON bất biến cho tập dữ liệu của bạn để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp và số lượng chú thích tại thời điểm tạo. Xem Tab phiên bản để biết thêm chi tiết.
Link to this sectionCác tab Dataset#
Các trang tập dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái tập dữ liệu và quyền của bạn:
| Tab | Mô tả |
|---|---|
| Hình ảnh | Duyệt hình ảnh ở chế độ lưới, nhỏ gọn hoặc dạng bảng với các lớp phủ chú thích |
| Classes | Xem và chỉnh sửa tên lớp, màu sắc và số lượng nhãn mỗi lớp |
| Biểu đồ | Thống kê tự động: phân phối tách, số lượng lớp, bản đồ nhiệt |
| Model | Models được huấn luyện trên tập dữ liệu này kèm theo chỉ số và trạng thái |
| Phiên bản | Tạo và tải xuống các bản chụp NDJSON bất biến để huấn luyện có thể tái lập |
| Lỗi | Các hình ảnh xử lý thất bại kèm chi tiết lỗi và hướng dẫn khắc phục |
Classes và Charts xuất hiện khi tập dữ liệu có hình ảnh. Errors chỉ xuất hiện khi có lỗi xử lý. Versions xuất hiện cho chủ sở hữu, hoặc cho người không phải chủ sở hữu khi đã tồn tại phiên bản.
Link to this sectionPhân cụm (Clustering)#
Khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác, nơi các hình ảnh có sự tương đồng trực quan nằm gần nhau — hữu ích cho việc làm nổi bật các cụm, bản sao và ngoại lệ, cũng như kiểm tra cách phân chia hoặc lớp được phân phối trên dữ liệu của bạn. Khoanh vùng một khu vực trên biểu đồ để lọc thư viện sang các hình ảnh đó. Xem Phân cụm để biết chi tiết.
Link to this sectionThống kê và Hình ảnh hóa#
Tab Charts cung cấp phân tích tự động bao gồm:
- Phân phối tách: Biểu đồ hình vành khuyên về số lượng hình ảnh train/val/test
- Lớp hàng đầu: Biểu đồ hình vành khuyên về các lớp chú thích phổ biến nhất
- Kích thước hình ảnh: Biểu đồ tần suất phân phối chiều rộng và chiều cao hình ảnh (tính bằng pixel)
- Điểm trên mỗi thực thể: Phân phối số đỉnh đa giác hoặc số điểm chính (cho các tập dữ liệu segment/pose)
- Vị trí chú thích: Bản đồ nhiệt 2D của các vị trí tâm bounding box
- Kích thước hình ảnh 2D: Bản đồ nhiệt 2D của chiều rộng so với chiều cao với các đường hướng dẫn tỷ lệ khung hình
Link to this sectionLiên kết nhanh#
- Tập dữ liệu: Tải lên, quản lý và xuất dữ liệu huấn luyện của bạn
- Gán nhãn: Gán nhãn dữ liệu bằng công cụ thủ công và hỗ trợ bởi AI
- Huấn luyện trên Cloud: Huấn luyện các model trên các tập dữ liệu đã gán nhãn của bạn
- URI tập dữ liệu: Sử dụng các URI
ul://để huấn luyện từ bất cứ đâu
Link to this sectionCâu hỏi thường gặp#
Link to this sectionCác định dạng tệp nào được hỗ trợ để tải lên?#
Ultralytics Platform hỗ trợ:
Hình ảnh: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (tối đa 50MB mỗi tệp)
Video: MP4, WebM, MOV, MKV, M4V (tối đa 1GB, các khung hình được trích xuất ở tốc độ 1 FPS, tối đa 100 khung hình)
Tệp dữ liệu: Các tệp nén ZIP hoặc TAR bao gồm .tar.gz và .tgz (tối đa 10GB trên gói Free, 20GB trên Pro, 50GB trên Enterprise) chứa hình ảnh với nhãn định dạng YOLO tùy chọn, cùng với các tệp xuất NDJSON
Link to this sectionKích thước tập dữ liệu tối đa là bao nhiêu?#
Giới hạn lưu trữ phụ thuộc vào gói của bạn:
| Gói (Plan) | Giới hạn lưu trữ |
|---|---|
| Miễn phí | 100 GB |
| Pro | 500 GB |
| Enterprise | Không giới hạn |
Giới hạn tệp riêng lẻ: Hình ảnh 50MB, Video 1GB, tập dữ liệu 10GB trên gói Free / 20GB trên Pro / 50GB trên Enterprise
Link to this sectionTôi có thể sử dụng các tập dữ liệu Platform cho việc huấn luyện cục bộ không?#
Có! Sử dụng định dạng URI tập dữ liệu để huấn luyện cục bộ:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100Hoặc xuất tập dữ liệu của bạn ở định dạng NDJSON để huấn luyện hoàn toàn ngoại tuyến.