Link to this sectionChuẩn bị dữ liệu#
Chuẩn bị dữ liệu là nền tảng của các mô hình computer vision thành công. Ultralytics Platform cung cấp các công cụ toàn diện để quản lý dữ liệu huấn luyện của bạn, từ bước tải lên, gán nhãn cho đến phân tích.
Watch: Get Started with Ultralytics Platform - Data
Link to this sectionTổng quan#
Phần Dữ liệu của Ultralytics Platform giúp bạn:
- Tải lên hình ảnh, video và tệp tập dữ liệu (ZIP, TAR bao gồm
.tar.gz/.tgz, NDJSON) - Gán nhãn bằng các công cụ vẽ thủ công và tính năng gán nhãn thông minh dựa trên SAM — chọn từ SAM 2.1 hoặc SAM 3 mới
- Phân tích dữ liệu của bạn bằng các số liệu thống kê và hình ảnh hóa
- Xuất sang định dạng NDJSON để huấn luyện cục bộ

Link to this sectionQuy trình làm việc#
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Giai đoạn | Mô tả |
|---|---|
| Tải lên | Nhập hình ảnh, video hoặc kho lưu trữ với quy trình xử lý tự động |
| Gán nhãn | Gán nhãn dữ liệu bằng các công cụ thủ công cho cả 6 loại tác vụ, hoặc sử dụng tính năng gán nhãn SAM cho các tác vụ detect, segment, semantic và OBB |
| Phân tích | Xem phân phối lớp, bản đồ nhiệt không gian và thống kê kích thước |
| Xuất | Tải xuống ở định dạng NDJSON để sử dụng ngoại tuyến |
Link to this sectionCác tác vụ được hỗ trợ#
Ultralytics Platform hỗ trợ tất cả 6 loại tác vụ YOLO:
| Tác vụ | Mô tả | Công cụ gán nhãn |
|---|---|---|
| Detect | Phát hiện đối tượng với bounding box | Công cụ hình chữ nhật |
| Segment | Phân đoạn thực thể với pixel mask | Công cụ đa giác |
| Semantic | Phân đoạn ngữ nghĩa với các vùng pixel theo từng lớp | Công cụ đa giác |
| Pose | Ước tính điểm mấu chốt (keypoint) với các mẫu khung xương tích hợp và tùy chỉnh | Công cụ điểm mấu chốt |
| OBB | Bounding box có hướng cho các đối tượng xoay | Công cụ hộp hướng |
| Classify | Phân loại cấp độ hình ảnh | Công cụ chọn lớp |
Loại tác vụ được thiết lập khi tạo tập dữ liệu và quyết định công cụ gán nhãn nào khả dụng. Bạn có thể thay đổi sau từ trình chọn tác vụ trên tiêu đề tập dữ liệu, nhưng các nhãn không tương thích sẽ không hiển thị sau khi chuyển đổi.
Link to this sectionCác tính năng chính#
Link to this sectionLưu trữ thông minh#
Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để quản lý dữ liệu hiệu quả:
- Deduplication (Khử trùng lặp): Hình ảnh trùng lặp chỉ được lưu một lần thông qua mã băm XXH3-128
- Integrity (Toàn vẹn): Địa chỉ dựa trên mã băm đảm bảo tính toàn vẹn của dữ liệu
- Efficiency (Hiệu quả): Lưu trữ được tối ưu hóa và xử lý nhanh chóng
Link to this sectionURI tập dữ liệu#
Tham chiếu tập dữ liệu sử dụng định dạng URI ul:// (xem Sử dụng tập dữ liệu nền tảng):
yolo train data=ul://username/datasets/my-datasetĐiều này cho phép huấn luyện trên các tập dữ liệu của nền tảng từ bất kỳ máy nào đã cấu hình API key của bạn.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)Link to this sectionQuản lý phiên bản tập dữ liệu#
Tạo các bản chụp NDJSON bất biến của tập dữ liệu để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp và số lượng nhãn tại thời điểm tạo. Xem Tab phiên bản để biết thêm chi tiết.
Link to this sectionCác tab tập dữ liệu#
Các trang tập dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái tập dữ liệu và quyền của bạn:
| Tab | Mô tả |
|---|---|
| Hình ảnh | Duyệt hình ảnh trong chế độ xem lưới, thu gọn hoặc bảng với lớp phủ gán nhãn |
| Lớp | Xem và chỉnh sửa tên lớp, màu sắc và số lượng nhãn theo lớp |
| Biểu đồ | Số liệu thống kê tự động: phân phối tập chia, số lượng lớp, bản đồ nhiệt |
| Mô hình | Mô hình được huấn luyện trên tập dữ liệu này cùng với các chỉ số và trạng thái |
| Phiên bản | Tạo và tải xuống các bản chụp NDJSON bất biến để huấn luyện có thể tái lập |
| Lỗi | Những hình ảnh xử lý thất bại kèm chi tiết lỗi và hướng dẫn khắc phục |
Classes and Charts appear when the dataset has images. Errors appears only when processing failures exist. Versions appears for owners, or for non-owners when versions already exist.
Link to this sectionPhân cụm (Clustering)#
Khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác, nơi các hình ảnh có tính trực quan tương đồng nằm gần nhau — hữu ích để làm nổi bật các cụm, bản sao, các ngoại lệ và kiểm tra cách phân chia hoặc lớp được phân phối trên dữ liệu của bạn. Sử dụng công cụ chọn Lasso trên biểu đồ để lọc thư viện sang các hình ảnh đó. Xem Phân cụm để biết chi tiết.
Link to this sectionSố liệu thống kê và hình ảnh hóa#
The Charts tab provides automatic analysis including:
- Phân phối tập chia: Biểu đồ hình tròn cho số lượng hình ảnh train/val/test
- Lớp phổ biến nhất: Biểu đồ hình tròn cho các lớp được gán nhãn thường xuyên nhất
- Kích thước hình ảnh: Biểu đồ phân phối chiều rộng và chiều cao hình ảnh (tính bằng pixel)
- Điểm trên mỗi thực thể: Phân phối số lượng đỉnh đa giác hoặc số lượng điểm mấu chốt (cho tập dữ liệu segment/pose)
- Vị trí gán nhãn: Bản đồ nhiệt 2D về vị trí trung tâm của bounding box
- Kích thước hình ảnh 2D: Bản đồ nhiệt 2D về chiều rộng so với chiều cao với các đường dẫn tỷ lệ khung hình
Link to this sectionLiên kết nhanh#
- Tập dữ liệu: Tải lên, quản lý và xuất dữ liệu huấn luyện của bạn
- Gán nhãn: Gán nhãn dữ liệu bằng công cụ thủ công và hỗ trợ bởi AI
- Huấn luyện trên đám mây: Huấn luyện các mô hình trên tập dữ liệu đã gán nhãn của bạn
- URI tập dữ liệu: Sử dụng URI
ul://để huấn luyện từ mọi nơi
Link to this sectionCâu hỏi thường gặp (FAQ)#
Link to this sectionĐịnh dạng tệp nào được hỗ trợ để tải lên?#
Ultralytics Platform hỗ trợ:
Hình ảnh: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (tối đa 50MB mỗi tệp)
Video: MP4, WebM, MOV, AVI, MKV, M4V (tối đa 1GB, khung hình được trích xuất ở mức 1 FPS, tối đa 100 khung hình)
Tệp tập dữ liệu: Lưu trữ ZIP hoặc TAR bao gồm .tar.gz và .tgz (tối đa 10GB trên bản Free, 20GB trên bản Pro, 50GB trên bản Enterprise) chứa hình ảnh với tùy chọn nhãn định dạng YOLO, cộng với xuất tệp NDJSON
Link to this sectionKích thước tập dữ liệu tối đa là bao nhiêu?#
Giới hạn lưu trữ phụ thuộc vào gói của bạn:
| Gói | Giới hạn lưu trữ |
|---|---|
| Miễn phí | 100 GB |
| Pro | 500 GB |
| Enterprise | Không giới hạn |
Giới hạn tệp riêng lẻ: Hình ảnh 50MB, Video 1GB, tập dữ liệu 10GB trên bản Free / 20GB trên bản Pro / 50GB trên bản Enterprise
Link to this sectionTôi có thể sử dụng các tập dữ liệu trên nền tảng của mình để huấn luyện cục bộ không?#
Có! Sử dụng định dạng URI tập dữ liệu để huấn luyện cục bộ:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100Hoặc xuất tập dữ liệu của bạn ở định dạng NDJSON để huấn luyện hoàn toàn ngoại tuyến.