Chuẩn bị dữ liệu
Chuẩn bị dữ liệu là nền tảng của các mô hình computer vision thành công. Ultralytics Platform cung cấp các công cụ toàn diện để quản lý dữ liệu huấn luyện của bạn, từ bước tải lên, gán nhãn cho đến phân tích.
Watch: Get Started with Ultralytics Platform - Data
Tổng quan
Phần Dữ liệu của Ultralytics Platform giúp bạn:
- Tải lên hình ảnh, video và các tệp dữ liệu (ZIP, TAR bao gồm
.tar.gz/.tgz, NDJSON) - Gán nhãn bằng các công cụ vẽ thủ công và gán nhãn thông minh dựa trên SAM — chọn từ SAM 2.1 hoặc SAM 3 mới
- Phân tích dữ liệu của bạn bằng các thống kê và trực quan hóa
- Xuất ở định dạng NDJSON để huấn luyện cục bộ

Quy trình làm việc
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Giai đoạn | Mô tả |
|---|---|
| Tải lên | Nhập hình ảnh, video hoặc tệp lưu trữ với xử lý tự động |
| Gán nhãn | Gán nhãn dữ liệu bằng công cụ thủ công cho tất cả 5 loại tác vụ, hoặc sử dụng tính năng gán nhãn SAM cho detect, segment và OBB |
| Phân tích | Xem phân phối lớp, bản đồ nhiệt không gian và thống kê kích thước |
| Xuất | Tải xuống ở định dạng NDJSON để sử dụng ngoại tuyến |
Các tác vụ được hỗ trợ
Ultralytics Platform hỗ trợ tất cả 5 loại tác vụ YOLO:
| Tác vụ | Mô tả | Công cụ Gán nhãn |
|---|---|---|
| Detect | Phát hiện đối tượng với các hộp bao (bounding box) | Công cụ hình chữ nhật |
| Segment | Phân đoạn thực thể (instance segmentation) với các mặt nạ điểm ảnh | Công cụ đa giác |
| Pose | Ước tính điểm mấu chốt (keypoint) với các mẫu khung xương tích hợp và tùy chỉnh | Công cụ điểm mấu chốt |
| OBB | Hộp bao hướng (oriented bounding box) cho các đối tượng xoay | Công cụ hộp hướng |
| Classify | Phân loại cấp độ hình ảnh | Bộ chọn lớp |
Loại tác vụ được thiết lập khi tạo tập dữ liệu và xác định các công cụ gán nhãn nào có sẵn. Bạn có thể thay đổi sau đó từ bộ chọn tác vụ ở tiêu đề tập dữ liệu, nhưng các nhãn không tương thích sẽ không hiển thị sau khi chuyển đổi.
Các tính năng chính
Lưu trữ Thông minh
Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để quản lý dữ liệu hiệu quả:
- Deduplication: Các hình ảnh giống hệt nhau chỉ được lưu trữ một lần thông qua mã băm XXH3-128
- Integrity: Địa chỉ dựa trên mã băm đảm bảo tính toàn vẹn của dữ liệu
- Efficiency: Tối ưu hóa lưu trữ và xử lý nhanh chóng
URI Tập dữ liệu
Tham chiếu tập dữ liệu sử dụng định dạng URI ul:// (xem Sử dụng Tập dữ liệu trên Platform):
yolo train data=ul://username/datasets/my-datasetĐiều này cho phép huấn luyện trên các tập dữ liệu của platform từ bất kỳ máy nào đã cấu hình API key của bạn.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)Quản lý phiên bản Tập dữ liệu
Tạo các bản chụp NDJSON bất biến cho tập dữ liệu của bạn để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp và số lượng nhãn tại thời điểm tạo. Xem Tab Phiên bản để biết chi tiết.
Các tab Tập dữ liệu
Các trang tập dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái tập dữ liệu và quyền hạn của bạn:
| Tab | Mô tả |
|---|---|
| Hình ảnh | Duyệt hình ảnh trong chế độ xem lưới, thu gọn hoặc bảng với các lớp phủ nhãn |
| Classes | Xem và chỉnh sửa tên lớp, màu sắc và số lượng nhãn cho mỗi lớp |
| Charts | Thống kê tự động: phân phối tập chia, số lượng lớp, bản đồ nhiệt |
| Model | Models đã huấn luyện trên tập dữ liệu này với các chỉ số và trạng thái |
| Versions | Tạo và tải xuống các bản chụp NDJSON bất biến để huấn luyện có thể tái lập |
| Errors | Các hình ảnh bị lỗi khi xử lý kèm chi tiết lỗi và hướng dẫn sửa lỗi |
Classes và Charts xuất hiện khi tập dữ liệu có hình ảnh. Errors chỉ xuất hiện khi có lỗi xử lý. Versions xuất hiện cho chủ sở hữu, hoặc cho người không sở hữu khi các phiên bản đã tồn tại.
Phân cụm (Clustering)
Khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác, nơi các hình ảnh tương đồng về mặt thị giác nằm gần nhau — hữu ích để phát hiện các cụm, dữ liệu trùng lặp, các giá trị ngoại lệ và để kiểm tra cách phân phối tập chia hoặc các lớp trên dữ liệu của bạn. Khoanh vùng biểu đồ để lọc thư viện sang các hình ảnh đó. Xem Phân cụm để biết chi tiết.
Thống kê và Trực quan hóa
Tab Charts cung cấp phân tích tự động bao gồm:
- Split Distribution: Biểu đồ hình vành khuyên về số lượng hình ảnh train/val/test
- Top Classes: Biểu đồ hình vành khuyên về các lớp nhãn thường gặp nhất
- Image Widths: Biểu đồ tần suất về phân phối chiều rộng hình ảnh
- Image Heights: Biểu đồ tần suất về phân phối chiều cao hình ảnh
- Points per Instance: Phân phối số lượng đỉnh đa giác hoặc điểm mấu chốt (cho các tập dữ liệu segment/pose)
- Annotation Locations: Bản đồ nhiệt 2D về vị trí tâm hộp bao
- Image Dimensions: Bản đồ nhiệt 2D về chiều rộng so với chiều cao cùng các đường hướng dẫn tỷ lệ khung hình
Liên kết nhanh
- Datasets: Tải lên, quản lý và xuất dữ liệu huấn luyện của bạn
- Annotation: Gán nhãn dữ liệu bằng các công cụ thủ công và hỗ trợ bởi AI
- Cloud Training: Huấn luyện các mô hình trên tập dữ liệu đã gán nhãn của bạn
- Dataset URI: Sử dụng URI
ul://để huấn luyện từ mọi nơi
Câu hỏi thường gặp (FAQ)
Những định dạng tệp nào được hỗ trợ để tải lên?
Ultralytics Platform hỗ trợ:
Hình ảnh: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (tối đa 50MB mỗi tệp)
Video: MP4, WebM, MOV, AVI, MKV, M4V (tối đa 1GB, khung hình được trích xuất ở tốc độ 1 FPS, tối đa 100 khung hình)
Tệp tập dữ liệu: Các tệp lưu trữ ZIP hoặc TAR bao gồm .tar.gz và .tgz (tối đa 10GB trên gói Free, 20GB trên Pro, 50GB trên Enterprise) chứa hình ảnh với các nhãn định dạng YOLO tùy chọn, cùng các tệp xuất NDJSON
Kích thước tập dữ liệu tối đa là bao nhiêu?
Giới hạn lưu trữ phụ thuộc vào gói của bạn:
| Gói | Giới hạn Lưu trữ |
|---|---|
| Miễn phí | 100 GB |
| Pro | 500 GB |
| Enterprise | Không giới hạn |
Giới hạn tệp riêng lẻ: Hình ảnh 50MB, Video 1GB, tập dữ liệu 10GB trên Free / 20GB trên Pro / 50GB trên Enterprise
Tôi có thể sử dụng tập dữ liệu Platform của mình để huấn luyện cục bộ không?
Có! Sử dụng định dạng URI tập dữ liệu để huấn luyện cục bộ:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100Hoặc xuất tập dữ liệu của bạn ở định dạng NDJSON để huấn luyện hoàn toàn ngoại tuyến.