Chuẩn bị dữ liệu
Chuẩn bị dữ liệu là nền tảng của các mô hình thị giác máy tính thành công. Nền tảng Ultralytics cung cấp các công cụ toàn diện để quản lý dữ liệu huấn luyện của bạn, từ tải lên, chú thích đến phân tích.
Xem: Bắt đầu với Ultralytics Nền tảng - Dữ liệu
Tổng quan
Mục Dữ liệu của Nền tảng Ultralytics giúp bạn:
- Tải lên hình ảnh, video và tập tin dữ liệu (bao gồm ZIP, TAR)
.tar.gz/.tgz, NDJSON) - Gán nhãn bằng các công cụ vẽ thủ công và tính năng gán nhãn thông minh được hỗ trợ bởi SAM — chọn từ SAM 2.1 hoặc SAM 3 mới.
- Phân tích dữ liệu của bạn bằng thống kê và trực quan hóa
- Xuất ở định dạng NDJSON để huấn luyện cục bộ

Quy trình làm việc
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Giai đoạn | Mô tả |
|---|---|
| Tải lên | Nhập hình ảnh, video hoặc tệp lưu trữ với quy trình xử lý tự động. |
| Chú thích | Gắn nhãn dữ liệu bằng các công cụ thủ công cho cả 5 loại tác vụ, hoặc sử dụng SAM chú thích cho detect , segment và OBB |
| Phân tích | Xem phân bố lớp, bản đồ nhiệt không gian và thống kê kích thước |
| Xuất | Tải xuống ở định dạng NDJSON để sử dụng ngoại tuyến |
Các Tác Vụ Được Hỗ Trợ
Nền tảng Ultralytics hỗ trợ tất cả 5 loại tác vụ YOLO:
| Tác vụ | Mô tả | Công cụ chú thích |
|---|---|---|
| Phát hiện | Object detect với hộp giới hạn | Công cụ hình chữ nhật |
| Phân đoạn | Instance segment với mặt nạ pixel | Công cụ đa giác |
| Pose (Dáng điệu/Tư thế) | Ước tính điểm mấu chốt với các mẫu khung xương có sẵn và tùy chỉnh. | Công cụ điểm mốc |
| OBB | Hộp giới hạn có hướng cho các đối tượng xoay | Công cụ hộp có hướng |
| Phân loại | Phân loại cấp độ ảnh | Bộ chọn lớp |
Lựa chọn loại nhiệm vụ
Loại tác vụ được thiết lập khi tạo tập dữ liệu và xác định các công cụ chú thích nào có sẵn. Bạn có thể thay đổi nó sau này từ cài đặt tập dữ liệu, nhưng các chú thích không tương thích sẽ không được hiển thị sau khi thay đổi.
Các tính năng chính
Lưu trữ thông minh
Ultralytics Nền tảng này sử dụng bộ nhớ dựa trên địa chỉ nội dung (CAS) để quản lý dữ liệu hiệu quả:
- Khử trùng lặp: Các hình ảnh giống hệt nhau chỉ được lưu trữ một lần thông qua băm XXH3-128
- Tính toàn vẹn: Định địa chỉ dựa trên hàm băm đảm bảo tính toàn vẹn dữ liệu
- Hiệu quả: Lưu trữ tối ưu và xử lý nhanh
URI tập dữ liệu
Tham chiếu bộ dữ liệu sử dụng ul:// Định dạng URI (xem Sử dụng tập dữ liệu nền tảng):
yolo train data=ul://username/datasets/my-dataset
Điều này cho phép huấn luyện trên các tập dữ liệu của nền tảng từ bất kỳ máy nào có cấu hình khóa API của bạn.
Sử dụng dữ liệu nền tảng từ Python
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Quản lý phiên bản tập dữ liệu
Tạo các ảnh chụp nhanh NDJSON bất biến của tập dữ liệu của bạn để huấn luyện có thể tái tạo. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp và số lượng chú thích tại thời điểm tạo. Xem Tab Phiên bản để biết chi tiết.
Các tab tập dữ liệu
Mỗi trang dữ liệu đều có sáu tab:
| Tab | Mô tả |
|---|---|
| Ảnh | Duyệt ảnh ở chế độ xem dạng lưới, nhỏ gọn hoặc bảng với các lớp phủ chú thích |
| Các lớp | Xem và chỉnh sửa tên lớp, màu sắc và số lượng nhãn cho mỗi lớp. |
| Biểu đồ | Thống kê tự động: phân phối phân tách, số lượng lớp, bản đồ nhiệt |
| Mô hình | Các mô hình được huấn luyện trên bộ dữ liệu này với các chỉ số và trạng thái |
| Các phiên bản | Tạo và tải xuống các ảnh chụp nhanh NDJSON bất biến để huấn luyện có thể tái tạo |
| Lỗi | Hình ảnh không xử lý được, kèm theo chi tiết lỗi và hướng dẫn khắc phục. |
Thống kê và Trực quan hóa
Hàm Charts Tab này cung cấp chức năng phân tích tự động, bao gồm:
- Phân phối phân tách: Biểu đồ donut về số lượng hình ảnh train/val/test
- Các lớp hàng đầu: Biểu đồ hình bánh donut về các lớp chú thích thường xuyên nhất
- Chiều rộng ảnh: Biểu đồ phân bố chiều rộng ảnh
- Chiều cao hình ảnh: Biểu đồ phân bố chiều cao hình ảnh
- Điểm trên mỗi Thực thể: Phân bố số lượng đỉnh đa giác hoặc điểm khóa (tập dữ liệu segment/pose)
- Vị trí chú thích: Bản đồ nhiệt 2D của các vị trí trung tâm hộp giới hạn.
- Kích thước hình ảnh: Bản đồ nhiệt 2D của chiều rộng so với chiều cao với các đường hướng dẫn tỷ lệ khung hình
Liên kết nhanh
- Tập dữ liệu: Tải lên, quản lý và xuất dữ liệu huấn luyện của bạn
- Chú thích: Gắn nhãn dữ liệu bằng các công cụ thủ công và hỗ trợ bởi AI
- Huấn luyện trên đám mây: Huấn luyện mô hình trên các tập dữ liệu đã được chú thích của bạn
- URI tập dữ liệu: Sử dụng
ul://URI để huấn luyện từ bất kỳ đâu
Câu hỏi thường gặp
Những định dạng tệp nào được hỗ trợ để tải lên?
Nền tảng Ultralytics hỗ trợ:
Ảnh: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (tối đa 50MB mỗi ảnh)
Video: MP4, WebM, MOV, AVI, MKV, M4V (tối đa 1GB, trích xuất khung hình ở tốc độ 1 FPS, tối đa 100 khung hình)
Các tệp tập dữ liệu: Các tệp lưu trữ ZIP hoặc TAR bao gồm .tar.gz và .tgz (tối đa 10GB trên gói Free, 20GB trên gói Pro, 50GB trên gói Enterprise) chứa hình ảnh với tùy chọn YOLO -định dạng nhãn, cộng với xuất NDJSON
Kích thước tập dữ liệu tối đa là bao nhiêu?
Giới hạn lưu trữ phụ thuộc vào gói của bạn:
| Gói | Giới hạn lưu trữ |
|---|---|
| Miễn phí | 100 GB |
| Pro | 500 GB |
| Doanh nghiệp | Không giới hạn |
Giới hạn dung lượng từng tập tin: Hình ảnh 50MB, Video 1GB, bộ dữ liệu 10GB trên gói Miễn phí / 20GB trên gói Pro / 50GB trên gói Doanh nghiệp
Tôi có thể sử dụng các bộ dữ liệu Nền tảng của mình để huấn luyện cục bộ không?
Có! Sử dụng định dạng URI tập dữ liệu để huấn luyện cục bộ:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os
os.environ["ULTRALYTICS_API_KEY"] = "YOUR_API_KEY"
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Hoặc xuất bộ dữ liệu của bạn ở định dạng NDJSON để huấn luyện hoàn toàn ngoại tuyến.