Meet YOLO26: next-gen vision AI.

Link to this sectionChuẩn bị dữ liệu#

Chuẩn bị dữ liệu là nền tảng của các mô hình computer vision thành công. Ultralytics Platform cung cấp các công cụ toàn diện để quản lý dữ liệu huấn luyện của bạn, từ bước tải lên, gán nhãn cho đến phân tích.



Watch: Get Started with Ultralytics Platform - Data

Link to this sectionTổng quan#

Phần Dữ liệu của Ultralytics Platform giúp bạn:

  • Tải lên hình ảnh, video và tệp tập dữ liệu (ZIP, TAR bao gồm .tar.gz/.tgz, NDJSON)
  • Gán nhãn bằng các công cụ vẽ thủ công và tính năng gán nhãn thông minh dựa trên SAM — chọn từ SAM 2.1 hoặc SAM 3 mới
  • Phân tích dữ liệu của bạn bằng các số liệu thống kê và hình ảnh hóa
  • Xuất sang định dạng NDJSON để huấn luyện cục bộ

Tổng quan dữ liệu trên thanh bên của Ultralytics Platform

Link to this sectionQuy trình làm việc#

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
Giai đoạnMô tả
Tải lênNhập hình ảnh, video hoặc kho lưu trữ với quy trình xử lý tự động
Gán nhãnGán nhãn dữ liệu bằng các công cụ thủ công cho cả 6 loại tác vụ, hoặc sử dụng tính năng gán nhãn SAM cho các tác vụ detect, segment, semantic và OBB
Phân tíchXem phân phối lớp, bản đồ nhiệt không gian và thống kê kích thước
XuấtTải xuống ở định dạng NDJSON để sử dụng ngoại tuyến

Link to this sectionCác tác vụ được hỗ trợ#

Ultralytics Platform hỗ trợ tất cả 6 loại tác vụ YOLO:

Tác vụMô tảCông cụ gán nhãn
DetectPhát hiện đối tượng với bounding boxCông cụ hình chữ nhật
SegmentPhân đoạn thực thể với pixel maskCông cụ đa giác
SemanticPhân đoạn ngữ nghĩa với các vùng pixel theo từng lớpCông cụ đa giác
PoseƯớc tính điểm mấu chốt (keypoint) với các mẫu khung xương tích hợp và tùy chỉnhCông cụ điểm mấu chốt
OBBBounding box có hướng cho các đối tượng xoayCông cụ hộp hướng
ClassifyPhân loại cấp độ hình ảnhCông cụ chọn lớp
Chọn loại tác vụ

Loại tác vụ được thiết lập khi tạo tập dữ liệu và quyết định công cụ gán nhãn nào khả dụng. Bạn có thể thay đổi sau từ trình chọn tác vụ trên tiêu đề tập dữ liệu, nhưng các nhãn không tương thích sẽ không hiển thị sau khi chuyển đổi.

Link to this sectionCác tính năng chính#

Link to this sectionLưu trữ thông minh#

Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để quản lý dữ liệu hiệu quả:

  • Deduplication (Khử trùng lặp): Hình ảnh trùng lặp chỉ được lưu một lần thông qua mã băm XXH3-128
  • Integrity (Toàn vẹn): Địa chỉ dựa trên mã băm đảm bảo tính toàn vẹn của dữ liệu
  • Efficiency (Hiệu quả): Lưu trữ được tối ưu hóa và xử lý nhanh chóng

Link to this sectionURI tập dữ liệu#

Tham chiếu tập dữ liệu sử dụng định dạng URI ul:// (xem Sử dụng tập dữ liệu nền tảng):

yolo train data=ul://username/datasets/my-dataset

Điều này cho phép huấn luyện trên các tập dữ liệu của nền tảng từ bất kỳ máy nào đã cấu hình API key của bạn.

Sử dụng dữ liệu nền tảng từ Python
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Link to this sectionQuản lý phiên bản tập dữ liệu#

Tạo các bản chụp NDJSON bất biến của tập dữ liệu để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp và số lượng nhãn tại thời điểm tạo. Xem Tab phiên bản để biết thêm chi tiết.

Link to this sectionCác tab tập dữ liệu#

Các trang tập dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái tập dữ liệu và quyền của bạn:

TabMô tả
Hình ảnhDuyệt hình ảnh trong chế độ xem lưới, thu gọn hoặc bảng với lớp phủ gán nhãn
LớpXem và chỉnh sửa tên lớp, màu sắc và số lượng nhãn theo lớp
Biểu đồSố liệu thống kê tự động: phân phối tập chia, số lượng lớp, bản đồ nhiệt
Mô hìnhMô hình được huấn luyện trên tập dữ liệu này cùng với các chỉ số và trạng thái
Phiên bảnTạo và tải xuống các bản chụp NDJSON bất biến để huấn luyện có thể tái lập
LỗiNhững hình ảnh xử lý thất bại kèm chi tiết lỗi và hướng dẫn khắc phục

Classes and Charts appear when the dataset has images. Errors appears only when processing failures exist. Versions appears for owners, or for non-owners when versions already exist.

Link to this sectionPhân cụm (Clustering)#

Khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác, nơi các hình ảnh có tính trực quan tương đồng nằm gần nhau — hữu ích để làm nổi bật các cụm, bản sao, các ngoại lệ và kiểm tra cách phân chia hoặc lớp được phân phối trên dữ liệu của bạn. Sử dụng công cụ chọn Lasso trên biểu đồ để lọc thư viện sang các hình ảnh đó. Xem Phân cụm để biết chi tiết.

Link to this sectionSố liệu thống kê và hình ảnh hóa#

The Charts tab provides automatic analysis including:

  • Phân phối tập chia: Biểu đồ hình tròn cho số lượng hình ảnh train/val/test
  • Lớp phổ biến nhất: Biểu đồ hình tròn cho các lớp được gán nhãn thường xuyên nhất
  • Kích thước hình ảnh: Biểu đồ phân phối chiều rộng và chiều cao hình ảnh (tính bằng pixel)
  • Điểm trên mỗi thực thể: Phân phối số lượng đỉnh đa giác hoặc số lượng điểm mấu chốt (cho tập dữ liệu segment/pose)
  • Vị trí gán nhãn: Bản đồ nhiệt 2D về vị trí trung tâm của bounding box
  • Kích thước hình ảnh 2D: Bản đồ nhiệt 2D về chiều rộng so với chiều cao với các đường dẫn tỷ lệ khung hình

Link to this sectionLiên kết nhanh#

Link to this sectionCâu hỏi thường gặp (FAQ)#

Link to this sectionĐịnh dạng tệp nào được hỗ trợ để tải lên?#

Ultralytics Platform hỗ trợ:

Hình ảnh: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (tối đa 50MB mỗi tệp)

Video: MP4, WebM, MOV, AVI, MKV, M4V (tối đa 1GB, khung hình được trích xuất ở mức 1 FPS, tối đa 100 khung hình)

Tệp tập dữ liệu: Lưu trữ ZIP hoặc TAR bao gồm .tar.gz.tgz (tối đa 10GB trên bản Free, 20GB trên bản Pro, 50GB trên bản Enterprise) chứa hình ảnh với tùy chọn nhãn định dạng YOLO, cộng với xuất tệp NDJSON

Link to this sectionKích thước tập dữ liệu tối đa là bao nhiêu?#

Giới hạn lưu trữ phụ thuộc vào gói của bạn:

GóiGiới hạn lưu trữ
Miễn phí100 GB
Pro500 GB
EnterpriseKhông giới hạn

Giới hạn tệp riêng lẻ: Hình ảnh 50MB, Video 1GB, tập dữ liệu 10GB trên bản Free / 20GB trên bản Pro / 50GB trên bản Enterprise

Link to this sectionTôi có thể sử dụng các tập dữ liệu trên nền tảng của mình để huấn luyện cục bộ không?#

Có! Sử dụng định dạng URI tập dữ liệu để huấn luyện cục bộ:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Hoặc xuất tập dữ liệu của bạn ở định dạng NDJSON để huấn luyện hoàn toàn ngoại tuyến.

Bình luận