Meet YOLO26: next-gen vision AI.

Link to this sectionChuẩn bị dữ liệu#

Chuẩn bị dữ liệu là nền tảng cho các model thị giác máy tính thành công. Ultralytics Platform cung cấp các công cụ toàn diện để quản lý dữ liệu huấn luyện của bạn, từ khâu tải lên, gán nhãn cho đến phân tích.



Watch: Get Started with Ultralytics Platform - Data

Link to this sectionTổng quan#

Mục Dữ liệu (Data) của Ultralytics Platform giúp bạn:

  • Tải lên hình ảnh, video và tệp dữ liệu (ZIP, TAR bao gồm .tar.gz/.tgz, NDJSON)
  • Gán nhãn bằng công cụ vẽ thủ công và tính năng gắn nhãn thông minh dựa trên SAM — chọn từ SAM 2.1 hoặc SAM 3 mới
  • Phân tích dữ liệu của bạn bằng thống kê và hình ảnh hóa
  • Xuất dưới định dạng NDJSON để huấn luyện cục bộ

Tổng quan về dữ liệu của Ultralytics Platform - Thanh bên Tập dữ liệu

Link to this sectionQuy trình làm việc#

graph LR
    A[Upload]:::start --> B[Annotate]:::proc
    B --> C[Analyze]:::proc
    C --> D[Train]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef out fill:#9C27B0,color:#fff
Giai đoạnMô tả
Tải lên (Upload)Nhập hình ảnh, video hoặc tệp lưu trữ với quy trình xử lý tự động
Gán nhãn (Annotate)Gán nhãn dữ liệu bằng công cụ thủ công cho cả 6 loại tác vụ, hoặc sử dụng tính năng gán nhãn SAM cho các tác vụ detect, segment, semantic và OBB
Phân tíchXem phân phối lớp, bản đồ nhiệt không gian (spatial heatmaps) và thống kê kích thước
XuấtTải xuống dưới định dạng NDJSON để sử dụng ngoại tuyến

Link to this sectionCác tác vụ được hỗ trợ#

Ultralytics Platform hỗ trợ tất cả 6 loại tác vụ YOLO:

Tác vụMô tảCông cụ gán nhãn
DetectPhát hiện đối tượng (Object detection) với bounding boxesCông cụ hình chữ nhật
SegmentPhân đoạn thực thể (Instance segmentation) với mặt nạ pixel (pixel masks)Công cụ đa giác
SemanticPhân đoạn ngữ nghĩa (Semantic segmentation) với vùng pixel theo từng lớpCông cụ đa giác
PoseƯớc tính điểm chính (Keypoint estimation) với các mẫu skeleton có sẵn hoặc tùy chỉnhCông cụ điểm chính
OBBBounding boxes định hướng (Oriented bounding boxes) cho các đối tượng xoayCông cụ hộp định hướng
ClassifyPhân loại cấp độ hình ảnhBộ chọn lớp
Chọn loại tác vụ

Loại tác vụ được thiết lập khi tạo tập dữ liệu và xác định các công cụ gán nhãn nào khả dụng. Bạn có thể thay đổi sau này từ bộ chọn tác vụ trong tiêu đề tập dữ liệu, nhưng các chú thích không tương thích sẽ không được hiển thị sau khi chuyển đổi.

Link to this sectionTính năng chính#

Link to this sectionLưu trữ thông minh#

Ultralytics Platform sử dụng Content-Addressable Storage (CAS) để quản lý dữ liệu hiệu quả:

  • Khử trùng lặp: Các hình ảnh giống hệt nhau chỉ được lưu trữ một lần thông qua băm XXH3-128
  • Tính toàn vẹn: Định địa chỉ dựa trên hàm băm đảm bảo tính toàn vẹn của dữ liệu
  • Hiệu quả: Lưu trữ tối ưu và xử lý nhanh chóng

Link to this sectionURI của tập dữ liệu#

Tham chiếu tập dữ liệu sử dụng định dạng URI ul:// (xem Sử dụng tập dữ liệu trên Platform):

yolo train data=ul://username/datasets/my-dataset

Điều này cho phép huấn luyện trên các tập dữ liệu của nền tảng từ bất kỳ máy nào đã cấu hình API key của bạn.

Sử dụng dữ liệu Platform từ Python
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Link to this sectionQuản lý phiên bản tập dữ liệu#

Tạo các bản chụp NDJSON bất biến cho tập dữ liệu của bạn để huấn luyện có thể tái lập. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp và số lượng chú thích tại thời điểm tạo. Xem Tab phiên bản để biết thêm chi tiết.

Link to this sectionCác tab Dataset#

Các trang tập dữ liệu có thể hiển thị tối đa sáu tab, tùy thuộc vào trạng thái tập dữ liệu và quyền của bạn:

TabMô tả
Hình ảnhDuyệt hình ảnh ở chế độ lưới, nhỏ gọn hoặc dạng bảng với các lớp phủ chú thích
ClassesXem và chỉnh sửa tên lớp, màu sắc và số lượng nhãn mỗi lớp
Biểu đồThống kê tự động: phân phối tách, số lượng lớp, bản đồ nhiệt
ModelModels được huấn luyện trên tập dữ liệu này kèm theo chỉ số và trạng thái
Phiên bảnTạo và tải xuống các bản chụp NDJSON bất biến để huấn luyện có thể tái lập
LỗiCác hình ảnh xử lý thất bại kèm chi tiết lỗi và hướng dẫn khắc phục

ClassesCharts xuất hiện khi tập dữ liệu có hình ảnh. Errors chỉ xuất hiện khi có lỗi xử lý. Versions xuất hiện cho chủ sở hữu, hoặc cho người không phải chủ sở hữu khi đã tồn tại phiên bản.

Link to this sectionPhân cụm (Clustering)#

Khám phá tập dữ liệu của bạn dưới dạng biểu đồ phân tán 2D tương tác, nơi các hình ảnh có sự tương đồng trực quan nằm gần nhau — hữu ích cho việc làm nổi bật các cụm, bản sao và ngoại lệ, cũng như kiểm tra cách phân chia hoặc lớp được phân phối trên dữ liệu của bạn. Khoanh vùng một khu vực trên biểu đồ để lọc thư viện sang các hình ảnh đó. Xem Phân cụm để biết chi tiết.

Link to this sectionThống kê và Hình ảnh hóa#

Tab Charts cung cấp phân tích tự động bao gồm:

  • Phân phối tách: Biểu đồ hình vành khuyên về số lượng hình ảnh train/val/test
  • Lớp hàng đầu: Biểu đồ hình vành khuyên về các lớp chú thích phổ biến nhất
  • Kích thước hình ảnh: Biểu đồ tần suất phân phối chiều rộng và chiều cao hình ảnh (tính bằng pixel)
  • Điểm trên mỗi thực thể: Phân phối số đỉnh đa giác hoặc số điểm chính (cho các tập dữ liệu segment/pose)
  • Vị trí chú thích: Bản đồ nhiệt 2D của các vị trí tâm bounding box
  • Kích thước hình ảnh 2D: Bản đồ nhiệt 2D của chiều rộng so với chiều cao với các đường hướng dẫn tỷ lệ khung hình

Link to this sectionLiên kết nhanh#

  • Tập dữ liệu: Tải lên, quản lý và xuất dữ liệu huấn luyện của bạn
  • Gán nhãn: Gán nhãn dữ liệu bằng công cụ thủ công và hỗ trợ bởi AI
  • Huấn luyện trên Cloud: Huấn luyện các model trên các tập dữ liệu đã gán nhãn của bạn
  • URI tập dữ liệu: Sử dụng các URI ul:// để huấn luyện từ bất cứ đâu

Link to this sectionCâu hỏi thường gặp#

Link to this sectionCác định dạng tệp nào được hỗ trợ để tải lên?#

Ultralytics Platform hỗ trợ:

Hình ảnh: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (tối đa 50MB mỗi tệp)

Video: MP4, WebM, MOV, MKV, M4V (tối đa 1GB, các khung hình được trích xuất ở tốc độ 1 FPS, tối đa 100 khung hình)

Tệp dữ liệu: Các tệp nén ZIP hoặc TAR bao gồm .tar.gz.tgz (tối đa 10GB trên gói Free, 20GB trên Pro, 50GB trên Enterprise) chứa hình ảnh với nhãn định dạng YOLO tùy chọn, cùng với các tệp xuất NDJSON

Link to this sectionKích thước tập dữ liệu tối đa là bao nhiêu?#

Giới hạn lưu trữ phụ thuộc vào gói của bạn:

Gói (Plan)Giới hạn lưu trữ
Miễn phí100 GB
Pro500 GB
EnterpriseKhông giới hạn

Giới hạn tệp riêng lẻ: Hình ảnh 50MB, Video 1GB, tập dữ liệu 10GB trên gói Free / 20GB trên Pro / 50GB trên Enterprise

Link to this sectionTôi có thể sử dụng các tập dữ liệu Platform cho việc huấn luyện cục bộ không?#

Có! Sử dụng định dạng URI tập dữ liệu để huấn luyện cục bộ:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Hoặc xuất tập dữ liệu của bạn ở định dạng NDJSON để huấn luyện hoàn toàn ngoại tuyến.

Bình luận