Chuyển đến nội dung

Chuẩn bị dữ liệu

Chuẩn bị dữ liệu là nền tảng của các mô hình thị giác máy tính thành công. Nền tảng Ultralytics cung cấp các công cụ toàn diện để quản lý dữ liệu huấn luyện của bạn, từ tải lên, chú thích đến phân tích.



Xem: Bắt đầu với Ultralytics Nền tảng - Dữ liệu

Tổng quan

Mục Dữ liệu của Nền tảng Ultralytics giúp bạn:

  • Tải lên hình ảnh, video và tập tin dữ liệu (bao gồm ZIP, TAR) .tar.gz/.tgz, NDJSON)
  • Gán nhãn bằng các công cụ vẽ thủ công và tính năng gán nhãn thông minh được hỗ trợ bởi SAM — chọn từ SAM 2.1 hoặc SAM 3 mới.
  • Phân tích dữ liệu của bạn bằng thống kê và trực quan hóa
  • Xuất ở định dạng NDJSON để huấn luyện cục bộ

Ultralytics Tổng quan dữ liệu nền tảng Thanh bên Bộ dữ liệu

Quy trình làm việc

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
Giai đoạnMô tả
Tải lênNhập hình ảnh, video hoặc tệp lưu trữ với quy trình xử lý tự động.
Chú thíchGắn nhãn dữ liệu bằng các công cụ thủ công cho cả 5 loại tác vụ, hoặc sử dụng SAM chú thích cho detect , segment và OBB
Phân tíchXem phân bố lớp, bản đồ nhiệt không gian và thống kê kích thước
XuấtTải xuống ở định dạng NDJSON để sử dụng ngoại tuyến

Các Tác Vụ Được Hỗ Trợ

Nền tảng Ultralytics hỗ trợ tất cả 5 loại tác vụ YOLO:

Tác vụMô tảCông cụ chú thích
Phát hiệnObject detect với hộp giới hạnCông cụ hình chữ nhật
Phân đoạnInstance segment với mặt nạ pixelCông cụ đa giác
Pose (Dáng điệu/Tư thế)Ước tính điểm mấu chốt với các mẫu khung xương có sẵn và tùy chỉnh.Công cụ điểm mốc
OBBHộp giới hạn có hướng cho các đối tượng xoayCông cụ hộp có hướng
Phân loạiPhân loại cấp độ ảnhBộ chọn lớp

Lựa chọn loại nhiệm vụ

Loại tác vụ được thiết lập khi tạo tập dữ liệu và xác định các công cụ chú thích nào có sẵn. Bạn có thể thay đổi nó sau này từ cài đặt tập dữ liệu, nhưng các chú thích không tương thích sẽ không được hiển thị sau khi thay đổi.

Các tính năng chính

Lưu trữ thông minh

Ultralytics Nền tảng này sử dụng bộ nhớ dựa trên địa chỉ nội dung (CAS) để quản lý dữ liệu hiệu quả:

  • Khử trùng lặp: Các hình ảnh giống hệt nhau chỉ được lưu trữ một lần thông qua băm XXH3-128
  • Tính toàn vẹn: Định địa chỉ dựa trên hàm băm đảm bảo tính toàn vẹn dữ liệu
  • Hiệu quả: Lưu trữ tối ưu và xử lý nhanh

URI tập dữ liệu

Tham chiếu bộ dữ liệu sử dụng ul:// Định dạng URI (xem Sử dụng tập dữ liệu nền tảng):

yolo train data=ul://username/datasets/my-dataset

Điều này cho phép huấn luyện trên các tập dữ liệu của nền tảng từ bất kỳ máy nào có cấu hình khóa API của bạn.

Sử dụng dữ liệu nền tảng từ Python

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Quản lý phiên bản tập dữ liệu

Tạo các ảnh chụp nhanh NDJSON bất biến của tập dữ liệu của bạn để huấn luyện có thể tái tạo. Mỗi phiên bản ghi lại số lượng hình ảnh, số lượng lớp và số lượng chú thích tại thời điểm tạo. Xem Tab Phiên bản để biết chi tiết.

Các tab tập dữ liệu

Mỗi trang dữ liệu đều có sáu tab:

TabMô tả
ẢnhDuyệt ảnh ở chế độ xem dạng lưới, nhỏ gọn hoặc bảng với các lớp phủ chú thích
Các lớpXem và chỉnh sửa tên lớp, màu sắc và số lượng nhãn cho mỗi lớp.
Biểu đồThống kê tự động: phân phối phân tách, số lượng lớp, bản đồ nhiệt
Mô hìnhCác mô hình được huấn luyện trên bộ dữ liệu này với các chỉ số và trạng thái
Các phiên bảnTạo và tải xuống các ảnh chụp nhanh NDJSON bất biến để huấn luyện có thể tái tạo
LỗiHình ảnh không xử lý được, kèm theo chi tiết lỗi và hướng dẫn khắc phục.

Thống kê và Trực quan hóa

Hàm Charts Tab này cung cấp chức năng phân tích tự động, bao gồm:

  • Phân phối phân tách: Biểu đồ donut về số lượng hình ảnh train/val/test
  • Các lớp hàng đầu: Biểu đồ hình bánh donut về các lớp chú thích thường xuyên nhất
  • Chiều rộng ảnh: Biểu đồ phân bố chiều rộng ảnh
  • Chiều cao hình ảnh: Biểu đồ phân bố chiều cao hình ảnh
  • Điểm trên mỗi Thực thể: Phân bố số lượng đỉnh đa giác hoặc điểm khóa (tập dữ liệu segment/pose)
  • Vị trí chú thích: Bản đồ nhiệt 2D của các vị trí trung tâm hộp giới hạn.
  • Kích thước hình ảnh: Bản đồ nhiệt 2D của chiều rộng so với chiều cao với các đường hướng dẫn tỷ lệ khung hình

Câu hỏi thường gặp

Những định dạng tệp nào được hỗ trợ để tải lên?

Nền tảng Ultralytics hỗ trợ:

Ảnh: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (tối đa 50MB mỗi ảnh)

Video: MP4, WebM, MOV, AVI, MKV, M4V (tối đa 1GB, trích xuất khung hình ở tốc độ 1 FPS, tối đa 100 khung hình)

Các tệp tập dữ liệu: Các tệp lưu trữ ZIP hoặc TAR bao gồm .tar.gz.tgz (tối đa 10GB trên gói Free, 20GB trên gói Pro, 50GB trên gói Enterprise) chứa hình ảnh với tùy chọn YOLO -định dạng nhãn, cộng với xuất NDJSON

Kích thước tập dữ liệu tối đa là bao nhiêu?

Giới hạn lưu trữ phụ thuộc vào gói của bạn:

GóiGiới hạn lưu trữ
Miễn phí100 GB
Pro500 GB
Doanh nghiệpKhông giới hạn

Giới hạn dung lượng từng tập tin: Hình ảnh 50MB, Video 1GB, bộ dữ liệu 10GB trên gói Miễn phí / 20GB trên gói Pro / 50GB trên gói Doanh nghiệp

Tôi có thể sử dụng các bộ dữ liệu Nền tảng của mình để huấn luyện cục bộ không?

Có! Sử dụng định dạng URI tập dữ liệu để huấn luyện cục bộ:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "YOUR_API_KEY"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Hoặc xuất bộ dữ liệu của bạn ở định dạng NDJSON để huấn luyện hoàn toàn ngoại tuyến.



📅 Được tạo 2 tháng trước ✏️ Cập nhật 4 ngày trước
glenn-jocherRizwanMunawaramanharshxsergiuwaxmann

Bình luận