Đào tạo trên Đám mây

Tính năng Đào tạo trên Đám mây của Ultralytics Platform cung cấp khả năng huấn luyện chỉ với một cú nhấp chuột trên các GPU đám mây, giúp việc huấn luyện model trở nên dễ tiếp cận mà không cần thiết lập phức tạp. Huấn luyện các model YOLO với luồng chỉ số thời gian thực và tự động lưu checkpoint.

graph LR
    A[Configure] --> B[Start Training]
    B --> C[Provision GPU]
    C --> D[Download Dataset]
    D --> E[Train]
    E --> F[Stream Metrics]
    F --> G[Save Checkpoints]
    G --> H[Complete]

    style A fill:#2196F3,color:#fff
    style B fill:#FF9800,color:#fff
    style E fill:#9C27B0,color:#fff
    style H fill:#4CAF50,color:#fff

Hộp thoại Huấn luyện

Bắt đầu huấn luyện từ giao diện UI của nền tảng bằng cách nhấp vào New Model trên bất kỳ trang dự án nào (hoặc Train từ trang dataset). Hộp thoại huấn luyện có hai tab: Cloud TrainingLocal Training.

Ultralytics Platform Training Dialog Cloud Tab

Bước 1: Chọn Model Cơ sở

Chọn từ các model YOLO26 chính thức hoặc các model đã được huấn luyện của riêng bạn:

Danh mụcMô tả
Chính thứcTất cả 25 model YOLO26 (5 kích thước x 5 tác vụ)
Model của bạnCác model bạn đã hoàn thành để tinh chỉnh (fine-tuning)

Các model chính thức được phân loại theo loại tác vụ (Detect, Segment, Pose, OBB, Classify) với các kích thước từ nano đến xlarge.

Bước 2: Chọn Dataset

Chọn dataset để huấn luyện (xem Datasets):

Tùy chọnMô tả
Chính thứcCác dataset được tuyển chọn từ Ultralytics
Dataset của bạnCác dataset bạn đã tải lên
Yêu cầu về Dataset

Dataset phải ở trạng thái ready với ít nhất 1 ảnh trong tập train, 1 ảnh trong tập validation hoặc test, và ít nhất 1 ảnh đã được gán nhãn.

Mismatched Tác vụ (Task Mismatch)

Cảnh báo mismacth tác vụ xuất hiện nếu tác vụ của model (ví dụ: detect) không khớp với tác vụ của dataset (ví dụ: segment). Việc huấn luyện sẽ thất bại nếu bạn tiếp tục với các tác vụ không khớp. Hãy đảm bảo rằng cả model và dataset đều sử dụng cùng một loại tác vụ, như được mô tả trong hướng dẫn tác vụ.

Bước 3: Cấu hình Tham số

Thiết lập các tham số huấn luyện cốt lõi:

Tham sốMô tảMặc định
EpochsSố vòng lặp huấn luyện100
Batch SizeSố lượng mẫu mỗi vòng lặp-1 (tự động)
Image SizeĐộ phân giải đầu vào (dropdown 320/416/512/640/1280, hoặc bất kỳ bội số nào của 32 từ 32-4096 trong trình chỉnh sửa YAML)640
Tên RunTên tùy chọn cho đợt huấn luyệntự động

Bước 4: Cài đặt Nâng cao (Tùy chọn)

Mở rộng Advanced Settings để truy cập trình chỉnh sửa tham số dựa trên YAML đầy đủ với hơn 40 tham số huấn luyện được sắp xếp theo nhóm (xem tham chiếu cấu hình):

NhómTham số
Tốc độ học (Learning Rate)lr0, lrf, momentum, weight_decay, warmup_epochs, warmup_momentum, warmup_bias_lr
Optimizerauto (mặc định), SGD, MuSGD, Adam, AdamW, NAdam, RAdam, RMSProp, Adamax
Trọng số Loss (Loss Weights)box, cls, dfl, pose, kobj, label_smoothing
Tăng cường Màu sắc (Color Augmentation)hsv_h, hsv_s, hsv_v
Tăng cường Hình học (Geometric Augment.)degrees, translate, scale, shear, perspective
Tăng cường Lật & Trộn (Flip & Mix Augment.)flipud, fliplr, mosaic, mixup, copy_paste
Kiểm soát Huấn luyện (Training Control)patience, seed, deterministic, amp, cos_lr, close_mosaic, save_period
Datasetfraction, freeze, single_cls, rect, multi_scale, resume

Các tham số đều nhận diện tác vụ (ví dụ: copy_paste chỉ hiển thị cho các tác vụ segment, pose/kobj chỉ dành cho các tác vụ pose). Huy hiệu Modified sẽ xuất hiện khi các giá trị khác với mặc định, và bạn có thể khôi phục tất cả về mặc định bằng nút reset.

Ví dụ: Tinh chỉnh Tăng cường dữ liệu cho các Dataset nhỏ

Đối với các dataset nhỏ (<1000 ảnh), hãy tăng cường dữ liệu để giảm overfitting:

mosaic: 1.0       # Keep mosaic on
mixup: 0.3        # Add mixup blending
copy_paste: 0.3   # Add copy-paste (segment only)
fliplr: 0.5       # Horizontal flip
degrees: 10.0     # Slight rotation
scale: 0.9        # Aggressive scaling

Bước 5: Chọn GPU (Tab Đám mây)

Chọn GPU của bạn từ Ultralytics Cloud:

Ultralytics Platform Training Dialog Gpu Selector And Cost

GPUThế hệVRAMChi phí/GiờTốt nhất cho
RTX 2000 AdaAda16 GB$0.24Dataset nhỏ, kiểm thử
RTX A4500Ampere20 GB$0.25Dataset nhỏ-trung bình
RTX 4000 AdaAda20 GB$0.26Dataset trung bình
RTX A5000Ampere24 GB$0.27Dataset trung bình
L4Ada24 GB$0.39Tối ưu cho Inference
A40Ampere48 GB$0.44Kích thước batch lớn hơn
RTX 3090Ampere24 GB$0.46Huấn luyện chung
RTX A6000Ampere48 GB$0.49Các model lớn
RTX PRO 4500Blackwell32 GB$0.64Giá/hiệu năng tuyệt vời
RTX 4090Ada24 GB$0.69Giá/hiệu năng tốt nhất
RTX 6000 AdaAda48 GB$0.77Huấn luyện theo lô lớn
L40SAda48 GB$0.86Huấn luyện theo lô lớn
RTX 5090Blackwell32 GB$0.99Thế hệ người dùng mới nhất
L40Ada48 GB$0.99Các model lớn
A100 PCIeAmpere80 GB$1.39Huấn luyện sản xuất
A100 SXMAmpere80 GB$1.49Huấn luyện sản xuất
RTX PRO 6000Blackwell96 GB$1.89Mặc định được đề xuất
H100 PCIeHopper80 GB$2.39Huấn luyện hiệu suất cao
H100 SXMHopper80 GB$2.99Huấn luyện nhanh nhất
H100 NVLHopper94 GB$3.07Hiệu suất tối đa
H200 NVLHopper143 GB$3.39Bộ nhớ tối đa
H200 SXMHopper141 GB$3.99Hiệu suất tối đa
B200Blackwell180 GB$5.49Các model lớn (Pro+)
B300Blackwell288 GB$7.39Các model lớn nhất (Pro+)
Lựa chọn GPU
  • RTX PRO 6000: 96 GB Blackwell, mặc định được khuyến nghị cho hầu hết các công việc
  • A100 SXM: 80 GB HBM2e — lựa chọn mạnh mẽ cho batch size lớn hoặc các model lớn hơn
  • H100 PCIe / H100 SXM / H100 NVL: 80–94 GB Hopper cho việc huấn luyện nhạy cảm với thời gian (có sẵn trên mọi gói)
  • H200 NVL / H200 SXM: 141–143 GB Hopper cho các khối lượng công việc đòi hỏi bộ nhớ cao (có sẵn trên mọi gói)
  • B200 / B300: 180–288 GB NVIDIA Blackwell cho các công việc tiên tiến — yêu cầu gói Pro hoặc Enterprise

Hộp thoại hiển thị số dư hiện tại và nút Top Up. Chi phí và thời gian dự kiến được tính toán dựa trên cấu hình của bạn (kích thước model, số lượng ảnh trong dataset, epochs, tốc độ GPU).

Bước 6: Bắt đầu Huấn luyện

Nhấp vào Start Training để khởi chạy công việc của bạn. Nền tảng sẽ:

  1. Cấp phát một instance GPU
  2. Tải xuống dataset của bạn
  3. Bắt đầu huấn luyện
  4. Truyền phát chỉ số theo thời gian thực

Vòng đời Công việc Huấn luyện

Các công việc huấn luyện sẽ tiến triển qua các trạng thái sau:

Trạng tháiMô tả
PendingCông việc đã được gửi, đang chờ cấp phát GPU
StartingGPU đã được cấp phát, đang tải xuống dataset và model
RunningĐang huấn luyện, các chỉ số đang được truyền phát theo thời gian thực
CompletedHuấn luyện đã hoàn thành thành công
FailedHuấn luyện thất bại (xem log console để biết chi tiết)
CancelledHuấn luyện đã bị hủy bởi người dùng
Tín dụng miễn phí

Tài khoản mới sẽ nhận được tín dụng đăng ký — 5 đô la cho email cá nhân và 25 đô la cho email công ty. Kiểm tra số dư của bạn trong Settings > Billing.

Ultralytics Platform Training Progress With Charts

Giám sát huấn luyện

Xem tiến trình huấn luyện thời gian thực trên tab Train của trang model:

Subtab Biểu đồ (Charts)

Ultralytics Platform Model Training Live Charts

Chỉ sốMô tả
LossLoss huấn luyện và validation
mAPMean Average Precision
PrecisionDự đoán dương tính chính xác
RecallGround truth đã được phát hiện

Tab phụ Console

Đầu ra console trực tiếp với hỗ trợ màu ANSI, thanh tiến trình và phát hiện lỗi.

Tab phụ System

Sử dụng GPU, bộ nhớ, nhiệt độ, CPU và mức sử dụng ổ đĩa theo thời gian thực.

Checkpoint

Sau khi quá trình huấn luyện hoàn tất, model tốt nhất (best.pt, checkpoint có mAP cao nhất) sẽ được tải lên nền tảng và sẵn sàng để tải xuống, xuất và triển khai.

Hủy huấn luyện

Nhấp vào Cancel Training trên trang model để dừng công việc đang chạy:

  • Instance tính toán bị chấm dứt
  • Tín dụng dừng bị tính phí
  • Checkpoint tốt nhất vẫn khả dụng nếu đã đạt được trước khi hủy

Huấn luyện từ xa

graph LR
    A[Local GPU] --> B[Train]
    B --> C[ultralytics Package]
    C --> D[Stream Metrics]
    D --> E[Platform Dashboard]

    style A fill:#FF9800,color:#fff
    style C fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Huấn luyện trên phần cứng của riêng bạn trong khi truyền tải các metric đến nền tảng.

Yêu cầu phiên bản gói

Việc tích hợp nền tảng yêu cầu ultralytics>=8.4.35. Các phiên bản thấp hơn sẽ KHÔNG hoạt động với nền tảng.

pip install -U ultralytics

Thiết lập API Key

  1. Đi tới Settings > API Keys
  2. Tạo một key mới (hoặc nền tảng sẽ tự động tạo một key khi bạn mở tab Local Training)
  3. Thiết lập biến môi trường:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"

Huấn luyện với Streaming

Sử dụng các tham số projectname để truyền tải các metric:

yolo train model=yolo26n.pt data=coco.yaml epochs=100 \
  project=username/my-project name=experiment-1

Tab Local Training trong hộp thoại huấn luyện hiển thị một lệnh được cấu hình sẵn cùng với API key, các tham số đã chọn và các đối số nâng cao đi kèm.

Sử dụng Datasets của Nền tảng

Huấn luyện với các dataset được lưu trữ trên nền tảng bằng định dạng URI ul://:

yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100 \
  project=username/my-project name=exp1

Định dạng URI ul:// sẽ tự động tải xuống và cấu hình dataset của bạn. Model sẽ được tự động liên kết với dataset trên nền tảng (xem Sử dụng Datasets của Nền tảng).

Thanh toán

Chi phí huấn luyện dựa trên mức sử dụng GPU:

Ước tính Chi phí

Trước khi huấn luyện bắt đầu, nền tảng ước tính tổng chi phí bằng cách:

  1. Ước tính giây mỗi epoch từ kích thước dataset, độ phức tạp của model, kích thước ảnh, batch size và tốc độ GPU
  2. Tính toán tổng thời gian huấn luyện bằng cách nhân giây mỗi epoch với số lượng epoch, sau đó cộng thêm chi phí khởi động
  3. Tính toán chi phí ước tính từ tổng số giờ huấn luyện nhân với giá theo giờ của GPU

Các yếu tố ảnh hưởng đến chi phí:

Yếu tốTác động
Kích thước DatasetNhiều ảnh hơn = thời gian huấn luyện lâu hơn (cơ sở: ~2.8 giây tính toán trên 1000 ảnh với RTX 4090)
Kích thước ModelCác model lớn hơn (m, l, x) huấn luyện chậm hơn so với (n, s)
Số lượng EpochHệ số nhân trực tiếp cho thời gian huấn luyện
Image Sizeimgsz lớn hơn làm tăng tính toán: 320px=0.25x, 640px=1.0x (cơ sở), 1280px=4.0x
Batch SizeBatch lớn hơn hiệu quả hơn (batch 32 = ~0.85x thời gian, batch 8 = ~1.2x thời gian so với cơ sở batch 16)
Tốc độ GPUGPU nhanh hơn giảm thời gian huấn luyện (ví dụ: H100 SXM = ~3.4x nhanh hơn RTX 4090)
Chi phí Khởi độngTối đa 5 phút cho khởi tạo instance, tải xuống dữ liệu và làm nóng (tỷ lệ thuận với kích thước dataset)

Ví dụ về Chi phí

Ước tính

Các ước tính chi phí chỉ mang tính tương đối và phụ thuộc vào nhiều yếu tố. Hộp thoại huấn luyện hiển thị ước tính thời gian thực trước khi bạn bắt đầu huấn luyện.

Kịch bảnGPUChi phí Ước tính
500 ảnh, YOLO26n, 50 epochRTX 4090~$0.50
1000 ảnh, YOLO26n, 100 epochRTX PRO 6000~$5
5000 ảnh, YOLO26s, 100 epochH100 SXM~$23

Quy trình Thanh toán

graph LR
    A[Estimate Cost] --> B[Balance Check]
    B --> C[Train]
    C --> D[Charge Actual Runtime]

    style A fill:#2196F3,color:#fff
    style B fill:#FF9800,color:#fff
    style C fill:#9C27B0,color:#fff
    style D fill:#4CAF50,color:#fff

Quy trình thanh toán huấn luyện trên đám mây:

  1. Ước tính: Chi phí được tính trước khi bắt đầu huấn luyện
  2. Kiểm tra Số dư: Tín dụng khả dụng được kiểm tra trước khi khởi chạy
  3. Huấn luyện: Công việc chạy trên nền tảng tính toán đã chọn
  4. Tính phí: Chi phí cuối cùng dựa trên thời gian chạy thực tế
Bảo vệ Người tiêu dùng

Hệ thống thanh toán theo dõi mức sử dụng tính toán thực tế, bao gồm cả các lượt chạy một phần đã bị hủy. Bạn không bao giờ bị tính phí cho các lượt huấn luyện thất bại.

Thanh toán theo Trạng thái Công việc

Trạng tháiĐã tính phí?
CompletedCó — thời gian GPU thực tế đã sử dụng
CancelledCó — thời gian GPU từ khi bắt đầu đến khi hủy
FailedKhông — các lượt chạy thất bại không bị tính phí
Bị treoMột phần — chỉ tính thời gian huấn luyện thực tế
Không Tính phí cho Lỗi

Nếu một lượt huấn luyện thất bại do lỗi cấu hình, sự cố hết bộ nhớ (OOM) hoặc bất kỳ lỗi nào khác, bạn không bị tính phí. Chỉ thời gian tính toán thành công mới được lập hóa đơn. Các công việc bị treo (không có hoạt động trong hơn 4 giờ) sẽ tự động bị chấm dứt và chỉ tính phí cho khoảng thời gian GPU thực sự đang huấn luyện, không phải thời gian nhàn rỗi.

Phương thức Thanh toán

Phương phápMô tả
Số dư Tài khoảnTín dụng đã nạp trước
Thanh toán theo Công việcTính phí khi hoàn thành công việc
Số dư Tối thiểu

Việc bắt đầu huấn luyện yêu cầu số dư khả dụng dương và đủ tín dụng cho chi phí ước tính của công việc.

Xem Chi phí Huấn luyện

Sau khi huấn luyện, xem chi phí chi tiết trong tab Billing:

  • Phân tích chi phí theo từng epoch
  • Tổng thời gian GPU
  • Tải xuống báo cáo chi phí

Chi tiết Thanh toán Huấn luyện trên Nền tảng Ultralytics

Mẹo Huấn luyện

Chọn Kích thước Model phù hợp

ModelTham sốTốt nhất cho
YOLO26n2.4MThời gian thực, thiết bị biên
YOLO26s9.5MCân bằng tốc độ/độ chính xác
YOLO26m20.4MĐộ chính xác cao hơn
YOLO26l24.8MĐộ chính xác cho sản xuất
YOLO26x55.7MĐộ chính xác tối đa

Tối ưu hóa Thời gian Huấn luyện

Chiến lược Tiết kiệm Chi phí
  1. Bắt đầu nhỏ: Kiểm tra với 10-20 epoch trên GPU ngân sách để xác minh dataset và cấu hình của bạn hoạt động ổn định
  2. Sử dụng GPU phù hợp: RTX PRO 6000 xử lý tốt hầu hết các khối lượng công việc
  3. Xác thực tập dữ liệu: Khắc phục các vấn đề về gán nhãn trước khi chi phí cho việc huấn luyện
  4. Giám sát sớm: Hủy huấn luyện nếu loss đi ngang — bạn chỉ trả phí cho thời gian tính toán thực tế

Khắc phục sự cố

Vấn đềGiải pháp
Huấn luyện bị kẹt ở 0%Kiểm tra định dạng tập dữ liệu, thử lại
Hết bộ nhớGiảm kích thước batch hoặc sử dụng GPU lớn hơn
Độ chính xác kémTăng số epoch, kiểm tra chất lượng dữ liệu
Huấn luyện chậmCân nhắc sử dụng GPU nhanh hơn
Lỗi không khớp tác vụĐảm bảo model và các tác vụ tập dữ liệu khớp nhau

Câu hỏi thường gặp (FAQ)

Huấn luyện mất bao lâu?

Thời gian huấn luyện phụ thuộc vào:

  • Kích thước tập dữ liệu
  • Kích thước model
  • Số lượng epoch
  • GPU đã chọn

Thời gian điển hình (1000 ảnh, 100 epoch):

ModelRTX PRO 6000A100 SXM
YOLO26n~20 phút~15 phút
YOLO26m~40 phút~30 phút
YOLO26x~80 phút~60 phút
Thời gian ước tính

Thời gian huấn luyện là ước tính và thay đổi tùy theo độ phức tạp của tập dữ liệu, các cài đặt augmentation và kích thước batch. Hãy sử dụng ước tính chi phí trong hộp thoại huấn luyện để có dự đoán chính xác hơn.

Tôi có thể huấn luyện qua đêm không?

Có, quá trình huấn luyện sẽ tiếp tục cho đến khi hoàn tất. Bạn sẽ nhận được thông báo khi quá trình huấn luyện kết thúc. Hãy đảm bảo tài khoản của bạn có đủ số dư cho việc huấn luyện theo epoch.

Điều gì xảy ra nếu tôi hết tín dụng?

Nếu số dư tín dụng của bạn bằng 0 trong quá trình huấn luyện, quá trình huấn luyện vẫn tiếp tục cho đến khi hoàn tất và số dư của bạn sẽ trở thành âm. Điều này đảm bảo tác vụ huấn luyện của bạn không bao giờ bị gián đoạn giữa chừng.

Sau khi huấn luyện hoàn tất, bạn sẽ cần nạp thêm tín dụng để đưa số dư về mức dương trước khi bắt đầu các tác vụ huấn luyện mới. Model đã hoàn thiện, các checkpoint và tất cả các artifact huấn luyện đều được bảo toàn đầy đủ bất kể số dư.

Số dư âm

Số dư âm chỉ ngăn cản việc bắt đầu các tác vụ huấn luyện mới. Các deployment hiện có và các tính năng khác của nền tảng vẫn hoạt động bình thường. Nạp thêm tín dụng qua Settings > Billing hoặc bật auto top-up để tránh gián đoạn.

Điều gì xảy ra nếu chi phí huấn luyện của tôi cao hơn ước tính?

Ước tính chi phí chỉ mang tính tương đối — thời gian huấn luyện thực tế có thể thay đổi do các yếu tố như tốc độ tải dữ liệu, thời gian khởi động GPU và hành vi hội tụ của model. Nếu chi phí thực tế vượt quá ước tính, số dư của bạn có thể trở thành âm (xem ở trên). Nền tảng không dừng huấn luyện dựa trên ước tính này.

Để quản lý chi phí:

  • Theo dõi tiến trình huấn luyện theo thời gian thực và hủy sớm nếu cần
  • Bật auto top-up để tự động nạp lại tín dụng
  • Bắt đầu với các lượt chạy ngắn hơn (ít epoch hơn) để hiệu chỉnh kỳ vọng

Tôi có thể sử dụng các đối số huấn luyện tùy chỉnh không?

Có, hãy mở rộng phần Advanced Settings trong hộp thoại huấn luyện để truy cập trình soạn thảo YAML với hơn 40 tham số có thể cấu hình. Các giá trị không mặc định sẽ được bao gồm trong cả lệnh huấn luyện trên đám mây và cục bộ.

Trình soạn thảo YAML cũng hỗ trợ nhập cấu hình từ các lượt huấn luyện trước đó:

  • Sao chép từ model hiện có: Trên trang của bất kỳ model nào đã hoàn tất, thẻ Cấu hình Huấn luyện có nút Copy as JSON. Hãy sao chép JSON và dán trực tiếp vào trình soạn thảo YAML — nó sẽ tự động phát hiện định dạng JSON và nhập tất cả các tham số.
  • Dán YAML hoặc JSON: Dán bất kỳ cấu hình huấn luyện YAML hoặc JSON hợp lệ nào vào trình soạn thảo. Các tham số được xác thực tự động, với các giá trị ngoài phạm vi được cắt bớt và hiển thị cảnh báo.
  • Kéo và thả tệp: Kéo trực tiếp tệp .yaml hoặc .json vào trình soạn thảo để nhập các tham số của nó.

Ultralytics Platform Training Dialog Copy Training Config JSON

Điều này giúp bạn dễ dàng tái tạo hoặc lặp lại trên các cấu hình huấn luyện trước đó mà không cần nhập thủ công từng tham số.

Tôi có thể huấn luyện từ một trang tập dữ liệu không?

Có, nút Train trên các trang tập dữ liệu sẽ mở hộp thoại huấn luyện với tập dữ liệu đã được chọn trước và khóa lại. Sau đó, bạn chọn project và model để bắt đầu huấn luyện.

Tham chiếu tham số huấn luyện

Tham sốKiểuMặc địnhPhạm viMô tả
epochsint1001-10000Số lượng epoch huấn luyện
batchint-1 (tự động)-1 đến 512Kích thước batch (-1 = tự động khớp với VRAM khả dụng)
imgszint64032-4096Kích thước ảnh đầu vào
patienceint1001-1000Số epoch kiên nhẫn để dừng sớm
seedint00-2147483647Seed ngẫu nhiên để tái lập
deterministicboolTrue-Chế độ huấn luyện xác định
ampboolTrue-Độ chính xác hỗn hợp tự động (Automatic mixed precision)
close_mosaicint100-50Tắt mosaic trong N epoch cuối cùng
save_periodint-1-1-100Lưu checkpoint mỗi N epoch
workersint80-64Số lượng worker nạp dữ liệu
cacheselectfalseram/disk/falseCache ảnh
Tham số theo tác vụ

Một số tham số chỉ áp dụng cho các tác vụ cụ thể:

  • Chỉ dành cho các tác vụ Detection (detect, segment, pose, OBB — không bao gồm classify): box, dfl, degrees, translate, shear, perspective, mosaic, mixup, close_mosaic
  • Chỉ dành cho Segment: copy_paste
  • Chỉ dành cho Pose: pose (trọng số hàm mất mát), kobj (keypoint objectness)

Bình luận