Triển khai

Ultralytics Platform cung cấp các tùy chọn triển khai toàn diện để đưa các model YOLO của bạn vào môi trường production. Hãy thử nghiệm các model với tính năng inference trên trình duyệt, triển khai đến các endpoint chuyên dụng trên 43 khu vực toàn cầu và theo dõi hiệu năng theo thời gian thực.



Watch: Get Started with Ultralytics Platform - Deploy

Tổng quan

Phần Deployment giúp bạn:

  • Kiểm thử các model trực tiếp trên trình duyệt với tab Predict
  • Triển khai đến các endpoint chuyên dụng tại 43 khu vực toàn cầu
  • Giám sát các chỉ số request, log và kiểm tra trạng thái sức khỏe
  • Scale to zero khi nhàn rỗi (các bản triển khai hiện chạy một instance hoạt động duy nhất)

Bản đồ thế giới trang Deploy của Ultralytics Platform với thẻ tổng quan

Các tùy chọn triển khai

Ultralytics Platform cung cấp nhiều lộ trình triển khai:

Tùy chọnMô tảPhù hợp nhất cho
Tab PredictInference dựa trên trình duyệt với hình ảnh, webcam và các ví dụPhát triển, xác thực
Shared InferenceDịch vụ đa người dùng (multi-tenant) trên 3 khu vựcSử dụng nhẹ, kiểm thử
Dedicated EndpointsCác dịch vụ đơn người dùng (single-tenant) trên 43 khu vựcProduction, độ trễ thấp

Quy trình làm việc

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
Giai đoạnMô tả
TestXác thực model bằng tab Predict
Cấu hìnhChọn khu vực và tên triển khai (các bản triển khai sử dụng tài nguyên mặc định cố định)
Triển khaiTạo một endpoint chuyên dụng từ tab Deploy
Giám sátTheo dõi các request, độ trễ, lỗi và log trong phần Monitoring

Kiến trúc

Shared Inference

Dịch vụ shared inference chạy tại 3 khu vực chính, tự động định tuyến các request dựa trên khu vực dữ liệu của bạn:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegionVị trí
USIowa, Hoa Kỳ
EUBỉ, Châu Âu
APĐài Loan, Châu Á - Thái Bình Dương

Dedicated Endpoints

Triển khai đến 43 khu vực trên toàn thế giới trên Ultralytics Cloud:

  • Châu Mỹ: 14 khu vực
  • Châu Âu: 13 khu vực
  • Châu Á - Thái Bình Dương: 12 khu vực
  • Trung Đông & Châu Phi: 4 khu vực

Mỗi endpoint là một dịch vụ single-tenant với:

  • Tài nguyên mặc định là 1 CPU, 2 GiB RAM, minInstances=0, maxInstances=1
  • Scale-to-zero khi nhàn rỗi
  • URL endpoint duy nhất
  • Giám sát, log và kiểm tra trạng thái sức khỏe độc lập

Trang Deployments

Truy cập trang deployments toàn cầu từ thanh sidebar trong mục Deploy. Trang này hiển thị:

  • Bản đồ thế giới với các ghim khu vực đã triển khai (bản đồ tương tác)
  • Thẻ tổng quan: Tổng số Request (24h), Deployments đang hoạt động, Tỷ lệ lỗi (24h), Độ trễ P95 (24h)
  • Danh sách deployments với ba chế độ xem: thẻ, thu gọn và bảng
  • Nút New Deployment để tạo các endpoint từ bất kỳ model nào đã hoàn tất

Ảnh thẻ tổng quan và danh sách deployments trên trang Deploy của Ultralytics Platform

Tự động lấy dữ liệu (Automatic Polling)

Trang này mặc định lấy dữ liệu mỗi 15 giây. Khi các deployments ở trạng thái chuyển tiếp (creating, deploying hoặc stopping), tần suất lấy dữ liệu tăng lên mỗi 3 giây để có phản hồi nhanh hơn.

Các tính năng chính

Phạm vi phủ sóng toàn cầu

Triển khai gần với người dùng của bạn với 43 khu vực bao gồm:

  • Bắc Mỹ, Nam Mỹ
  • Châu Âu, Trung Đông, Châu Phi
  • Châu Á - Thái Bình Dương, Châu Đại Dương

Hành vi Scaling

Các endpoint hiện tại hoạt động như sau:

  • Scale to zero: Không mất phí khi nhàn rỗi (mặc định)
  • Single active instance: maxInstances hiện tại được giới hạn ở 1 trên tất cả các gói
Tiết kiệm chi phí

Scale-to-zero được bật mặc định (min instances = 0). Bạn chỉ trả phí cho thời gian inference thực tế.

Độ trễ thấp

Các dedicated endpoint cung cấp:

  • Cold start: ~5-15 giây (container đã cache), tối đa ~45 giây (triển khai lần đầu)
  • Warm inference: 50-200ms (tùy thuộc vào model)
  • Định tuyến theo khu vực để đạt hiệu năng tối ưu

Kiểm tra sức khỏe (Health Checks)

Mỗi bản triển khai đang chạy bao gồm tính năng tự động kiểm tra sức khỏe với:

  • Chỉ báo trạng thái trực tiếp (healthy/unhealthy)
  • Hiển thị độ trễ phản hồi
  • Tự động thử lại khi trạng thái unhealthy (kiểm tra mỗi 20 giây)
  • Nút làm mới thủ công

Bắt đầu nhanh

Triển khai một model trong vòng chưa đầy 2 phút:

  1. Huấn luyện hoặc upload một model vào project
  2. Đi tới tab Deploy của model
  3. Chọn một khu vực từ bảng độ trễ
  4. Nhấp Deploy — endpoint của bạn đã sẵn sàng
Triển khai nhanh (Quick Deploy)
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Sau khi triển khai, hãy sử dụng URL endpoint cùng với API key của bạn để gửi các request inference từ bất kỳ ứng dụng nào.

Liên kết nhanh

  • Inference: Kiểm thử các model trên trình duyệt
  • Endpoints: Triển khai các dedicated endpoint
  • Monitoring: Theo dõi hiệu năng triển khai

Câu hỏi thường gặp (FAQ)

Sự khác biệt giữa shared và dedicated inference là gì?

Tính năngSharedDành riêng
Độ trễBiến độngNhất quán
Chi phíMiễn phí (đã bao gồm)Miễn phí (cơ bản), tính theo mức sử dụng (nâng cao)
ScaleCó giới hạnScale-to-zero, single instance
Khu vực343
URLDùng chungTùy chỉnh
Tốc độ20 req/phútKhông giới hạn

Việc triển khai mất bao lâu?

Triển khai dedicated endpoint thường mất 1-2 phút:

  1. Tải image (~30s)
  2. Khởi động container (~30s)
  3. Kiểm tra sức khỏe (~30s)

Tôi có thể triển khai nhiều model không?

Có, mỗi model có thể có nhiều endpoint ở các khu vực khác nhau. Số lượng triển khai bị giới hạn theo gói: Free 3, Pro 10, Enterprise unlimited.

Điều gì xảy ra khi một endpoint ở trạng thái nhàn rỗi (idle)?

Khi tính năng scale-to-zero được bật:

  • Endpoint sẽ tự động giảm quy mô sau khi không hoạt động
  • Yêu cầu đầu tiên sẽ kích hoạt khởi động nguội (cold start)
  • Các yêu cầu tiếp theo sẽ được xử lý nhanh chóng

Các yêu cầu đầu tiên sau một khoảng thời gian nhàn rỗi sẽ kích hoạt khởi động nguội.

Bình luận