Meet YOLO26: next-gen vision AI.

Link to this sectionTriển khai#

Ultralytics Platform cung cấp các tùy chọn triển khai toàn diện để đưa các model YOLO của bạn vào môi trường production. Kiểm tra các model với tính năng inference trên trình duyệt, triển khai đến các endpoint chuyên dụng trên 43 khu vực toàn cầu và theo dõi hiệu năng theo thời gian thực.



Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionTổng quan#

Phần Triển khai giúp bạn:

  • Kiểm tra model trực tiếp trên trình duyệt bằng tab Predict
  • Triển khai đến các endpoint chuyên dụng tại 43 khu vực toàn cầu
  • Theo dõi các chỉ số yêu cầu, nhật ký (logs) và các kiểm tra tình trạng (health checks)
  • Scale to zero khi nhàn rỗi (các deployment hiện tại chạy một instance hoạt động duy nhất)

Bản đồ thế giới trang Deploy của Ultralytics Platform với các thẻ tổng quan

Link to this sectionCác tùy chọn triển khai#

Ultralytics Platform cung cấp nhiều đường lối triển khai:

Tùy chọnMô tảPhù hợp nhất cho
Tab PredictInference trên trình duyệt với hình ảnh, webcam và các ví dụPhát triển, xác thực
Shared InferenceDịch vụ đa người dùng trên 3 khu vựcSử dụng nhẹ, kiểm thử
Dedicated EndpointsDịch vụ đơn người dùng trên 43 khu vựcProduction, độ trễ thấp

Link to this sectionQuy trình làm việc#

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
Giai đoạnMô tả
TestXác thực model với tab Predict
Cấu hìnhChọn khu vực và tên deployment (các deployment sử dụng tài nguyên mặc định cố định)
Triển khaiTạo một endpoint chuyên dụng từ tab Deploy
Theo dõiTheo dõi các yêu cầu, độ trễ, lỗi và nhật ký trong phần Monitoring

Link to this sectionKiến trúc#

Link to this sectionShared Inference#

Dịch vụ shared inference chạy tại 3 khu vực chính, tự động định tuyến các yêu cầu dựa trên khu vực dữ liệu của bạn:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
Khu vựcVị trí
USIowa, Mỹ
EUBỉ, Châu Âu
APĐài Loan, Châu Á - Thái Bình Dương

Link to this sectionDedicated Endpoints#

Triển khai tới 43 khu vực trên toàn thế giới trên Ultralytics Cloud:

  • Châu Mỹ: 14 khu vực
  • Châu Âu: 13 khu vực
  • Châu Á-Thái Bình Dương: 12 khu vực
  • Trung Đông & Châu Phi: 4 khu vực

Mỗi endpoint là một dịch vụ đơn người dùng với:

  • Tài nguyên mặc định gồm 1 CPU, 2 GiB bộ nhớ, minInstances=0, maxInstances=1
  • Scale-to-zero khi nhàn rỗi
  • URL endpoint duy nhất
  • Theo dõi, nhật ký và kiểm tra tình trạng độc lập

Link to this sectionTrang Deployments#

Truy cập trang triển khai toàn cầu từ thanh bên dưới mục Deploy. Trang này hiển thị:

  • Bản đồ thế giới với các ghim khu vực đã triển khai (bản đồ tương tác)
  • Thẻ tổng quan: Tổng yêu cầu (24h), Deployment đang hoạt động, Tỷ lệ lỗi (24h), Độ trễ P95 (24h)
  • Danh sách deployment với ba chế độ xem: thẻ, thu gọn và bảng
  • Nút New Deployment để tạo các endpoint từ bất kỳ model nào đã hoàn tất

Thẻ tổng quan trang Deploy và danh sách deployment của Ultralytics Platform

Tự động truy vấn (Polling)

Trang này truy vấn mỗi 15 giây trong điều kiện bình thường. Khi các deployment ở trạng thái chuyển tiếp (creating, deploying hoặc stopping), tần suất truy vấn tăng lên mỗi 3 giây để có phản hồi nhanh hơn.

Link to this sectionTính năng chính#

Link to this sectionPhạm vi toàn cầu#

Triển khai gần với người dùng của bạn với 43 khu vực bao gồm:

  • Bắc Mỹ, Nam Mỹ
  • Châu Âu, Trung Đông, Châu Phi
  • Châu Á Thái Bình Dương, Châu Đại Dương

Link to this sectionHành vi mở rộng (Scaling)#

Các endpoint hiện tại hoạt động như sau:

  • Scale to zero: Không mất phí khi nhàn rỗi (mặc định)
  • Một instance hoạt động duy nhất: maxInstances hiện bị giới hạn ở 1 trên tất cả các gói
Tiết kiệm chi phí

Scale-to-zero được bật theo mặc định (số lượng instance tối thiểu = 0). Bạn chỉ trả tiền cho thời gian inference thực tế.

Link to this sectionĐộ trễ thấp#

Các endpoint chuyên dụng cung cấp:

  • Khởi động lạnh (Cold start): ~5-15 giây (container đã cache), lên tới ~45 giây (triển khai lần đầu)
  • Inference nóng (Warm inference): 50-200ms (tùy thuộc vào model)
  • Định tuyến khu vực để đạt hiệu năng tối ưu

Link to this sectionKiểm tra tình trạng (Health Checks)#

Mỗi deployment đang chạy bao gồm kiểm tra tình trạng tự động với:

  • Chỉ báo trạng thái trực tiếp (khỏe mạnh/không khỏe mạnh)
  • Hiển thị độ trễ phản hồi
  • Tự động thử lại khi không khỏe mạnh (truy vấn mỗi 20 giây)
  • Nút làm mới thủ công

Link to this sectionBắt đầu nhanh#

Triển khai một model dưới 2 phút:

  1. Huấn luyện hoặc tải lên một model vào dự án
  2. Đi đến tab Deploy của model
  3. Chọn một khu vực từ bảng độ trễ
  4. Nhấp Deploy — endpoint của bạn đã sẵn sàng hoạt động
Triển khai nhanh
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Sau khi triển khai, hãy sử dụng URL endpoint cùng với API key của bạn để gửi các yêu cầu inference từ bất kỳ ứng dụng nào.

Link to this sectionLiên kết nhanh#

  • Inference: Kiểm tra các model trên trình duyệt
  • Endpoints: Triển khai các endpoint chuyên dụng
  • Monitoring: Theo dõi hiệu năng triển khai

Link to this sectionCâu hỏi thường gặp#

Link to this sectionSự khác biệt giữa shared và dedicated inference là gì?#

Tính năngSharedDedicated
Độ trễBiến độngNhất quán
Chi phíMiễn phí (đã bao gồm)Miễn phí (cơ bản), theo mức sử dụng (nâng cao)
Quy môGiới hạnScale-to-zero, một instance duy nhất
Khu vực343
URLChungTùy chỉnh
Tốc độ20 yêu cầu/phút20 yêu cầu/phút qua Nền tảng; không giới hạn trên URL endpoint trực tiếp

Link to this sectionViệc triển khai mất bao lâu?#

Triển khai endpoint chuyên dụng thường mất 1-2 phút:

  1. Kéo image (~30 giây)
  2. Khởi động container (~30 giây)
  3. Kiểm tra trạng thái (health check) (~30 giây)

Link to this sectionTôi có thể triển khai nhiều model không?#

Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.

Link to this sectionĐiều gì xảy ra khi một endpoint ở trạng thái nhàn rỗi (idle)?#

Khi bật tính năng scale-to-zero:

  • Endpoint tự động giảm quy mô sau khi không hoạt động
  • Yêu cầu đầu tiên sẽ kích hoạt khởi động lạnh (cold start)
  • Các yêu cầu tiếp theo sẽ diễn ra nhanh chóng

Các yêu cầu đầu tiên sau một khoảng thời gian nhàn rỗi sẽ kích hoạt khởi động lạnh.

Bình luận