Link to this sectionTriển khai#

Ultralytics Platform cung cấp các tùy chọn triển khai model toàn diện để đưa các model YOLO của bạn vào môi trường production. Kiểm thử model với tính năng suy luận trên trình duyệt, triển khai đến các endpoint chuyên dụng tại 42 khu vực toàn cầu và giám sát hiệu suất theo thời gian thực.

Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionTổng quan#

Phần Triển khai giúp bạn:

Kiểm tra model trực tiếp trên trình duyệt bằng tab Predict
Triển khai tới các endpoint chuyên dụng tại 42 khu vực toàn cầu
Theo dõi các chỉ số yêu cầu, nhật ký (logs) và các kiểm tra tình trạng (health checks)
Scale to zero khi nhàn rỗi (các deployment hiện tại chạy một instance hoạt động duy nhất)

Bản đồ thế giới trang Deploy của Ultralytics Platform với các thẻ tổng quan

Link to this sectionCác tùy chọn triển khai#

Ultralytics Platform cung cấp nhiều đường lối triển khai:

Tùy chọn	Mô tả	Phù hợp nhất cho
Tab Predict	Inference trên trình duyệt với hình ảnh, webcam và các ví dụ	Phát triển, xác thực
Shared Inference	Dịch vụ đa người dùng trên 3 khu vực	Sử dụng nhẹ, kiểm thử
Dedicated Endpoints	Các dịch vụ single-tenant trên 42 khu vực	Production, độ trễ thấp

Link to this sectionQuy trình làm việc#

graph LR
    A[✅ Test]:::start --> B[⚙️ Configure]:::proc
    B --> C[🌐 Deploy]:::proc
    C --> D[📊 Monitor]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef out fill:#9C27B0,color:#fff

Giai đoạn	Mô tả
Test	Xác thực model với tab `Predict`
Cấu hình	Chọn khu vực và tên deployment (các deployment sử dụng tài nguyên mặc định cố định)
Triển khai	Tạo một endpoint chuyên dụng từ tab `Deploy`
Theo dõi	Theo dõi các yêu cầu, độ trễ, lỗi và nhật ký trong phần Monitoring

Link to this sectionKiến trúc#

Link to this sectionShared Inference#

Dịch vụ shared inference chạy tại 3 khu vực chính, tự động định tuyến các yêu cầu dựa trên khu vực dữ liệu của bạn:

graph TB
    User[User Request]:::start --> API[Platform API]:::proc
    API --> Router{Region Router}:::decide
    Router -->|US users| US["US Predict Service<br/>Iowa"]:::out
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]:::out
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef decide fill:#FF9800,color:#fff
    classDef out fill:#9C27B0,color:#fff

Khu vực	Vị trí
US	Iowa, Mỹ
EU	Bỉ, Châu Âu
AP	Đài Loan, Châu Á - Thái Bình Dương

Link to this sectionDedicated Endpoints#

Triển khai tới 42 khu vực trên toàn thế giới thông qua Ultralytics Cloud:

Châu Mỹ: 14 khu vực
Châu Âu: 13 khu vực
Châu Á-Thái Bình Dương: 12 khu vực
Trung Đông & Châu Phi: 3 khu vực

Mỗi endpoint là một dịch vụ đơn người dùng với:

Tài nguyên mặc định gồm 1 CPU, 2 GiB bộ nhớ, minInstances=0, maxInstances=1
Scale-to-zero khi nhàn rỗi
URL endpoint duy nhất
Theo dõi, nhật ký và kiểm tra tình trạng độc lập

Link to this sectionTrang Deployments#

Truy cập trang triển khai toàn cầu từ thanh bên dưới mục Deploy. Trang này hiển thị:

Bản đồ thế giới với các ghim khu vực đã triển khai (bản đồ tương tác)
Thẻ tổng quan: Tổng yêu cầu (24h), Deployment đang hoạt động, Tỷ lệ lỗi (24h), Độ trễ P95 (24h)
Danh sách deployment với ba chế độ xem: thẻ, thu gọn và bảng
Nút New Deployment để tạo các endpoint từ bất kỳ model nào đã hoàn tất

Thẻ tổng quan trang Deploy và danh sách deployment của Ultralytics Platform

Tự động truy vấn (Polling)

Trang này truy vấn mỗi 15 giây trong điều kiện bình thường. Khi các deployment ở trạng thái chuyển tiếp (creating, deploying hoặc stopping), tần suất truy vấn tăng lên mỗi 3 giây để có phản hồi nhanh hơn.

Link to this sectionTính năng chính#

Link to this sectionPhạm vi toàn cầu#

Triển khai gần với người dùng của bạn với 42 khu vực bao phủ:

Bắc Mỹ, Nam Mỹ
Châu Âu, Trung Đông, Châu Phi
Châu Á Thái Bình Dương, Châu Đại Dương

Link to this sectionHành vi mở rộng (Scaling)#

Các endpoint hiện tại hoạt động như sau:

Scale to zero: Không mất phí khi nhàn rỗi (mặc định)
Một instance hoạt động duy nhất: maxInstances hiện bị giới hạn ở 1 trên tất cả các gói

Tiết kiệm chi phí

Scale-to-zero được bật theo mặc định (số lượng instance tối thiểu = 0). Bạn chỉ trả tiền cho thời gian inference thực tế.

Link to this sectionĐộ trễ thấp#

Các endpoint chuyên dụng cung cấp:

Khởi động lạnh (Cold start): ~5-15 giây (container đã cache), lên tới ~45 giây (triển khai lần đầu)
Inference nóng (Warm inference): 50-200ms (tùy thuộc vào model)
Định tuyến khu vực để đạt hiệu năng tối ưu

Link to this sectionKiểm tra tình trạng (Health Checks)#

Mỗi deployment đang chạy bao gồm kiểm tra tình trạng tự động với:

Chỉ báo trạng thái trực tiếp (khỏe mạnh/không khỏe mạnh)
Hiển thị độ trễ phản hồi
Tự động thử lại khi không khỏe mạnh (truy vấn mỗi 20 giây)
Nút làm mới thủ công

Link to this sectionBắt đầu nhanh#

Triển khai một model dưới 2 phút:

Huấn luyện hoặc tải lên một model vào dự án
Đi đến tab Deploy của model
Chọn một khu vực từ bảng độ trễ
Nhấp Deploy — endpoint của bạn đã sẵn sàng hoạt động

Triển khai nhanh

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Sau khi triển khai, hãy sử dụng URL endpoint cùng với API key của bạn để gửi các yêu cầu inference từ bất kỳ ứng dụng nào.

Link to this sectionLiên kết nhanh#

Inference: Kiểm tra các model trên trình duyệt
Endpoints: Triển khai các endpoint chuyên dụng
Monitoring: Theo dõi hiệu năng triển khai

Link to this sectionCâu hỏi thường gặp#

Link to this sectionSự khác biệt giữa shared và dedicated inference là gì?#

Tính năng	Shared	Dedicated
Độ trễ	Biến động	Nhất quán
Chi phí	Miễn phí (đã bao gồm)	Miễn phí (cơ bản), theo mức sử dụng (nâng cao)
Quy mô	Giới hạn	Scale-to-zero, một instance duy nhất
Khu vực	3	42
URL	Chung	Tùy chỉnh
Tốc độ	20 yêu cầu/phút	20 yêu cầu/phút qua Nền tảng; không giới hạn trên URL endpoint trực tiếp

Link to this sectionViệc triển khai mất bao lâu?#

Triển khai endpoint chuyên dụng thường mất 1-2 phút:

Kéo image (~30 giây)
Khởi động container (~30 giây)
Kiểm tra trạng thái (health check) (~30 giây)

Link to this sectionTôi có thể triển khai nhiều model không?#

Có, mỗi model có thể có nhiều endpoint tại các vùng khác nhau. Số lượng triển khai được giới hạn theo gói: Free 3, Pro 10, Enterprise unlimited.

Link to this sectionĐiều gì xảy ra khi một endpoint ở trạng thái nhàn rỗi (idle)?#

Khi bật tính năng scale-to-zero:

Endpoint tự động giảm quy mô sau khi không hoạt động
Yêu cầu đầu tiên sẽ kích hoạt khởi động lạnh (cold start)
Các yêu cầu tiếp theo sẽ diễn ra nhanh chóng

Các yêu cầu đầu tiên sau một khoảng thời gian nhàn rỗi sẽ kích hoạt khởi động lạnh.

Người đóng góp

GLglenn-jocher¹⁵ RAraimbekovm¹ RIRizwanMunawar¹ SEsergiuwaxmann¹

Đã tạo 14 thg 1, 2026Đã cập nhật 5 giờ trước