Link to this sectionTriển khai#
Ultralytics Platform cung cấp các tùy chọn triển khai toàn diện để đưa các model YOLO của bạn vào môi trường production. Kiểm tra các model với tính năng inference trên trình duyệt, triển khai đến các endpoint chuyên dụng trên 43 khu vực toàn cầu và theo dõi hiệu năng theo thời gian thực.
Watch: Get Started with Ultralytics Platform - Deploy
Link to this sectionTổng quan#
Phần Triển khai giúp bạn:
- Kiểm tra model trực tiếp trên trình duyệt bằng tab
Predict - Triển khai đến các endpoint chuyên dụng tại 43 khu vực toàn cầu
- Theo dõi các chỉ số yêu cầu, nhật ký (logs) và các kiểm tra tình trạng (health checks)
- Scale to zero khi nhàn rỗi (các deployment hiện tại chạy một instance hoạt động duy nhất)

Link to this sectionCác tùy chọn triển khai#
Ultralytics Platform cung cấp nhiều đường lối triển khai:
| Tùy chọn | Mô tả | Phù hợp nhất cho |
|---|---|---|
| Tab Predict | Inference trên trình duyệt với hình ảnh, webcam và các ví dụ | Phát triển, xác thực |
| Shared Inference | Dịch vụ đa người dùng trên 3 khu vực | Sử dụng nhẹ, kiểm thử |
| Dedicated Endpoints | Dịch vụ đơn người dùng trên 43 khu vực | Production, độ trễ thấp |
Link to this sectionQuy trình làm việc#
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Giai đoạn | Mô tả |
|---|---|
| Test | Xác thực model với tab Predict |
| Cấu hình | Chọn khu vực và tên deployment (các deployment sử dụng tài nguyên mặc định cố định) |
| Triển khai | Tạo một endpoint chuyên dụng từ tab Deploy |
| Theo dõi | Theo dõi các yêu cầu, độ trễ, lỗi và nhật ký trong phần Monitoring |
Link to this sectionKiến trúc#
Link to this sectionShared Inference#
Dịch vụ shared inference chạy tại 3 khu vực chính, tự động định tuyến các yêu cầu dựa trên khu vực dữ liệu của bạn:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Khu vực | Vị trí |
|---|---|
| US | Iowa, Mỹ |
| EU | Bỉ, Châu Âu |
| AP | Đài Loan, Châu Á - Thái Bình Dương |
Link to this sectionDedicated Endpoints#
Triển khai tới 43 khu vực trên toàn thế giới trên Ultralytics Cloud:
- Châu Mỹ: 14 khu vực
- Châu Âu: 13 khu vực
- Châu Á-Thái Bình Dương: 12 khu vực
- Trung Đông & Châu Phi: 4 khu vực
Mỗi endpoint là một dịch vụ đơn người dùng với:
- Tài nguyên mặc định gồm
1 CPU,2 GiBbộ nhớ,minInstances=0,maxInstances=1 - Scale-to-zero khi nhàn rỗi
- URL endpoint duy nhất
- Theo dõi, nhật ký và kiểm tra tình trạng độc lập
Link to this sectionTrang Deployments#
Truy cập trang triển khai toàn cầu từ thanh bên dưới mục Deploy. Trang này hiển thị:
- Bản đồ thế giới với các ghim khu vực đã triển khai (bản đồ tương tác)
- Thẻ tổng quan: Tổng yêu cầu (24h), Deployment đang hoạt động, Tỷ lệ lỗi (24h), Độ trễ P95 (24h)
- Danh sách deployment với ba chế độ xem: thẻ, thu gọn và bảng
- Nút New Deployment để tạo các endpoint từ bất kỳ model nào đã hoàn tất

Trang này truy vấn mỗi 15 giây trong điều kiện bình thường. Khi các deployment ở trạng thái chuyển tiếp (creating, deploying hoặc stopping), tần suất truy vấn tăng lên mỗi 3 giây để có phản hồi nhanh hơn.
Link to this sectionTính năng chính#
Link to this sectionPhạm vi toàn cầu#
Triển khai gần với người dùng của bạn với 43 khu vực bao gồm:
- Bắc Mỹ, Nam Mỹ
- Châu Âu, Trung Đông, Châu Phi
- Châu Á Thái Bình Dương, Châu Đại Dương
Link to this sectionHành vi mở rộng (Scaling)#
Các endpoint hiện tại hoạt động như sau:
- Scale to zero: Không mất phí khi nhàn rỗi (mặc định)
- Một instance hoạt động duy nhất:
maxInstanceshiện bị giới hạn ở1trên tất cả các gói
Scale-to-zero được bật theo mặc định (số lượng instance tối thiểu = 0). Bạn chỉ trả tiền cho thời gian inference thực tế.
Link to this sectionĐộ trễ thấp#
Các endpoint chuyên dụng cung cấp:
- Khởi động lạnh (Cold start): ~5-15 giây (container đã cache), lên tới ~45 giây (triển khai lần đầu)
- Inference nóng (Warm inference): 50-200ms (tùy thuộc vào model)
- Định tuyến khu vực để đạt hiệu năng tối ưu
Link to this sectionKiểm tra tình trạng (Health Checks)#
Mỗi deployment đang chạy bao gồm kiểm tra tình trạng tự động với:
- Chỉ báo trạng thái trực tiếp (khỏe mạnh/không khỏe mạnh)
- Hiển thị độ trễ phản hồi
- Tự động thử lại khi không khỏe mạnh (truy vấn mỗi 20 giây)
- Nút làm mới thủ công
Link to this sectionBắt đầu nhanh#
Triển khai một model dưới 2 phút:
- Huấn luyện hoặc tải lên một model vào dự án
- Đi đến tab Deploy của model
- Chọn một khu vực từ bảng độ trễ
- Nhấp Deploy — endpoint của bạn đã sẵn sàng hoạt động
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Sau khi triển khai, hãy sử dụng URL endpoint cùng với API key của bạn để gửi các yêu cầu inference từ bất kỳ ứng dụng nào.
Link to this sectionLiên kết nhanh#
- Inference: Kiểm tra các model trên trình duyệt
- Endpoints: Triển khai các endpoint chuyên dụng
- Monitoring: Theo dõi hiệu năng triển khai
Link to this sectionCâu hỏi thường gặp#
Link to this sectionSự khác biệt giữa shared và dedicated inference là gì?#
| Tính năng | Shared | Dedicated |
|---|---|---|
| Độ trễ | Biến động | Nhất quán |
| Chi phí | Miễn phí (đã bao gồm) | Miễn phí (cơ bản), theo mức sử dụng (nâng cao) |
| Quy mô | Giới hạn | Scale-to-zero, một instance duy nhất |
| Khu vực | 3 | 43 |
| URL | Chung | Tùy chỉnh |
| Tốc độ | 20 yêu cầu/phút | 20 yêu cầu/phút qua Nền tảng; không giới hạn trên URL endpoint trực tiếp |
Link to this sectionViệc triển khai mất bao lâu?#
Triển khai endpoint chuyên dụng thường mất 1-2 phút:
- Kéo image (~30 giây)
- Khởi động container (~30 giây)
- Kiểm tra trạng thái (health check) (~30 giây)
Link to this sectionTôi có thể triển khai nhiều model không?#
Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.
Link to this sectionĐiều gì xảy ra khi một endpoint ở trạng thái nhàn rỗi (idle)?#
Khi bật tính năng scale-to-zero:
- Endpoint tự động giảm quy mô sau khi không hoạt động
- Yêu cầu đầu tiên sẽ kích hoạt khởi động lạnh (cold start)
- Các yêu cầu tiếp theo sẽ diễn ra nhanh chóng
Các yêu cầu đầu tiên sau một khoảng thời gian nhàn rỗi sẽ kích hoạt khởi động lạnh.