Triển khai
Ultralytics Platform cung cấp các tùy chọn triển khai toàn diện để đưa các model YOLO của bạn vào môi trường production. Hãy thử nghiệm các model với tính năng inference trên trình duyệt, triển khai đến các endpoint chuyên dụng trên 43 khu vực toàn cầu và theo dõi hiệu năng theo thời gian thực.
Watch: Get Started with Ultralytics Platform - Deploy
Tổng quan
Phần Deployment giúp bạn:
- Kiểm thử các model trực tiếp trên trình duyệt với tab
Predict - Triển khai đến các endpoint chuyên dụng tại 43 khu vực toàn cầu
- Giám sát các chỉ số request, log và kiểm tra trạng thái sức khỏe
- Scale to zero khi nhàn rỗi (các bản triển khai hiện chạy một instance hoạt động duy nhất)

Các tùy chọn triển khai
Ultralytics Platform cung cấp nhiều lộ trình triển khai:
| Tùy chọn | Mô tả | Phù hợp nhất cho |
|---|---|---|
| Tab Predict | Inference dựa trên trình duyệt với hình ảnh, webcam và các ví dụ | Phát triển, xác thực |
| Shared Inference | Dịch vụ đa người dùng (multi-tenant) trên 3 khu vực | Sử dụng nhẹ, kiểm thử |
| Dedicated Endpoints | Các dịch vụ đơn người dùng (single-tenant) trên 43 khu vực | Production, độ trễ thấp |
Quy trình làm việc
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Giai đoạn | Mô tả |
|---|---|
| Test | Xác thực model bằng tab Predict |
| Cấu hình | Chọn khu vực và tên triển khai (các bản triển khai sử dụng tài nguyên mặc định cố định) |
| Triển khai | Tạo một endpoint chuyên dụng từ tab Deploy |
| Giám sát | Theo dõi các request, độ trễ, lỗi và log trong phần Monitoring |
Kiến trúc
Shared Inference
Dịch vụ shared inference chạy tại 3 khu vực chính, tự động định tuyến các request dựa trên khu vực dữ liệu của bạn:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Region | Vị trí |
|---|---|
| US | Iowa, Hoa Kỳ |
| EU | Bỉ, Châu Âu |
| AP | Đài Loan, Châu Á - Thái Bình Dương |
Dedicated Endpoints
Triển khai đến 43 khu vực trên toàn thế giới trên Ultralytics Cloud:
- Châu Mỹ: 14 khu vực
- Châu Âu: 13 khu vực
- Châu Á - Thái Bình Dương: 12 khu vực
- Trung Đông & Châu Phi: 4 khu vực
Mỗi endpoint là một dịch vụ single-tenant với:
- Tài nguyên mặc định là
1 CPU,2 GiBRAM,minInstances=0,maxInstances=1 - Scale-to-zero khi nhàn rỗi
- URL endpoint duy nhất
- Giám sát, log và kiểm tra trạng thái sức khỏe độc lập
Trang Deployments
Truy cập trang deployments toàn cầu từ thanh sidebar trong mục Deploy. Trang này hiển thị:
- Bản đồ thế giới với các ghim khu vực đã triển khai (bản đồ tương tác)
- Thẻ tổng quan: Tổng số Request (24h), Deployments đang hoạt động, Tỷ lệ lỗi (24h), Độ trễ P95 (24h)
- Danh sách deployments với ba chế độ xem: thẻ, thu gọn và bảng
- Nút New Deployment để tạo các endpoint từ bất kỳ model nào đã hoàn tất

Trang này mặc định lấy dữ liệu mỗi 15 giây. Khi các deployments ở trạng thái chuyển tiếp (creating, deploying hoặc stopping), tần suất lấy dữ liệu tăng lên mỗi 3 giây để có phản hồi nhanh hơn.
Các tính năng chính
Phạm vi phủ sóng toàn cầu
Triển khai gần với người dùng của bạn với 43 khu vực bao gồm:
- Bắc Mỹ, Nam Mỹ
- Châu Âu, Trung Đông, Châu Phi
- Châu Á - Thái Bình Dương, Châu Đại Dương
Hành vi Scaling
Các endpoint hiện tại hoạt động như sau:
- Scale to zero: Không mất phí khi nhàn rỗi (mặc định)
- Single active instance:
maxInstanceshiện tại được giới hạn ở1trên tất cả các gói
Scale-to-zero được bật mặc định (min instances = 0). Bạn chỉ trả phí cho thời gian inference thực tế.
Độ trễ thấp
Các dedicated endpoint cung cấp:
- Cold start: ~5-15 giây (container đã cache), tối đa ~45 giây (triển khai lần đầu)
- Warm inference: 50-200ms (tùy thuộc vào model)
- Định tuyến theo khu vực để đạt hiệu năng tối ưu
Kiểm tra sức khỏe (Health Checks)
Mỗi bản triển khai đang chạy bao gồm tính năng tự động kiểm tra sức khỏe với:
- Chỉ báo trạng thái trực tiếp (healthy/unhealthy)
- Hiển thị độ trễ phản hồi
- Tự động thử lại khi trạng thái unhealthy (kiểm tra mỗi 20 giây)
- Nút làm mới thủ công
Bắt đầu nhanh
Triển khai một model trong vòng chưa đầy 2 phút:
- Huấn luyện hoặc upload một model vào project
- Đi tới tab Deploy của model
- Chọn một khu vực từ bảng độ trễ
- Nhấp Deploy — endpoint của bạn đã sẵn sàng
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Sau khi triển khai, hãy sử dụng URL endpoint cùng với API key của bạn để gửi các request inference từ bất kỳ ứng dụng nào.
Liên kết nhanh
- Inference: Kiểm thử các model trên trình duyệt
- Endpoints: Triển khai các dedicated endpoint
- Monitoring: Theo dõi hiệu năng triển khai
Câu hỏi thường gặp (FAQ)
Sự khác biệt giữa shared và dedicated inference là gì?
| Tính năng | Shared | Dành riêng |
|---|---|---|
| Độ trễ | Biến động | Nhất quán |
| Chi phí | Miễn phí (đã bao gồm) | Miễn phí (cơ bản), tính theo mức sử dụng (nâng cao) |
| Scale | Có giới hạn | Scale-to-zero, single instance |
| Khu vực | 3 | 43 |
| URL | Dùng chung | Tùy chỉnh |
| Tốc độ | 20 req/phút | Không giới hạn |
Việc triển khai mất bao lâu?
Triển khai dedicated endpoint thường mất 1-2 phút:
- Tải image (~30s)
- Khởi động container (~30s)
- Kiểm tra sức khỏe (~30s)
Tôi có thể triển khai nhiều model không?
Có, mỗi model có thể có nhiều endpoint ở các khu vực khác nhau. Số lượng triển khai bị giới hạn theo gói: Free 3, Pro 10, Enterprise unlimited.
Điều gì xảy ra khi một endpoint ở trạng thái nhàn rỗi (idle)?
Khi tính năng scale-to-zero được bật:
- Endpoint sẽ tự động giảm quy mô sau khi không hoạt động
- Yêu cầu đầu tiên sẽ kích hoạt khởi động nguội (cold start)
- Các yêu cầu tiếp theo sẽ được xử lý nhanh chóng
Các yêu cầu đầu tiên sau một khoảng thời gian nhàn rỗi sẽ kích hoạt khởi động nguội.