Dedicated Endpoints
Ultralytics Platform cho phép triển khai các model YOLO tới các endpoint chuyên dụng tại 43 khu vực trên toàn cầu. Mỗi endpoint là một dịch vụ đơn thuê bao (single-tenant) với khả năng mở rộng về không (scale-to-zero), URL endpoint duy nhất và hệ thống giám sát độc lập.

Tạo Endpoint
Từ Tab Triển khai (Deploy)
Triển khai một model từ tab Deploy của nó:
- Điều hướng đến model của bạn
- Nhấp vào tab Deploy
- Chọn một khu vực từ bản đồ thế giới tương tác — các khu vực được mã màu theo độ trễ từ vị trí của bạn (xanh lục < 100ms, vàng < 200ms, đỏ > 200ms)
- Nhấp vào Deploy trên dòng của khu vực đó
Tên triển khai được tự động tạo từ tên model và thành phố của khu vực (ví dụ: yolo26n-iowa).
Từ Trang Triển khai (Deployments Page)
Tạo một bản triển khai từ trang Deploy toàn cục trong thanh bên:
- Nhấp vào New Deployment
- Chọn một model từ bộ chọn model
- Chọn một khu vực từ bản đồ hoặc bảng
- Xem lại tên triển khai đã được tạo tự động (có thể chỉnh sửa) và các tài nguyên mặc định
- Nhấp vào Deploy Model

Vòng đời triển khai
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: DeleteChọn khu vực
Chọn từ 43 khu vực trên toàn thế giới. Bản đồ khu vực tương tác và bảng hiển thị:
- Ghim khu vực: Được mã màu theo độ trễ (xanh lục < 100ms, vàng < 200ms, đỏ > 200ms)
- Khu vực đã triển khai: Được đánh dấu bằng huy hiệu "Deployed"
- Khu vực đang triển khai: Chỉ báo dạng nhấp nháy động
- Đánh dấu hai chiều: Di chuột lên bản đồ sẽ làm nổi bật dòng trong bảng và ngược lại

Bảng khu vực trên tab Deploy của model bao gồm:
| Cột | Mô tả |
|---|---|
| Vị trí | Thành phố và quốc gia kèm biểu tượng cờ |
| Zone | Định danh khu vực |
| Độ trễ | Thời gian phản hồi (ping) đo được (trung vị của 3 lần ping) |
| Khoảng cách | Khoảng cách từ vị trí của bạn tính bằng km |
| Hành động | Nút Deploy hoặc huy hiệu trạng thái "Deployed" |
Hộp thoại New Deployment (từ trang Deploy toàn cục) hiển thị bảng khu vực đơn giản hơn chỉ với các cột Vị trí, Độ trễ và Chọn.
Chọn khu vực gần nhất với người dùng của bạn để có độ trễ thấp nhất. Sử dụng nút Rescan để đo lại độ trễ từ vị trí hiện tại của bạn.
Các khu vực khả dụng
| Zone | Vị trí |
|---|---|
| us-central1 | Iowa, Hoa Kỳ |
| us-east1 | Nam Carolina, Mỹ |
| us-east4 | Bắc Virginia, Mỹ |
| us-east5 | Columbus, Mỹ |
| us-south1 | Dallas, Mỹ |
| us-west1 | Oregon, Mỹ |
| us-west2 | Los Angeles, Mỹ |
| us-west3 | Salt Lake City, Mỹ |
| us-west4 | Las Vegas, Mỹ |
| northamerica-northeast1 | Montreal, Canada |
| northamerica-northeast2 | Toronto, Canada |
| northamerica-south1 | Queretaro, Mexico |
| southamerica-east1 | Sao Paulo, Brazil |
| southamerica-west1 | Santiago, Chile |
Cấu hình Endpoint
Hộp thoại Triển khai Mới
Hộp thoại New Deployment cung cấp:
| Cài đặt | Mô tả | Mặc định |
|---|---|---|
| Model | Chọn từ các model đã hoàn thiện | - |
| Region | Khu vực triển khai | - |
| Deployment Name | Tự động tạo, có thể chỉnh sửa | - |
| CPU Cores | Mặc định cố định | 1 |
| Memory (GB) | Mặc định cố định | 2 |

Các bản triển khai sử dụng mặc định cố định là 1 CPU, 2 GiB bộ nhớ, minInstances = 0 và maxInstances = 1. Chúng sẽ scale về 0 khi không hoạt động, vì vậy bạn chỉ trả phí cho thời gian thực hiện inference thực tế.
Tên triển khai được tạo tự động từ tên model và thành phố khu vực (ví dụ: yolo26n-iowa). Nếu bạn triển khai lại cùng một model vào cùng một khu vực, một hậu tố số sẽ được thêm vào (ví dụ: yolo26n-iowa-2).
Tab Deploy (Triển khai nhanh)
Khi triển khai từ tab Deploy của model, các endpoint được tạo với tài nguyên mặc định (1 CPU, 2 GB bộ nhớ) và đã bật tính năng scale-to-zero. Tên triển khai được tạo tự động.
Quản lý Endpoints
Chế độ Xem
Danh sách các bản triển khai hỗ trợ ba chế độ xem:
| Chế độ | Mô tả |
|---|---|
| Cards | Các thẻ chi tiết đầy đủ với logs, ví dụ mã code, bảng dự đoán (predict panel) |
| Gọn | Lưới các thẻ nhỏ hơn với các chỉ số chính |
| Bảng | DataTable với các cột có thể sắp xếp và tìm kiếm |

Thẻ Triển khai (Chế độ xem Cards)
Mỗi thẻ triển khai trong chế độ xem thẻ hiển thị:
- Header: Tên, cờ khu vực, trạng thái, các nút start/stop/delete
- Endpoint URL: URL có thể sao chép với liên kết tới tài liệu API
- Metrics: Số lượng request (24h), độ trễ P95, tỷ lệ lỗi
- Health check: Chỉ báo tình trạng trực tiếp với độ trễ và làm mới thủ công
- Tabs:
Logs,Code, vàPredict
Tab Logs hiển thị các log gần đây với bộ lọc mức độ nghiêm trọng (Tất cả / Lỗi). Tab Code hiển thị các ví dụ mã code sẵn sàng sử dụng bằng Python, JavaScript và cURL với URL endpoint và API key thực tế của bạn. Tab Predict cung cấp bảng dự đoán nội dòng để kiểm tra trực tiếp trên bản triển khai.
Trạng thái Triển khai
| Trạng thái | Mô tả |
|---|---|
| Creating | Bản triển khai đang được thiết lập |
| Deploying | Container đang khởi động |
| Ready | Endpoint đã hoạt động và đang chấp nhận request |
| Stopping | Endpoint đang tắt |
| Stopped | Endpoint đã tạm dừng (không tính phí) |
| Failed | Triển khai thất bại (xem thông báo lỗi) |
Endpoint URL
Mỗi endpoint có một URL duy nhất, ví dụ:
https://predict-abc123.run.app

Nhấp vào nút sao chép để sao chép URL. Nhấp vào biểu tượng tài liệu để xem tài liệu API được tự động tạo cho endpoint đó.
Quản lý Vòng đời
Kiểm soát trạng thái endpoint của bạn:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| Thao tác | Mô tả |
|---|---|
| Start | Khởi động lại endpoint đã dừng |
| Stop | Tạm dừng endpoint (không tính phí) |
| Xóa | Xóa vĩnh viễn endpoint |
Dừng Endpoint
Dừng endpoint để tạm dừng tính phí:
- Nhấp vào biểu tượng tạm dừng trên thẻ triển khai
- Trạng thái endpoint chuyển sang "Stopping" sau đó là "Stopped"
Các endpoint đã dừng:
- Không chấp nhận request
- Không phát sinh chi phí
- Có thể được khởi động lại bất cứ lúc nào
Xóa Endpoint
Xóa vĩnh viễn một endpoint:
- Nhấp vào biểu tượng xóa (thùng rác) trên thẻ triển khai
- Xác nhận xóa trong hộp thoại
Việc xóa diễn ra ngay lập tức và vĩnh viễn. Bạn luôn có thể tạo một endpoint mới.
Sử dụng Endpoints
Xác thực
Mỗi bản triển khai được tạo với một API key từ tài khoản của bạn. Hãy đưa nó vào các request:
Authorization: Bearer YOUR_API_KEYTiền tố API key được hiển thị ở chân trang thẻ triển khai để nhận diện. Tạo key từ API Keys.
Không giới hạn tốc độ
Các endpoint chuyên dụng không bị giới hạn bởi giới hạn tốc độ Platform API. Các yêu cầu được gửi trực tiếp đến dịch vụ chuyên dụng của bạn, vì vậy lưu lượng được giới hạn chỉ bởi CPU, bộ nhớ và cấu hình mở rộng của endpoint. Đây là một lợi thế chính so với shared inference, vốn bị giới hạn tốc độ ở mức 20 yêu cầu/phút cho mỗi API key.
Ví dụ về yêu cầu
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())Tham số yêu cầu
| Tham số | Loại | Mặc định | Phạm vi | Mô tả |
|---|---|---|---|---|
file | tệp | - | - | Tệp hình ảnh hoặc video (bắt buộc) |
conf | float | 0.25 | 0.01 – 1.0 | Ngưỡng tin cậy tối thiểu |
iou | float | 0.7 | 0.0 – 0.95 | Ngưỡng NMS IoU |
imgsz | int | 640 | 32 – 1280 | Kích thước hình ảnh đầu vào tính bằng pixel |
normalize | bool | false | - | Trả về tọa độ khung hình (bounding box) dưới dạng 0 – 1 |
decimals | int | 5 | 0 – 10 | Độ chính xác thập phân cho các giá trị tọa độ |
source | chuỗi | - | - | URL hình ảnh hoặc chuỗi base64 (thay thế cho file) |
Các endpoint chuyên dụng chấp nhận cả hình ảnh và video thông qua tham số file.
- Định dạng hình ảnh (tối đa 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- Định dạng video (tối đa 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
Mỗi khung hình video được xử lý riêng lẻ và kết quả được trả về cho từng khung hình. Bạn cũng có thể truyền URL hình ảnh công khai hoặc hình ảnh được mã hóa base64 thông qua tham số source thay vì file.
Định dạng phản hồi
Giống như shared inference với các trường dành riêng cho tác vụ.
Giá cả
Các endpoint chuyên dụng cơ bản được miễn phí trên tất cả các gói. Các cấu hình tài nguyên cao hơn (nhiều vCPU hơn, nhiều bộ nhớ hơn, khởi động nóng) sẽ cung cấp giá theo mức sử dụng trong tương lai.
- Sử dụng tính năng scale-to-zero (mặc định) để các endpoint chỉ chạy khi nhận được yêu cầu
- Thiết lập số lượng instance tối đa phù hợp cho lưu lượng truy cập của bạn
- Theo dõi mức sử dụng trong bảng điều khiển Monitoring
Câu hỏi thường gặp (FAQ)
Tôi có thể tạo bao nhiêu endpoint?
Giới hạn endpoint phụ thuộc vào gói của bạn:
- Free: Tối đa 3 bản triển khai
- Pro: Tối đa 10 bản triển khai
- Enterprise: Triển khai không giới hạn
Mỗi model vẫn có thể được triển khai tới nhiều khu vực trong hạn mức gói của bạn.
Tôi có thể thay đổi khu vực sau khi triển khai không?
Không, các khu vực là cố định. Để thay đổi khu vực:
- Xóa endpoint hiện có
- Tạo một endpoint mới trong khu vực mong muốn
Làm thế nào để xử lý việc triển khai đa khu vực?
Để có phạm vi bao phủ toàn cầu:
- Triển khai tới nhiều khu vực
- Sử dụng bộ cân bằng tải hoặc định tuyến DNS
- Điều hướng người dùng đến endpoint gần nhất
Thời gian khởi động lạnh (cold start) là bao lâu?
Thời gian khởi động lạnh phụ thuộc vào kích thước model và việc container đã được lưu trong bộ nhớ đệm tại khu vực đó hay chưa. Các phạm vi điển hình:
| Kịch bản | Khởi động lạnh |
|---|---|
| Container được lưu bộ nhớ đệm | ~5-15 giây |
| Triển khai/khu vực lần đầu | ~15-45 giây |
Kiểm tra tình trạng sử dụng thời gian chờ 55 giây để đáp ứng các trường hợp khởi động lạnh xấu nhất.
Tôi có thể sử dụng tên miền tùy chỉnh không?
Tên miền tùy chỉnh sẽ sớm ra mắt. Hiện tại, các endpoint sử dụng URL do nền tảng tạo ra.