Giám sát

Ultralytics Platform cung cấp tính năng giám sát cho các endpoint đã triển khai. Theo dõi các chỉ số yêu cầu, xem nhật ký (log) và kiểm tra trạng thái sức khỏe hệ thống thông qua cơ chế thăm dò tự động.

Ultralytics Platform Deploy Page Overview Cards And World Map

Bảng điều khiển triển khai

Trang Deploy trong thanh bên đóng vai trò là bảng điều khiển giám sát cho tất cả các triển khai của bạn. Nó kết hợp bản đồ thế giới, các chỉ số tổng quan và quản lý triển khai vào một chế độ xem duy nhất. Xem Dedicated Endpoints để biết cách tạo và quản lý các triển khai.

graph TB
    subgraph Dashboard
        Map[World Map] --- Cards[Overview Cards]
        Cards --- List[Deployments List]
    end
    subgraph "Per Deployment"
        Metrics[Metrics Row]
        Health[Health Check]
        Logs[Logs Tab]
        Code[Code Tab]
        Predict[Predict Tab]
    end
    List --> Metrics
    List --> Health
    List --> Logs
    List --> Code
    List --> Predict

    style Dashboard fill:#f5f5f5,color:#333
    style Map fill:#2196F3,color:#fff
    style Cards fill:#FF9800,color:#fff
    style List fill:#4CAF50,color:#fff

Thẻ tổng quan

Bốn thẻ tóm tắt ở đầu trang hiển thị:

Ultralytics Platform Deploy Page Four Overview Cards

Chỉ sốMô tả
Tổng số yêu cầu (24h)Số lượng yêu cầu trên tất cả các endpoint
Triển khai đang hoạt độngCác endpoint hiện đang chạy
Tỷ lệ lỗi (24h)Phần trăm các yêu cầu thất bại
Độ trễ P95 (24h)Thời gian phản hồi ở phân vị thứ 95
Cảnh báo tỷ lệ lỗi

Thẻ tỷ lệ lỗi sẽ chuyển sang màu đỏ khi tỷ lệ vượt quá 5%. Hãy kiểm tra tab Logs trên từng triển khai để chẩn đoán lỗi.

Bản đồ thế giới

Bản đồ thế giới tương tác hiển thị:

  • Ghim khu vực cho tất cả 43 khu vực khả dụng
  • Ghim màu xanh lá cho các khu vực đã triển khai
  • Ghim màu xanh dương động cho các khu vực đang có triển khai đang được thực hiện
  • Kích thước ghim thay đổi dựa trên trạng thái triển khai và độ trễ

Ultralytics Platform Deploy Page World Map With Deployed Regions

Danh sách triển khai

Bên dưới các thẻ tổng quan, danh sách triển khai hiển thị tất cả endpoint trong các dự án của bạn. Sử dụng nút chuyển đổi chế độ xem để chọn giữa:

XemMô tả
ThẻThẻ thông tin đầy đủ với các tab chỉ số, nhật ký, code và dự đoán
GọnLưới các thẻ nhỏ hơn (1-4 cột) với các chỉ số chính
BảngBảng dữ liệu (DataTable) với các cột có thể sắp xếp: Tên, Khu vực, Trạng thái, Yêu cầu, P95, Lỗi
Cập nhật thời gian thực

Bảng điều khiển thực hiện thăm dò 15 giây một lần để cập nhật trạng thái triển khai. Khi các triển khai ở trạng thái chuyển tiếp (creating, deploying hoặc stopping), tần suất thăm dò sẽ tăng lên 3 giây một lần. Các biểu đồ chỉ số làm mới sau mỗi 60 giây. Nhấp vào nút làm mới để cập nhật ngay lập tức.

Chỉ số theo từng triển khai

Mỗi thẻ triển khai (trong chế độ xem thẻ) hiển thị các chỉ số thời gian thực:

Hàng chỉ số

Chỉ sốMô tả
Yêu cầuSố lượng yêu cầu (24h) kèm biểu tượng
Độ trễ P95Thời gian phản hồi ở phân vị thứ 95
Tỷ lệ lỗiPhần trăm các yêu cầu thất bại

Các chỉ số được lấy từ API endpoint dạng sparkline và làm mới mỗi 60 giây.

Kiểm tra tình trạng dữ liệu (Health Check)

Các triển khai đang chạy hiển thị chỉ báo kiểm tra sức khỏe:

Chỉ báoÝ nghĩa
Trái tim màu xanh láKhỏe mạnh — hiển thị độ trễ phản hồi
Trái tim màu đỏKhông khỏe mạnh — hiển thị thông báo lỗi
Biểu tượng xoayĐang thực hiện kiểm tra sức khỏe

Kiểm tra sức khỏe tự động thử lại sau mỗi 20 giây khi trạng thái không khỏe mạnh. Nhấp vào biểu tượng làm mới để kích hoạt kiểm tra sức khỏe theo cách thủ công. Quá trình kiểm tra sức khỏe sử dụng thời gian chờ 55 giây để đáp ứng các trường hợp khởi động nguội (cold start) trên các endpoint có quy mô thu nhỏ về không.

Ultralytics Platform Deployment Card Health Check Healthy With Latency

Khả năng chịu đựng khởi động nguội

Kiểm tra sức khỏe sử dụng thời gian chờ 55 giây để tính đến các trường hợp khởi động nguội trên các endpoint có quy mô thu nhỏ về không (tối đa khoảng 45 giây trong trường hợp xấu nhất). Sau khi endpoint khởi động xong, quá trình kiểm tra sức khỏe hoàn tất trong vài mili giây.

Nhật ký (Logs)

Mỗi thẻ triển khai bao gồm tab Logs để xem các mục nhật ký gần đây:

Ultralytics Platform Deployment Card Logs Tab With Severity Filter

Mục nhật ký

Mỗi mục nhật ký hiển thị:

TrườngMô tả
Mức độ nghiêm trọngThanh mã màu (xem bên dưới)
Dấu thời gianThời gian yêu cầu (định dạng địa phương)
Thông báoNội dung nhật ký
Thông tin HTTPMã trạng thái và độ trễ (nếu có)

Lọc nhật ký theo mức độ nghiêm trọng bằng cách sử dụng các nút bộ lọc:

Cấp độMàu sắcMô tả
DEBUGXámThông báo gỡ lỗi
INFOXanh dươngCác yêu cầu bình thường
WARNINGVàngCác vấn đề không nghiêm trọng
ERRORĐỏCác yêu cầu thất bại
CRITICALĐỏ đậmCác lỗi nghiêm trọng

Giao diện người dùng hiển thị 20 mục gần nhất. API mặc định lấy 50 mục cho mỗi yêu cầu (tối đa 200).

Quy trình gỡ lỗi

Khi điều tra lỗi: trước tiên hãy nhấp vào Errors để lọc các mục ERROR và WARNING, sau đó xem xét dấu thời gian và mã trạng thái HTTP. Sao chép nhật ký vào clipboard để chia sẻ với nhóm của bạn.

Ví dụ mã nguồn

Mỗi thẻ triển khai bao gồm tab Code hiển thị mã API sẵn sàng sử dụng với URL endpoint thực tế và khóa API của bạn:

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())
Thông tin xác thực được tự động điền

Khi xem tab Code trên nền tảng, URL endpoint thực tế và API key của bạn sẽ được tự động điền vào. Hãy sao chép mã này và chạy trực tiếp. Xem API Keys để tạo khóa mới.

Triển khai Predict

Tab Predict trên mỗi thẻ triển khai cung cấp bảng dự đoán nội dòng — cùng giao diện với tab Predict của model, nhưng thực hiện suy luận thông qua endpoint triển khai thay vì dịch vụ dùng chung. Điều này hữu ích để kiểm tra endpoint đã triển khai trực tiếp từ trình duyệt. Xem Inference để biết chi tiết tham số và định dạng phản hồi.

API Endpoints

Tổng quan về giám sát

GET /api/monitoring

Trả về các số liệu tổng hợp cho tất cả các bản triển khai thuộc sở hữu của người dùng đã xác thực. Hỗ trợ nhận diện workspace thông qua tham số truy vấn tùy chọn owner.

Số liệu triển khai

GET /api/deployments/{deploymentId}/metrics?sparkline=true&range=24h

Trả về dữ liệu sparkline và các số liệu tóm tắt cho một bản triển khai cụ thể. Khoảng thời gian làm mới: 60 giây.

Tham sốLoạiMô tả
sparklineboolBao gồm dữ liệu sparkline
rangechuỗiPhạm vi thời gian: 1h, 6h, 24h, 7d, hoặc 30d

Nhật ký triển khai

GET /api/deployments/{deploymentId}/logs?limit=50&severity=ERROR,WARNING

Trả về các mục nhật ký gần đây với bộ lọc mức độ nghiêm trọng tùy chọn và phân trang.

Tham sốLoạiMô tả
limitintSố lượng mục tối đa cần trả về (mặc định: 50, tối đa: 200)
severitychuỗiBộ lọc mức độ nghiêm trọng phân tách bằng dấu phẩy
pageTokenchuỗiToken phân trang từ phản hồi trước đó

Tình trạng triển khai

GET /api/deployments/{deploymentId}/health

Trả về trạng thái kiểm tra sức khỏe kèm theo độ trễ phản hồi.

{
    "healthy": true,
    "status": 200,
    "latencyMs": 142
}

Tối ưu hóa hiệu năng

Sử dụng dữ liệu giám sát để tối ưu hóa các bản triển khai của bạn:

Nếu độ trễ quá cao:

  1. Kiểm tra số lượng instance (có thể cần thêm)
  2. Xác minh kích thước model đã phù hợp chưa
  3. Cân nhắc chọn vùng gần hơn
  4. Kiểm tra kích thước ảnh đang gửi
Giảm độ trễ

Chuyển từ imgsz=1280 sang imgsz=640 để đạt tốc độ nhanh hơn ~4 lần với độ chính xác giảm thiểu tối đa cho hầu hết các trường hợp sử dụng. Triển khai đến vùng gần người dùng của bạn hơn để giảm độ trễ mạng.

Câu hỏi thường gặp (FAQ)

Dữ liệu được lưu giữ trong bao lâu?

Kiểu dữ liệuThời gian lưu trữ
Số liệu (Metrics)30 ngày
Logs7 ngày

Tôi có thể thiết lập giám sát bên ngoài không?

Có, các URL endpoint hoạt động với các công cụ giám sát bên ngoài:

  • Giám sát thời gian hoạt động (Pingdom, UptimeRobot)
  • Các công cụ APM (Datadog, New Relic)
  • Kiểm tra tình trạng sức khỏe tùy chỉnh qua endpoint /health

Các số liệu độ trễ chính xác đến mức nào?

Các số liệu độ trễ đo lường:

  • P50: Thời gian phản hồi trung vị
  • P95: Phân vị thứ 95
  • P99: Phân vị thứ 99

Đây là thời gian xử lý phía máy chủ, không bao gồm độ trễ mạng đến người dùng của bạn.

Tại sao các số liệu của tôi bị trễ?

Các số liệu có độ trễ khoảng ~2 phút do:

  • Pipeline tổng hợp số liệu
  • Các cửa sổ tổng hợp
  • Caching trên bảng điều khiển (Dashboard)

Để gỡ lỗi thời gian thực, hãy kiểm tra nhật ký vì chúng hiển thị gần như tức thì.

Tôi có thể giám sát nhiều endpoint cùng lúc không?

Có, trang triển khai hiển thị tất cả các endpoint với các thẻ tổng quan đã được tập hợp. Sử dụng chế độ xem bảng để so sánh hiệu suất giữa các bản triển khai.

Bình luận