Endpoints Dedicados

A Ultralytics Platform permite a implementação de modelos YOLO em endpoints dedicados em 43 regiões globais. Cada endpoint é um serviço de locatário único com comportamento de escala para zero, um URL de endpoint exclusivo e monitoramento independente.

Guia de Implementação de Modelo da Ultralytics Platform Com Mapa de Regiões E Tabela

Criar Endpoint

A partir da Guia de Implementação

Implemente um modelo a partir da sua guia Deploy:

  1. Navega para o teu modelo
  2. Clique na guia Deploy
  3. Selecione uma região no mapa-múndi interativo — as regiões são codificadas por cores de acordo com a latência a partir da sua localização (verde < 100ms, amarelo < 200ms, vermelho > 200ms)
  4. Clique em Deploy na linha da região

O nome da implementação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa).

A partir da Página de Implementações

Crie uma implementação a partir da página global Deploy na barra lateral:

  1. Clique em New Deployment
  2. Selecione um modelo no seletor de modelos
  3. Selecione uma região no mapa ou na tabela
  4. Revise o nome da implementação gerado automaticamente (editável) e os recursos padrão
  5. Clique em Deploy Model

Caixa de Diálogo de Nova Implementação da Ultralytics Platform Com Seletor de Modelo E Mapa de Regiões

Ciclo de Vida de Implementação

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Seleção de Região

Escolha entre 43 regiões em todo o mundo. O mapa e a tabela de regiões interativos mostram:

  • Pinos de região: Codificados por cores por latência (verde < 100ms, amarelo < 200ms, vermelho > 200ms)
  • Regiões implementadas: Destacadas com um emblema "Deployed"
  • Regiões em implementação: Indicador de pulsação animado
  • Destaque bidirecional: Passar o mouse sobre o mapa destaca a linha da tabela, e vice-versa

Tabela de Latência de Região da Guia de Implementação da Ultralytics Platform Ordenada Por Latência

A tabela de regiões na guia Deploy do modelo inclui:

ColunaDescrição
LocalizaçãoCidade e país com ícone de bandeira
ZonaIdentificador da região
LatênciaTempo de ping medido (mediana de 3 pings)
DistânciaDistância da sua localização em km
AçõesBotão de implementar ou emblema de status "Deployed"
Caixa de Diálogo de Nova Implementação

A caixa de diálogo New Deployment (a partir da página global Deploy) mostra uma tabela de regiões mais simples com apenas as colunas Localização, Latência e Selecionar.

Escolha com Sabedoria

Selecione a região mais próxima dos seus usuários para obter a menor latência. Use o botão Rescan para medir novamente a latência a partir da sua localização atual.

Regiões Disponíveis

ZonaLocalização
us-central1Iowa, EUA
us-east1Carolina do Sul, EUA
us-east4Virgínia do Norte, EUA
us-east5Columbus, EUA
us-south1Dallas, EUA
us-west1Oregon, EUA
us-west2Los Angeles, EUA
us-west3Salt Lake City, EUA
us-west4Las Vegas, EUA
northamerica-northeast1Montreal, Canadá
northamerica-northeast2Toronto, Canadá
northamerica-south1Querétaro, México
southamerica-east1São Paulo, Brasil
southamerica-west1Santiago, Chile

Configuração de Endpoint

Caixa de Diálogo de Nova Implementação

A caixa de diálogo New Deployment fornece:

ConfiguraçãoDescriçãoPredefinição
ModeloSelecione a partir de modelos concluídos-
RegiãoRegião de implantação-
Nome da ImplantaçãoGerado automaticamente, editável-
Núcleos de CPUPadrão fixo1
Memória (GB)Padrão fixo2

Painel de Recursos da Caixa de Diálogo de Nova Implantação da Plataforma Ultralytics Expandido

As implantações usam padrões fixos de 1 CPU, 2 GiB de memória, minInstances = 0 e maxInstances = 1. Elas reduzem a escala para zero quando inativas, para que você pague apenas pelo tempo de inferência ativo.

Nomes Gerados Automaticamente

O nome da implantação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa). Se você implantar o mesmo modelo na mesma região novamente, um sufixo numérico será adicionado (por exemplo, yolo26n-iowa-2).

Aba Implantação (Implantação Rápida)

Ao implantar a partir da aba Deploy do modelo, os endpoints são criados com recursos padrão (1 CPU, 2 GB de memória) com a redução de escala para zero ativada. O nome da implantação é gerado automaticamente.

Gerenciar Endpoints

Modos de visualização

A lista de implantações suporta três modos de visualização:

ModoDescrição
CartõesCartões com detalhes completos, logs, exemplos de código e painel de predição
CompactoGrade de cartões menores com métricas principais
TabelaTabela de dados (DataTable) com colunas classificáveis e pesquisa

Visualização de Cartões de Implantações Ativas da Aba Deploy da Plataforma Ultralytics

Cartão de Implantação (Visualização de Cartões)

Cada cartão de implantação na visualização de cartões mostra:

  • Cabeçalho: Nome, bandeira da região, selo de status, botões de iniciar/parar/excluir
  • URL do Endpoint: URL copiável com link para a documentação da API
  • Métricas: Contagem de solicitações (24h), latência P95, taxa de erro
  • Verificação de integridade: Indicador de integridade ao vivo com latência e atualização manual
  • Abas: Logs, Code e Predict

A aba Logs mostra entradas de log recentes com filtragem de gravidade (Tudo / Erros). A aba Code mostra exemplos de código prontos para uso em Python, JavaScript e cURL com a sua URL de endpoint e chave de API reais. A aba Predict fornece um painel de predição embutido para testes diretamente na implantação.

Status de Implantação

StatusDescrição
CriandoA implantação está sendo configurada
ImplantandoO container está iniciando
ProntoO endpoint está ativo e aceitando solicitações
ParandoO endpoint está sendo desligado
ParadoO endpoint está pausado (sem cobrança)
FailedA implantação falhou (veja a mensagem de erro)

URL do Endpoint

Cada endpoint possui uma URL exclusiva, por exemplo:

https://predict-abc123.run.app

URL do Endpoint do Cartão de Implantação da Plataforma Ultralytics com Botão de Copiar

Clique no botão de copiar para copiar a URL. Clique no ícone de documentos para visualizar a documentação da API gerada automaticamente para o endpoint.

Gerenciamento de Ciclo de Vida

Controle o estado do seu endpoint:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
AçãoDescrição
IniciarRetomar um endpoint parado
PararPausar o endpoint (sem cobrança)
ExcluirRemover permanentemente o endpoint

Parar Endpoint

Pare um endpoint para pausar a cobrança:

  1. Clique no ícone de pausa no cartão de implantação
  2. O status do endpoint muda para "Parando" e, em seguida, para "Parado"

Endpoints parados:

  • Não aceitam solicitações
  • Não geram cobranças
  • Podem ser reiniciados a qualquer momento

Excluir Endpoint

Remover permanentemente um endpoint:

  1. Clique no ícone de exclusão (lixeira) no cartão de implantação
  2. Confirme a exclusão na caixa de diálogo
Ação Permanente

A exclusão é imediata e permanente. Você sempre pode criar um novo endpoint.

Usando Endpoints

Autenticação

Cada implantação é criada com uma chave de API da sua conta. Inclua-a nas solicitações:

Authorization: Bearer YOUR_API_KEY

O prefixo da chave de API é exibido no rodapé do cartão de implantação para identificação. Gere chaves a partir de API Keys.

Sem Limites de Taxa

Endpoints dedicados não estão sujeitos aos limites de taxa da API da Platform. As requisições vão diretamente para o teu serviço dedicado, portanto, o throughput é limitado apenas pela CPU, memória e configuração de escalonamento do teu endpoint. Esta é uma vantagem fundamental em relação à inferência compartilhada, que tem uma taxa limitada a 20 requisições/min por chave de API.

Exemplo de Requisição

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Parâmetros de Requisição

ParâmetroTipoPredefiniçãoIntervaloDescrição
filearquivo--Arquivo de imagem ou vídeo (obrigatório)
conffloat0.250.01 – 1.0Threshold de confiança mínima
ioufloat0.70.0 – 0.95Threshold de IoU do NMS
imgszint64032 – 1280Tamanho da imagem de entrada em pixels
normalizeboolfalse-Retornar coordenadas da BBox como 0 – 1
decimalsint50 – 10Precisão decimal para valores de coordenadas
sourcestring--URL de imagem ou string base64 (alternativa ao file)
Inferência de Vídeo

Endpoints dedicados aceitam imagens e vídeos através do parâmetro file.

  • Formatos de imagem (até 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
  • Formatos de vídeo (até 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Cada frame de vídeo é processado individualmente e os resultados são retornados por frame. Também podes passar uma URL pública de imagem ou uma imagem codificada em base64 através do parâmetro source em vez de file.

Formato de Resposta

O mesmo que na inferência compartilhada com campos específicos da tarefa.

Preços

Endpoints dedicados básicos são gratuitos em todos os planos. Configurações de maior recurso (mais vCPUs, mais memória, inicialização a quente) oferecerão preços baseados em uso no futuro.

Otimização de Custos
  • Usa o escalonamento para zero (padrão) para que os endpoints funcionem apenas ao receber requisições
  • Define instâncias máximas adequadas para o teu tráfego
  • Monitoriza o uso no painel de Monitoramento

FAQ

Quantos endpoints posso criar?

Os limites de endpoint dependem do plano:

  • Free: Até 3 implantações
  • Pro: Até 10 implantações
  • Enterprise: Implantações ilimitadas

Cada modelo ainda pode ser implantado em várias regiões dentro da cota do teu plano.

Posso alterar a região após a implantação?

Não, as regiões são fixas. Para alterar regiões:

  1. Elimina o endpoint existente
  2. Cria um novo endpoint na região desejada

Como lidar com a implantação em várias regiões?

Para cobertura global:

  1. Implantar em várias regiões
  2. Usar um balanceador de carga ou roteamento DNS
  3. Encaminhar utilizadores para o endpoint mais próximo

Qual é o tempo de cold start?

O tempo de cold start depende do tamanho do modelo e se o container já está em cache na região. Intervalos típicos:

CenárioCold Start
Container em cache~5-15 segundos
Primeira implantação/região~15-45 segundos

A verificação de integridade utiliza um timeout de 55 segundos para acomodar os piores casos de cold start.

Posso usar domínios personalizados?

Domínios personalizados estarão disponíveis em breve. Atualmente, os endpoints usam URLs geradas pela plataforma.

Comentários