Link to this sectionEndpoints Dedicados#
A Ultralytics Platform permite a implementação de modelos YOLO em endpoints dedicados em 43 regiões globais. Cada endpoint é um serviço de locatário único com comportamento de escala para zero, um URL de endpoint exclusivo e monitoramento independente.

Link to this sectionCriar Endpoint#
Link to this sectionA partir da guia Deploy#
Implemente um modelo a partir da sua guia Deploy:
- Navegue até seu modelo
- Clique na guia Deploy
- Selecione uma região no mapa-múndi interativo — as regiões são codificadas por cores de acordo com a latência a partir da sua localização em um gradiente de verde para vermelho (regiões mais rápidas são mais verdes, regiões mais lentas são mais vermelhas)
- Clique em Deploy na linha da região
O nome da implementação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa).
Link to this sectionA partir da página Deployments#
Crie uma implementação a partir da página global Deploy na barra lateral:
- Clique em New Deployment
- Selecione um modelo no seletor de modelos
- Selecione uma região no mapa ou na tabela
- Revise o nome da implementação gerado automaticamente (editável) e os recursos padrão
- Clique em Deploy Model

Link to this sectionCiclo de Vida de Implantação#
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: DeleteLink to this sectionSeleção de Região#
Escolha entre 43 regiões em todo o mundo. O mapa de regiões interativo e a tabela mostram:
- Pinos de região: Codificados por cores por latência em um gradiente de verde para vermelho (regiões mais rápidas são mais verdes, regiões mais lentas são mais vermelhas)
- Regiões implementadas: Destacadas com um selo "Deployed"
- Regiões em implementação: Indicador de pulso animado
- Destaque bidirecional: Passar o mouse sobre o mapa destaca a linha da tabela, e vice-versa

A tabela de regiões na guia Deploy do modelo inclui:
| Coluna | Descrição |
|---|---|
| Localização | Cidade e país com ícone de bandeira |
| Zona | Identificador da região |
| Latência | Tempo de ping medido (mediana de 3 pings) |
| Distância | Distância da sua localização em km |
| Ações | Botão Deploy ou selo de status "Deployed" |
A caixa de diálogo New Deployment (a partir da página global Deploy) mostra uma tabela de regiões mais simples com apenas as colunas Localização, Latência e Selecionar.
Selecione a região mais próxima dos seus usuários para obter a menor latência. Use o botão Rescan para medir novamente a latência a partir da sua localização atual.
Link to this sectionRegiões Disponíveis#
| Zona | Localização |
|---|---|
| us-central1 | Iowa, EUA |
| us-east1 | Carolina do Sul, EUA |
| us-east4 | Virgínia do Norte, EUA |
| us-east5 | Columbus, EUA |
| us-south1 | Dallas, EUA |
| us-west1 | Oregon, EUA |
| us-west2 | Los Angeles, EUA |
| us-west3 | Salt Lake City, EUA |
| us-west4 | Las Vegas, EUA |
| northamerica-northeast1 | Montreal, Canadá |
| northamerica-northeast2 | Toronto, Canadá |
| northamerica-south1 | Querétaro, México |
| southamerica-east1 | São Paulo, Brasil |
| southamerica-west1 | Santiago, Chile |
Link to this sectionConfiguração de Endpoint#
Link to this sectionCaixa de Diálogo Nova Implementação#
A caixa de diálogo New Deployment fornece:
| Configuração | Descrição | Predefinição |
|---|---|---|
| Modelo | Selecione a partir de modelos concluídos | - |
| Região | Região da implantação | - |
| Nome da Implantação | Gerado automaticamente, editável | - |
| Núcleos de CPU | Padrão fixo | 1 |
| Memória (GB) | Padrão fixo | 2 |

As implantações usam padrões fixos de 1 CPU, 2 GiB de memória, minInstances = 0 e maxInstances = 1. Elas reduzem para zero quando ociosas, para que você pague apenas pelo tempo de inferência ativo.
O nome da implantação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa). Se você implantar o mesmo modelo na mesma região novamente, um sufixo numérico será adicionado (por exemplo, yolo26n-iowa-2).
Link to this sectionGuia Deploy (Implantação Rápida)#
Ao implantar a partir da guia Deploy do modelo, os endpoints são criados com recursos padrão (1 CPU, 2 GB de memória) com a escala para zero ativada. O nome da implantação é gerado automaticamente.
Link to this sectionGerenciar Endpoints#
Link to this sectionModos de Visualização#
A lista de implantações suporta três modos de visualização:
| Modo | Descrição |
|---|---|
| Cartões | Cartões de detalhes completos com logs, exemplos de código, painel de previsão |
| Compacto | Grade de cartões menores com métricas principais |
| Tabela | DataTable com colunas ordenáveis e pesquisa |

Link to this sectionCartão de Implantação (Visualização de Cartões)#
Cada cartão de implantação na visualização de cartões mostra:
- Cabeçalho: Nome, bandeira da região, selo de status, botões de iniciar/parar/excluir
- URL do Endpoint: URL copiável com link para a documentação da API
- Métricas: Contagem de solicitações (24h), latência P95, taxa de erro
- Verificação de integridade: Indicador de integridade ao vivo com latência e atualização manual
- Guias:
Logs,CodeePredict
A guia Logs mostra entradas de log recentes com filtragem de gravidade (Tudo / Erros). A guia Code mostra exemplos de código prontos para uso em Python, JavaScript e cURL com sua URL de endpoint real e chave de API. A guia Predict fornece um painel de previsão em linha para testes diretamente na implantação.
Link to this sectionStatus de Implantação#
| Status | Descrição |
|---|---|
| Criando | A implantação está sendo configurada |
| Implantando | O contêiner está iniciando |
| Pronto | O endpoint está ativo e aceitando solicitações |
| Parando | O endpoint está sendo desligado |
| Parado | O endpoint está pausado (sem faturamento) |
| Failed | A implantação falhou (consulte a mensagem de erro) |
Link to this sectionURL do Endpoint#
Cada endpoint possui uma URL única, por exemplo:
https://predict-abc123.run.app

Clique no botão copiar para copiar a URL. Clique no ícone de documentação para ver a documentação da API gerada automaticamente para o endpoint.
Link to this sectionGerenciamento de Ciclo de Vida#
Controle o estado do seu endpoint:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| Ação | Descrição |
|---|---|
| Iniciar | Retomar um endpoint parado |
| Parar | Pausar o endpoint (sem faturamento) |
| Excluir | Remover permanentemente o endpoint |
Link to this sectionParar Endpoint#
Pare um endpoint para pausar o faturamento:
- Clique no ícone de pausa no cartão de implantação
- O status do endpoint muda para "Parando" e depois para "Parado"
Endpoints parados:
- Não aceitam solicitações
- Não incorrem em cobranças
- Podem ser reiniciados a qualquer momento
Link to this sectionExcluir Endpoint#
Remover permanentemente um endpoint:
- Clique no ícone de exclusão (lixeira) no cartão de implantação
- Confirme a exclusão na caixa de diálogo
A exclusão é imediata e permanente. Você sempre pode criar um novo endpoint.
Link to this sectionUsando Endpoints#
Link to this sectionAutenticação#
Cada implantação é criada com uma chave de API da sua conta. Inclua-a nas solicitações:
Authorization: Bearer YOUR_API_KEYO prefixo da chave de API é exibido no rodapé do cartão de implantação para identificação. Gere chaves a partir de API Keys.
Link to this sectionSem Limites de Taxa#
Solicitações enviadas diretamente para a URL do seu endpoint dedicado não estão sujeitas aos limites de taxa da Platform API — o throughput é limitado apenas pela CPU, memória e configuração de escala do seu endpoint. (Solicitações enviadas via proxy pela Platform API, como o testador no navegador, ainda utilizam o limite padrão de 20 solicitações/min para predições.) Esta é uma vantagem fundamental sobre a inferência compartilhada, que tem o limite de taxa de 20 solicitações/min por API key.
Link to this sectionExemplo de solicitação#
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())Link to this sectionParâmetros de solicitação#
| Parâmetro | Tipo | Predefinição | Intervalo | Descrição |
|---|---|---|---|---|
file | arquivo | - | - | Arquivo de imagem ou vídeo (obrigatório) |
conf | float | 0.25 | 0.01 – 1.0 | Limite mínimo de confiança |
iou | float | 0,7 | 0.0 – 0.95 | Limite de IoU do NMS |
imgsz | int | 640 | 32 – 1280 | Tamanho da imagem de entrada em pixels |
normalize | bool | false | - | Retornar coordenadas de caixa delimitadora como 0 – 1 |
decimals | int | 5 | 0 – 10 | Precisão decimal para valores de coordenadas |
source | string | - | - | URL da imagem ou string base64 (alternativa para file) |
Endpoints dedicados aceitam tanto imagens quanto vídeos via parâmetro file.
- Formatos de imagem (até 100 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- Formatos de vídeo (até 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
Cada quadro de vídeo é processado individualmente e os resultados são retornados por quadro. Você também pode passar uma URL pública de imagem ou uma imagem codificada em base64 via parâmetro source em vez de file.
Link to this sectionFormato de Resposta#
Igual à inferência compartilhada com campos específicos da tarefa.
Link to this sectionPreços#
Endpoints dedicados básicos são gratuitos em todos os planos. Configurações de recursos mais elevados (mais vCPUs, mais memória, warm start) oferecerão precificação baseada em uso no futuro.
- Use escala para zero (padrão) para que os endpoints funcionem apenas quando receberem solicitações
- Defina instâncias máximas apropriadas para o seu tráfego
- Monitore o uso no painel de Monitoramento
Link to this sectionFAQ#
Link to this sectionQuantos endpoints posso criar?#
Os limites de endpoint dependem do plano:
- Free: Até 3 implantações
- Pro: Até 10 implantações
- Enterprise: Implantações ilimitadas
Cada modelo ainda pode ser implantado em várias regiões dentro da cota do seu plano.
Link to this sectionPosso alterar a região após a implantação?#
Não, as regiões são fixas. Para alterar as regiões:
- Exclua o endpoint existente
- Crie um novo endpoint na região desejada
Link to this sectionComo lido com a implantação em várias regiões?#
Para cobertura global:
- Implante em várias regiões
- Use um balanceador de carga ou roteamento DNS
- Encaminhe os usuários para o endpoint mais próximo
Link to this sectionQual é o tempo de cold start?#
O tempo de cold start depende do tamanho do modelo e se o contêiner já está em cache na região. Intervalos típicos:
| Cenário | Cold Start |
|---|---|
| Contêiner em cache | ~5-15 segundos |
| Primeira implantação/região | ~15-45 segundos |
A verificação de integridade usa um tempo limite de 55 segundos para acomodar os piores casos de cold start.
Link to this sectionPosso usar domínios personalizados?#
Domínios personalizados chegarão em breve. Atualmente, os endpoints usam URLs geradas pela plataforma.