Endpoints Dedicados
Ultralytics permite a implementação de YOLO em terminais dedicados em 43 regiões globais. Cada terminal é um serviço de locatário único com autoescala, um URL de terminal exclusivo e monitoramento independente.

Criar Endpoint
Na guia Implantação
Implemente um modelo a partir do seu Deploy tab:
- Navegue até o seu modelo
- Clique na aba Implantar
- Selecione uma região na tabela de regiões (classificadas por latência a partir da sua localização)
- Clique em Implementar na linha da região
O nome da implementação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo11n-iowa).
Na página Implantações
Crie uma implementação a partir do global Deploy página na barra lateral:
- Clique em Nova implementação
- Selecione um modelo no seletor de modelos
- Selecione uma região no mapa ou na tabela
- Opcionalmente, personalize o nome da implementação e os recursos
- Clique em Implantar modelo

Ciclo de vida da implementação
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: Delete
Seleção de Região
Escolha entre 43 regiões em todo o mundo. O mapa interativo da região e a tabela mostram:
- Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
- Regiões implementadas: destacadas com um selo «Implementado»
- Regiões de implantação: Indicador de pulso animado
- Destaque bidirecional: passar o cursor sobre o mapa destaca a linha da tabela e vice-versa.

A tabela de regiões no modelo Deploy A guia inclui:
| Coluna | Descrição |
|---|---|
| Localização | Cidade e país com ícone de bandeira |
| Zona | Identificador da região |
| Latência | Tempo de ping medido (mediana de 3 pings) |
| Distância | Distância da sua localização em km |
| Ações | Botão Implantar ou selo de status "Implantado" |
Caixa de diálogo Nova implementação
O New Deployment diálogo (da global Deploy página) mostra uma tabela de regiões mais simples, com apenas as colunas Localização, Latência e Seleção.
Escolha com Sabedoria
Selecione a região mais próxima dos seus utilizadores para obter a menor latência. Use o botão Rescan para medir novamente a latência a partir da sua localização atual.
Regiões Disponíveis
| Zona | Localização |
|---|---|
| us-central1 | Iowa, EUA |
| us-east1 | Carolina do Sul, EUA |
| us-east4 | Virgínia do Norte, EUA |
| us-east5 | Columbus, EUA |
| us-south1 | Dallas, EUA |
| us-west1 | Oregon, EUA |
| us-west2 | Los Angeles, EUA |
| us-west3 | Salt Lake City, EUA |
| us-west4 | Las Vegas, EUA |
| northamerica-northeast1 | Montreal, Canadá |
| northamerica-northeast2 | Toronto, Canadá |
| norteamérica-sul1 | Querétaro, México |
| southamerica-east1 | São Paulo, Brasil |
| southamerica-west1 | Santiago, Chile |
| Zona | Localização |
|---|---|
| europe-west1 | St. Ghislain, Bélgica |
| europe-west2 | Londres, Reino Unido |
| europe-west3 | Frankfurt, Alemanha |
| europe-west4 | Eemshaven, Países Baixos |
| europe-west6 | Zurique, Suíça |
| europe-west8 | Milão, Itália |
| europe-west9 | Paris, França |
| europe-west10 | Berlim, Alemanha |
| europe-west12 | Turim, Itália |
| europe-north1 | Hamina, Finlândia |
| europa-norte2 | Estocolmo, Suécia |
| europe-central2 | Varsóvia, Polônia |
| europe-southwest1 | Madrid, Espanha |
| Zona | Localização |
|---|---|
| asia-east1 | Changhua, Taiwan |
| asia-east2 | Kowloon, Hong Kong |
| asia-northeast1 | Tóquio, Japão |
| asia-northeast2 | Osaka, Japão |
| asia-northeast3 | Seul, Coreia do Sul |
| asia-south1 | Mumbai, Índia |
| asia-south2 | Deli, Índia |
| asia-southeast1 | Jurong West, Singapura |
| asia-southeast2 | Jacarta, Indonésia |
| ásia-sudeste3 | Bangkok, Tailândia |
| australia-southeast1 | Sydney, Austrália |
| australia-southeast2 | Melbourne, Austrália |
| Zona | Localização |
|---|---|
| África-sul1 | Joanesburgo, África do Sul |
| me-central1 | Doha, Catar |
| me-central2 | Dammam, Arábia Saudita |
| me-west1 | Tel Aviv, Israel |
Configuração do Endpoint
Caixa de diálogo Nova implementação
O New Deployment O diálogo fornece:
| Configurando | Descrição | Padrão |
|---|---|---|
| Modelo | Selecione entre os modelos concluídos | - |
| Região | Região de implantação | - |
| Nome da implementação | Gerado automaticamente, editável | - |
| CPU | CPU (1-8) | 1 |
| Memória (GB) | Alocação de memória (1-32 GB) | 2 |

As definições de recursos estão disponíveis na secção Recursos, que pode ser recolhida. As implementações utilizam a escala para zero por predefinição (instâncias mínimas = 0, instâncias máximas = 1) — só paga pelo tempo de inferência ativo.
Nomes gerados automaticamente
O nome da implantação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo11n-iowa). Se implementar o mesmo modelo na mesma região novamente, um sufixo numérico será adicionado (por exemplo, yolo11n-iowa-2).
Guia Implantação (Implantação rápida)
Ao implementar a partir do modelo Deploy Na guia, os pontos finais são criados com recursos padrão (1 CPU, 2 GB de memória) com a escala para zero ativada. O nome da implementação é gerado automaticamente.
Gerenciar Endpoints
Modos de visualização
A lista de implementações suporta três modos de visualização:
| Modo | Descrição |
|---|---|
| Cartões | Cartões detalhados com registos, exemplos de código, painel de previsão |
| Compacto | Grelha de cartões mais pequenos com métricas-chave |
| Tabela | Tabela de dados com colunas classificáveis e pesquisa |

Cartão de implementação (visualização de cartões)
Cada cartão de implementação na visualização de cartões mostra:
- Cabeçalho: Nome, bandeira da região, emblema de estado, botões iniciar/parar/eliminar
- URL do ponto final: URL copiável com link para a documentação da API
- Métricas: Número de solicitações (24 horas), latência P95, taxa de erros
- Verificação de saúde: Indicador de saúde em tempo real com latência e atualização manual
- Abas:
Logs,Code, ePredict
O Logs A guia exibe entradas recentes do registo com filtragem por gravidade (Todas / Erros). A Code A guia mostra exemplos de código prontos para uso em Python, JavaScript e cURL com o URL do seu endpoint real e a chave da API. O Predict A guia fornece um painel de previsão embutido para testes diretamente na implementação.
Estados de implementação
| Status | Descrição |
|---|---|
| Criando | A implementação está a ser configurada |
| Implementação | O contentor está a começar |
| Pronto | O terminal está ativo e a aceitar pedidos |
| Parar | O terminal está a ser desligado |
| Parou | O terminal está em pausa (sem cobrança) |
| Falha | A implementação falhou (ver mensagem de erro) |
URL do Endpoint
Cada ponto final tem um URL exclusivo, por exemplo:
https://predict-abc123.run.app

Clique no botão Copiar para copiar o URL. Clique no ícone Docs para visualizar a documentação da API gerada automaticamente para o endpoint.
Gerenciamento do Ciclo de Vida
Controle o estado do seu endpoint:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff
| Ação | Descrição |
|---|---|
| Iniciar | Retomar um endpoint parado |
| Parar | Pausar o endpoint (sem cobrança) |
| Excluir | Remover endpoint permanentemente |
Parar Endpoint
Pare um endpoint para pausar a cobrança:
- Clique no ícone de pausa no cartão de implementação
- O estado do terminal muda para «A parar» e, em seguida, para «Parado».
Endpoints parados:
- Não aceitam requisições
- Não geram cobranças
- Pode ser reiniciado a qualquer momento
Excluir Endpoint
Remover permanentemente um endpoint:
- Clique no ícone de eliminação (lixo) no cartão de implementação.
- Confirme a eliminação na caixa de diálogo
Ação Permanente
A exclusão é imediata e permanente. Você sempre pode criar um novo endpoint.
Utilizando Endpoints
Autenticação
Cada implementação é criada com uma chave API da sua conta. Inclua-a nas solicitações:
Authorization: Bearer YOUR_API_KEY
O prefixo da chave API é exibido no rodapé do cartão de implementação para identificação. Gere chaves a partir de Chaves API.
Sem limites de taxa
Os pontos finais dedicados não estão sujeitos aos limites de taxa da API da plataforma. As solicitações vão diretamente para o seu serviço dedicado, portanto, a taxa de transferência é limitada apenas pela CPU, memória e configuração de dimensionamento do seu ponto final. Essa é uma vantagem importante em relação à inferência partilhada, que tem uma taxa limitada a 20 solicitações/minuto por chave API.
Exemplo de Requisição
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");
// Send image for inference
const response = await fetch(
"https://predict-abc123.run.app/predict",
{
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
}
);
const result = await response.json();
console.log(result);
curl -X POST \
"https://predict-abc123.run.app/predict" \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@image.jpg" \
-F "conf=0.25" \
-F "iou=0.7" \
-F "imgsz=640"
Parâmetros da solicitação
| Parâmetro | Tipo | Padrão | Descrição |
|---|---|---|---|
file | arquivo | - | Ficheiro de imagem (obrigatório) |
conf | float | 0.25 | Limite mínimo de confiança |
iou | float | 0.7 | Limite de IoU da NMS |
imgsz | int | 640 | Tamanho da imagem de entrada |
normalize | string | - | Retornar coordenadas normalizadas |
Formato da Resposta
O mesmo que inferência compartilhada com campos específicos da tarefa.
Preços
Endpoints dedicados são cobrados com base em:
| Componente | Taxa |
|---|---|
| CPU | Por vCPU-segundo |
| Memória | Por GB-segundo |
| Requisições | Por milhão de requisições |
Otimização de Custos
- Use o scale-to-zero para endpoints de desenvolvimento
- Defina o número máximo de instâncias apropriado
- Monitore o uso no painel de Monitoramento
- Verifique os custos em Definições > Faturação
FAQ
Quantos endpoints posso criar?
Os limites dos terminais dependem do plano:
- Gratuito: até 3 implementações
- Prós: Até 10 implementações
- Empresa: Implementações ilimitadas
Cada modelo ainda pode ser implementado em várias regiões dentro da sua quota do plano.
Posso alterar a região após a implantação?
Não, as regiões são fixas. Para alterar as regiões:
- Exclua o endpoint existente
- Crie um novo endpoint na região desejada
Como gerencio a implantação multi-região?
Para cobertura global:
- Implante em várias regiões
- Use um balanceador de carga ou roteamento DNS
- Encaminhe os usuários para o endpoint mais próximo
Qual é o tempo de inicialização a frio?
O tempo de inicialização a frio depende do tamanho do modelo e se o contentor já está armazenado em cache na região. Intervalos típicos:
| Cenário | Cold Start |
|---|---|
| Contentor em cache | ~5-15 segundos |
| Primeira implementação/região | ~15-45 segundos |
A verificação de integridade usa um tempo limite de 55 segundos para acomodar as piores situações de inicialização a frio.
Posso usar domínios personalizados?
Domínios personalizados estarão disponíveis em breve. Atualmente, os endpoints utilizam URLs geradas pela plataforma.