Endpoints Dedicados
A Ultralytics Platform permite a implementação de modelos YOLO em endpoints dedicados em 43 regiões globais. Cada endpoint é um serviço de locatário único com comportamento de escala para zero, um URL de endpoint exclusivo e monitoramento independente.

Criar Endpoint
A partir da Guia de Implementação
Implemente um modelo a partir da sua guia Deploy:
- Navega para o teu modelo
- Clique na guia Deploy
- Selecione uma região no mapa-múndi interativo — as regiões são codificadas por cores de acordo com a latência a partir da sua localização (verde < 100ms, amarelo < 200ms, vermelho > 200ms)
- Clique em Deploy na linha da região
O nome da implementação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa).
A partir da Página de Implementações
Crie uma implementação a partir da página global Deploy na barra lateral:
- Clique em New Deployment
- Selecione um modelo no seletor de modelos
- Selecione uma região no mapa ou na tabela
- Revise o nome da implementação gerado automaticamente (editável) e os recursos padrão
- Clique em Deploy Model

Ciclo de Vida de Implementação
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: DeleteSeleção de Região
Escolha entre 43 regiões em todo o mundo. O mapa e a tabela de regiões interativos mostram:
- Pinos de região: Codificados por cores por latência (verde < 100ms, amarelo < 200ms, vermelho > 200ms)
- Regiões implementadas: Destacadas com um emblema "Deployed"
- Regiões em implementação: Indicador de pulsação animado
- Destaque bidirecional: Passar o mouse sobre o mapa destaca a linha da tabela, e vice-versa

A tabela de regiões na guia Deploy do modelo inclui:
| Coluna | Descrição |
|---|---|
| Localização | Cidade e país com ícone de bandeira |
| Zona | Identificador da região |
| Latência | Tempo de ping medido (mediana de 3 pings) |
| Distância | Distância da sua localização em km |
| Ações | Botão de implementar ou emblema de status "Deployed" |
A caixa de diálogo New Deployment (a partir da página global Deploy) mostra uma tabela de regiões mais simples com apenas as colunas Localização, Latência e Selecionar.
Selecione a região mais próxima dos seus usuários para obter a menor latência. Use o botão Rescan para medir novamente a latência a partir da sua localização atual.
Regiões Disponíveis
| Zona | Localização |
|---|---|
| us-central1 | Iowa, EUA |
| us-east1 | Carolina do Sul, EUA |
| us-east4 | Virgínia do Norte, EUA |
| us-east5 | Columbus, EUA |
| us-south1 | Dallas, EUA |
| us-west1 | Oregon, EUA |
| us-west2 | Los Angeles, EUA |
| us-west3 | Salt Lake City, EUA |
| us-west4 | Las Vegas, EUA |
| northamerica-northeast1 | Montreal, Canadá |
| northamerica-northeast2 | Toronto, Canadá |
| northamerica-south1 | Querétaro, México |
| southamerica-east1 | São Paulo, Brasil |
| southamerica-west1 | Santiago, Chile |
Configuração de Endpoint
Caixa de Diálogo de Nova Implementação
A caixa de diálogo New Deployment fornece:
| Configuração | Descrição | Predefinição |
|---|---|---|
| Modelo | Selecione a partir de modelos concluídos | - |
| Região | Região de implantação | - |
| Nome da Implantação | Gerado automaticamente, editável | - |
| Núcleos de CPU | Padrão fixo | 1 |
| Memória (GB) | Padrão fixo | 2 |

As implantações usam padrões fixos de 1 CPU, 2 GiB de memória, minInstances = 0 e maxInstances = 1. Elas reduzem a escala para zero quando inativas, para que você pague apenas pelo tempo de inferência ativo.
O nome da implantação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa). Se você implantar o mesmo modelo na mesma região novamente, um sufixo numérico será adicionado (por exemplo, yolo26n-iowa-2).
Aba Implantação (Implantação Rápida)
Ao implantar a partir da aba Deploy do modelo, os endpoints são criados com recursos padrão (1 CPU, 2 GB de memória) com a redução de escala para zero ativada. O nome da implantação é gerado automaticamente.
Gerenciar Endpoints
Modos de visualização
A lista de implantações suporta três modos de visualização:
| Modo | Descrição |
|---|---|
| Cartões | Cartões com detalhes completos, logs, exemplos de código e painel de predição |
| Compacto | Grade de cartões menores com métricas principais |
| Tabela | Tabela de dados (DataTable) com colunas classificáveis e pesquisa |

Cartão de Implantação (Visualização de Cartões)
Cada cartão de implantação na visualização de cartões mostra:
- Cabeçalho: Nome, bandeira da região, selo de status, botões de iniciar/parar/excluir
- URL do Endpoint: URL copiável com link para a documentação da API
- Métricas: Contagem de solicitações (24h), latência P95, taxa de erro
- Verificação de integridade: Indicador de integridade ao vivo com latência e atualização manual
- Abas:
Logs,CodeePredict
A aba Logs mostra entradas de log recentes com filtragem de gravidade (Tudo / Erros). A aba Code mostra exemplos de código prontos para uso em Python, JavaScript e cURL com a sua URL de endpoint e chave de API reais. A aba Predict fornece um painel de predição embutido para testes diretamente na implantação.
Status de Implantação
| Status | Descrição |
|---|---|
| Criando | A implantação está sendo configurada |
| Implantando | O container está iniciando |
| Pronto | O endpoint está ativo e aceitando solicitações |
| Parando | O endpoint está sendo desligado |
| Parado | O endpoint está pausado (sem cobrança) |
| Failed | A implantação falhou (veja a mensagem de erro) |
URL do Endpoint
Cada endpoint possui uma URL exclusiva, por exemplo:
https://predict-abc123.run.app

Clique no botão de copiar para copiar a URL. Clique no ícone de documentos para visualizar a documentação da API gerada automaticamente para o endpoint.
Gerenciamento de Ciclo de Vida
Controle o estado do seu endpoint:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| Ação | Descrição |
|---|---|
| Iniciar | Retomar um endpoint parado |
| Parar | Pausar o endpoint (sem cobrança) |
| Excluir | Remover permanentemente o endpoint |
Parar Endpoint
Pare um endpoint para pausar a cobrança:
- Clique no ícone de pausa no cartão de implantação
- O status do endpoint muda para "Parando" e, em seguida, para "Parado"
Endpoints parados:
- Não aceitam solicitações
- Não geram cobranças
- Podem ser reiniciados a qualquer momento
Excluir Endpoint
Remover permanentemente um endpoint:
- Clique no ícone de exclusão (lixeira) no cartão de implantação
- Confirme a exclusão na caixa de diálogo
A exclusão é imediata e permanente. Você sempre pode criar um novo endpoint.
Usando Endpoints
Autenticação
Cada implantação é criada com uma chave de API da sua conta. Inclua-a nas solicitações:
Authorization: Bearer YOUR_API_KEYO prefixo da chave de API é exibido no rodapé do cartão de implantação para identificação. Gere chaves a partir de API Keys.
Sem Limites de Taxa
Endpoints dedicados não estão sujeitos aos limites de taxa da API da Platform. As requisições vão diretamente para o teu serviço dedicado, portanto, o throughput é limitado apenas pela CPU, memória e configuração de escalonamento do teu endpoint. Esta é uma vantagem fundamental em relação à inferência compartilhada, que tem uma taxa limitada a 20 requisições/min por chave de API.
Exemplo de Requisição
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())Parâmetros de Requisição
| Parâmetro | Tipo | Predefinição | Intervalo | Descrição |
|---|---|---|---|---|
file | arquivo | - | - | Arquivo de imagem ou vídeo (obrigatório) |
conf | float | 0.25 | 0.01 – 1.0 | Threshold de confiança mínima |
iou | float | 0.7 | 0.0 – 0.95 | Threshold de IoU do NMS |
imgsz | int | 640 | 32 – 1280 | Tamanho da imagem de entrada em pixels |
normalize | bool | false | - | Retornar coordenadas da BBox como 0 – 1 |
decimals | int | 5 | 0 – 10 | Precisão decimal para valores de coordenadas |
source | string | - | - | URL de imagem ou string base64 (alternativa ao file) |
Endpoints dedicados aceitam imagens e vídeos através do parâmetro file.
- Formatos de imagem (até 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- Formatos de vídeo (até 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
Cada frame de vídeo é processado individualmente e os resultados são retornados por frame. Também podes passar uma URL pública de imagem ou uma imagem codificada em base64 através do parâmetro source em vez de file.
Formato de Resposta
O mesmo que na inferência compartilhada com campos específicos da tarefa.
Preços
Endpoints dedicados básicos são gratuitos em todos os planos. Configurações de maior recurso (mais vCPUs, mais memória, inicialização a quente) oferecerão preços baseados em uso no futuro.
- Usa o escalonamento para zero (padrão) para que os endpoints funcionem apenas ao receber requisições
- Define instâncias máximas adequadas para o teu tráfego
- Monitoriza o uso no painel de Monitoramento
FAQ
Quantos endpoints posso criar?
Os limites de endpoint dependem do plano:
- Free: Até 3 implantações
- Pro: Até 10 implantações
- Enterprise: Implantações ilimitadas
Cada modelo ainda pode ser implantado em várias regiões dentro da cota do teu plano.
Posso alterar a região após a implantação?
Não, as regiões são fixas. Para alterar regiões:
- Elimina o endpoint existente
- Cria um novo endpoint na região desejada
Como lidar com a implantação em várias regiões?
Para cobertura global:
- Implantar em várias regiões
- Usar um balanceador de carga ou roteamento DNS
- Encaminhar utilizadores para o endpoint mais próximo
Qual é o tempo de cold start?
O tempo de cold start depende do tamanho do modelo e se o container já está em cache na região. Intervalos típicos:
| Cenário | Cold Start |
|---|---|
| Container em cache | ~5-15 segundos |
| Primeira implantação/região | ~15-45 segundos |
A verificação de integridade utiliza um timeout de 55 segundos para acomodar os piores casos de cold start.
Posso usar domínios personalizados?
Domínios personalizados estarão disponíveis em breve. Atualmente, os endpoints usam URLs geradas pela plataforma.