Endpoints Dedicados

A Ultralytics Platform permite a implementação de modelos YOLO em endpoints dedicados em 43 regiões globais. Cada endpoint é um serviço de locatário único com comportamento de escala para zero, um URL de endpoint exclusivo e monitoramento independente.

Guia de Implementação de Modelo da Ultralytics Platform Com Mapa de Regiões E Tabela

Criar Endpoint

A partir da Guia de Implementação

Implemente um modelo a partir da sua guia Deploy:

Navega para o teu modelo
Clique na guia Deploy
Selecione uma região no mapa-múndi interativo — as regiões são codificadas por cores de acordo com a latência a partir da sua localização (verde < 100ms, amarelo < 200ms, vermelho > 200ms)
Clique em Deploy na linha da região

O nome da implementação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa).

A partir da Página de Implementações

Crie uma implementação a partir da página global Deploy na barra lateral:

Clique em New Deployment
Selecione um modelo no seletor de modelos
Selecione uma região no mapa ou na tabela
Revise o nome da implementação gerado automaticamente (editável) e os recursos padrão
Clique em Deploy Model

Caixa de Diálogo de Nova Implementação da Ultralytics Platform Com Seletor de Modelo E Mapa de Regiões

Ciclo de Vida de Implementação

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Seleção de Região

Escolha entre 43 regiões em todo o mundo. O mapa e a tabela de regiões interativos mostram:

Pinos de região: Codificados por cores por latência (verde < 100ms, amarelo < 200ms, vermelho > 200ms)
Regiões implementadas: Destacadas com um emblema "Deployed"
Regiões em implementação: Indicador de pulsação animado
Destaque bidirecional: Passar o mouse sobre o mapa destaca a linha da tabela, e vice-versa

Tabela de Latência de Região da Guia de Implementação da Ultralytics Platform Ordenada Por Latência

A tabela de regiões na guia Deploy do modelo inclui:

Coluna	Descrição
Localização	Cidade e país com ícone de bandeira
Zona	Identificador da região
Latência	Tempo de ping medido (mediana de 3 pings)
Distância	Distância da sua localização em km
Ações	Botão de implementar ou emblema de status "Deployed"

Caixa de Diálogo de Nova Implementação

A caixa de diálogo New Deployment (a partir da página global Deploy) mostra uma tabela de regiões mais simples com apenas as colunas Localização, Latência e Selecionar.

Escolha com Sabedoria

Selecione a região mais próxima dos seus usuários para obter a menor latência. Use o botão Rescan para medir novamente a latência a partir da sua localização atual.

Regiões Disponíveis

Zona	Localização
us-central1	Iowa, EUA
us-east1	Carolina do Sul, EUA
us-east4	Virgínia do Norte, EUA
us-east5	Columbus, EUA
us-south1	Dallas, EUA
us-west1	Oregon, EUA
us-west2	Los Angeles, EUA
us-west3	Salt Lake City, EUA
us-west4	Las Vegas, EUA
northamerica-northeast1	Montreal, Canadá
northamerica-northeast2	Toronto, Canadá
northamerica-south1	Querétaro, México
southamerica-east1	São Paulo, Brasil
southamerica-west1	Santiago, Chile

Configuração de Endpoint

Caixa de Diálogo de Nova Implementação

A caixa de diálogo New Deployment fornece:

Configuração	Descrição	Predefinição
Modelo	Selecione a partir de modelos concluídos	-
Região	Região de implantação	-
Nome da Implantação	Gerado automaticamente, editável	-
Núcleos de CPU	Padrão fixo	1
Memória (GB)	Padrão fixo	2

Painel de Recursos da Caixa de Diálogo de Nova Implantação da Plataforma Ultralytics Expandido

As implantações usam padrões fixos de 1 CPU, 2 GiB de memória, minInstances = 0 e maxInstances = 1. Elas reduzem a escala para zero quando inativas, para que você pague apenas pelo tempo de inferência ativo.

Nomes Gerados Automaticamente

O nome da implantação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa). Se você implantar o mesmo modelo na mesma região novamente, um sufixo numérico será adicionado (por exemplo, yolo26n-iowa-2).

Aba Implantação (Implantação Rápida)

Ao implantar a partir da aba Deploy do modelo, os endpoints são criados com recursos padrão (1 CPU, 2 GB de memória) com a redução de escala para zero ativada. O nome da implantação é gerado automaticamente.

Gerenciar Endpoints

Modos de visualização

A lista de implantações suporta três modos de visualização:

Modo	Descrição
Cartões	Cartões com detalhes completos, logs, exemplos de código e painel de predição
Compacto	Grade de cartões menores com métricas principais
Tabela	Tabela de dados (DataTable) com colunas classificáveis e pesquisa

Visualização de Cartões de Implantações Ativas da Aba Deploy da Plataforma Ultralytics

Cartão de Implantação (Visualização de Cartões)

Cada cartão de implantação na visualização de cartões mostra:

Cabeçalho: Nome, bandeira da região, selo de status, botões de iniciar/parar/excluir
URL do Endpoint: URL copiável com link para a documentação da API
Métricas: Contagem de solicitações (24h), latência P95, taxa de erro
Verificação de integridade: Indicador de integridade ao vivo com latência e atualização manual
Abas: Logs, Code e Predict

A aba Logs mostra entradas de log recentes com filtragem de gravidade (Tudo / Erros). A aba Code mostra exemplos de código prontos para uso em Python, JavaScript e cURL com a sua URL de endpoint e chave de API reais. A aba Predict fornece um painel de predição embutido para testes diretamente na implantação.

Status de Implantação

Status	Descrição
Criando	A implantação está sendo configurada
Implantando	O container está iniciando
Pronto	O endpoint está ativo e aceitando solicitações
Parando	O endpoint está sendo desligado
Parado	O endpoint está pausado (sem cobrança)
Failed	A implantação falhou (veja a mensagem de erro)

URL do Endpoint

Cada endpoint possui uma URL exclusiva, por exemplo:

https://predict-abc123.run.app

Clique no botão de copiar para copiar a URL. Clique no ícone de documentos para visualizar a documentação da API gerada automaticamente para o endpoint.

Gerenciamento de Ciclo de Vida

Controle o estado do seu endpoint:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff

Ação	Descrição
Iniciar	Retomar um endpoint parado
Parar	Pausar o endpoint (sem cobrança)
Excluir	Remover permanentemente o endpoint

Parar Endpoint

Pare um endpoint para pausar a cobrança:

Clique no ícone de pausa no cartão de implantação
O status do endpoint muda para "Parando" e, em seguida, para "Parado"

Endpoints parados:

Não aceitam solicitações
Não geram cobranças
Podem ser reiniciados a qualquer momento

Excluir Endpoint

Remover permanentemente um endpoint:

Clique no ícone de exclusão (lixeira) no cartão de implantação
Confirme a exclusão na caixa de diálogo

Ação Permanente

A exclusão é imediata e permanente. Você sempre pode criar um novo endpoint.

Usando Endpoints

Autenticação

Cada implantação é criada com uma chave de API da sua conta. Inclua-a nas solicitações:

Authorization: Bearer YOUR_API_KEY

O prefixo da chave de API é exibido no rodapé do cartão de implantação para identificação. Gere chaves a partir de API Keys.

Sem Limites de Taxa

Endpoints dedicados não estão sujeitos aos limites de taxa da API da Platform. As requisições vão diretamente para o teu serviço dedicado, portanto, o throughput é limitado apenas pela CPU, memória e configuração de escalonamento do teu endpoint. Esta é uma vantagem fundamental em relação à inferência compartilhada, que tem uma taxa limitada a 20 requisições/min por chave de API.

Exemplo de Requisição

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Parâmetros de Requisição

Parâmetro	Tipo	Predefinição	Intervalo	Descrição
`file`	arquivo	-	-	Arquivo de imagem ou vídeo (obrigatório)
`conf`	float	0.25	0.01 – 1.0	Threshold de confiança mínima
`iou`	float	0.7	0.0 – 0.95	Threshold de IoU do NMS
`imgsz`	int	640	32 – 1280	Tamanho da imagem de entrada em pixels
`normalize`	bool	false	-	Retornar coordenadas da BBox como 0 – 1
`decimals`	int	5	0 – 10	Precisão decimal para valores de coordenadas
`source`	string	-	-	URL de imagem ou string base64 (alternativa ao `file`)

Inferência de Vídeo

Endpoints dedicados aceitam imagens e vídeos através do parâmetro file.

Formatos de imagem (até 50 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
Formatos de vídeo (até 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Cada frame de vídeo é processado individualmente e os resultados são retornados por frame. Também podes passar uma URL pública de imagem ou uma imagem codificada em base64 através do parâmetro source em vez de file.

Formato de Resposta

O mesmo que na inferência compartilhada com campos específicos da tarefa.

Preços

Endpoints dedicados básicos são gratuitos em todos os planos. Configurações de maior recurso (mais vCPUs, mais memória, inicialização a quente) oferecerão preços baseados em uso no futuro.

Otimização de Custos

Usa o escalonamento para zero (padrão) para que os endpoints funcionem apenas ao receber requisições
Define instâncias máximas adequadas para o teu tráfego
Monitoriza o uso no painel de Monitoramento

FAQ

Quantos endpoints posso criar?

Os limites de endpoint dependem do plano:

Free: Até 3 implantações
Pro: Até 10 implantações
Enterprise: Implantações ilimitadas

Cada modelo ainda pode ser implantado em várias regiões dentro da cota do teu plano.

Posso alterar a região após a implantação?

Não, as regiões são fixas. Para alterar regiões:

Elimina o endpoint existente
Cria um novo endpoint na região desejada

Como lidar com a implantação em várias regiões?

Para cobertura global:

Implantar em várias regiões
Usar um balanceador de carga ou roteamento DNS
Encaminhar utilizadores para o endpoint mais próximo

Qual é o tempo de cold start?

O tempo de cold start depende do tamanho do modelo e se o container já está em cache na região. Intervalos típicos:

Cenário	Cold Start
Container em cache	~5-15 segundos
Primeira implantação/região	~15-45 segundos

A verificação de integridade utiliza um timeout de 55 segundos para acomodar os piores casos de cold start.

Posso usar domínios personalizados?

Domínios personalizados estarão disponíveis em breve. Atualmente, os endpoints usam URLs geradas pela plataforma.

Contributors

GLglenn-jocher⁹ T-t-hakobyan¹ SEsergiuwaxmann¹

Created há 4 mesesUpdated há 4 semanas

Endpoints Dedicados

Criar Endpoint

A partir da Guia de Implementação

A partir da Página de Implementações

Ciclo de Vida de Implementação

Seleção de Região

Regiões Disponíveis

Configuração de Endpoint

Caixa de Diálogo de Nova Implementação

Aba Implantação (Implantação Rápida)

Gerenciar Endpoints

Modos de visualização

Cartão de Implantação (Visualização de Cartões)

Status de Implantação

URL do Endpoint

Gerenciamento de Ciclo de Vida

Parar Endpoint

Excluir Endpoint

Usando Endpoints

Autenticação

Sem Limites de Taxa

Exemplo de Requisição

Parâmetros de Requisição

Formato de Resposta

Preços

FAQ

Quantos endpoints posso criar?

Posso alterar a região após a implantação?

Como lidar com a implantação em várias regiões?

Qual é o tempo de cold start?

Posso usar domínios personalizados?

Comentários