Meet YOLO26: next-gen vision AI.

Link to this sectionEndpoints Dedicados#

A Ultralytics Platform permite a implementação de modelos YOLO em endpoints dedicados em 43 regiões globais. Cada endpoint é um serviço de locatário único com comportamento de escala para zero, um URL de endpoint exclusivo e monitoramento independente.

Guia de Implementação de Modelo da Ultralytics Platform com Mapa de Regiões e Tabela

Link to this sectionCriar Endpoint#

Link to this sectionA partir da guia Deploy#

Implemente um modelo a partir da sua guia Deploy:

  1. Navegue até seu modelo
  2. Clique na guia Deploy
  3. Selecione uma região no mapa-múndi interativo — as regiões são codificadas por cores de acordo com a latência a partir da sua localização em um gradiente de verde para vermelho (regiões mais rápidas são mais verdes, regiões mais lentas são mais vermelhas)
  4. Clique em Deploy na linha da região

O nome da implementação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa).

Link to this sectionA partir da página Deployments#

Crie uma implementação a partir da página global Deploy na barra lateral:

  1. Clique em New Deployment
  2. Selecione um modelo no seletor de modelos
  3. Selecione uma região no mapa ou na tabela
  4. Revise o nome da implementação gerado automaticamente (editável) e os recursos padrão
  5. Clique em Deploy Model

Caixa de Diálogo de Nova Implementação da Ultralytics Platform com Seletor de Modelo e Mapa de Regiões

Link to this sectionCiclo de Vida de Implantação#

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Link to this sectionSeleção de Região#

Escolha entre 43 regiões em todo o mundo. O mapa de regiões interativo e a tabela mostram:

  • Pinos de região: Codificados por cores por latência em um gradiente de verde para vermelho (regiões mais rápidas são mais verdes, regiões mais lentas são mais vermelhas)
  • Regiões implementadas: Destacadas com um selo "Deployed"
  • Regiões em implementação: Indicador de pulso animado
  • Destaque bidirecional: Passar o mouse sobre o mapa destaca a linha da tabela, e vice-versa

Tabela de Latência de Região da Guia Deploy da Ultralytics Platform Ordenada por Latência

A tabela de regiões na guia Deploy do modelo inclui:

ColunaDescrição
LocalizaçãoCidade e país com ícone de bandeira
ZonaIdentificador da região
LatênciaTempo de ping medido (mediana de 3 pings)
DistânciaDistância da sua localização em km
AçõesBotão Deploy ou selo de status "Deployed"
Caixa de Diálogo Nova Implementação

A caixa de diálogo New Deployment (a partir da página global Deploy) mostra uma tabela de regiões mais simples com apenas as colunas Localização, Latência e Selecionar.

Escolha com Sabedoria

Selecione a região mais próxima dos seus usuários para obter a menor latência. Use o botão Rescan para medir novamente a latência a partir da sua localização atual.

Link to this sectionRegiões Disponíveis#

ZonaLocalização
us-central1Iowa, EUA
us-east1Carolina do Sul, EUA
us-east4Virgínia do Norte, EUA
us-east5Columbus, EUA
us-south1Dallas, EUA
us-west1Oregon, EUA
us-west2Los Angeles, EUA
us-west3Salt Lake City, EUA
us-west4Las Vegas, EUA
northamerica-northeast1Montreal, Canadá
northamerica-northeast2Toronto, Canadá
northamerica-south1Querétaro, México
southamerica-east1São Paulo, Brasil
southamerica-west1Santiago, Chile

Link to this sectionConfiguração de Endpoint#

Link to this sectionCaixa de Diálogo Nova Implementação#

A caixa de diálogo New Deployment fornece:

ConfiguraçãoDescriçãoPredefinição
ModeloSelecione a partir de modelos concluídos-
RegiãoRegião da implantação-
Nome da ImplantaçãoGerado automaticamente, editável-
Núcleos de CPUPadrão fixo1
Memória (GB)Padrão fixo2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

As implantações usam padrões fixos de 1 CPU, 2 GiB de memória, minInstances = 0 e maxInstances = 1. Elas reduzem para zero quando ociosas, para que você pague apenas pelo tempo de inferência ativo.

Nomes Gerados Automaticamente

O nome da implantação é gerado automaticamente a partir do nome do modelo e da cidade da região (por exemplo, yolo26n-iowa). Se você implantar o mesmo modelo na mesma região novamente, um sufixo numérico será adicionado (por exemplo, yolo26n-iowa-2).

Link to this sectionGuia Deploy (Implantação Rápida)#

Ao implantar a partir da guia Deploy do modelo, os endpoints são criados com recursos padrão (1 CPU, 2 GB de memória) com a escala para zero ativada. O nome da implantação é gerado automaticamente.

Link to this sectionGerenciar Endpoints#

Link to this sectionModos de Visualização#

A lista de implantações suporta três modos de visualização:

ModoDescrição
CartõesCartões de detalhes completos com logs, exemplos de código, painel de previsão
CompactoGrade de cartões menores com métricas principais
TabelaDataTable com colunas ordenáveis e pesquisa

Ultralytics Platform Deploy Tab Active Deployments Cards View

Link to this sectionCartão de Implantação (Visualização de Cartões)#

Cada cartão de implantação na visualização de cartões mostra:

  • Cabeçalho: Nome, bandeira da região, selo de status, botões de iniciar/parar/excluir
  • URL do Endpoint: URL copiável com link para a documentação da API
  • Métricas: Contagem de solicitações (24h), latência P95, taxa de erro
  • Verificação de integridade: Indicador de integridade ao vivo com latência e atualização manual
  • Guias: Logs, Code e Predict

A guia Logs mostra entradas de log recentes com filtragem de gravidade (Tudo / Erros). A guia Code mostra exemplos de código prontos para uso em Python, JavaScript e cURL com sua URL de endpoint real e chave de API. A guia Predict fornece um painel de previsão em linha para testes diretamente na implantação.

Link to this sectionStatus de Implantação#

StatusDescrição
CriandoA implantação está sendo configurada
ImplantandoO contêiner está iniciando
ProntoO endpoint está ativo e aceitando solicitações
ParandoO endpoint está sendo desligado
ParadoO endpoint está pausado (sem faturamento)
FailedA implantação falhou (consulte a mensagem de erro)

Link to this sectionURL do Endpoint#

Cada endpoint possui uma URL única, por exemplo:

https://predict-abc123.run.app

Ultralytics Platform Deployment Card Endpoint Url With Copy Button

Clique no botão copiar para copiar a URL. Clique no ícone de documentação para ver a documentação da API gerada automaticamente para o endpoint.

Link to this sectionGerenciamento de Ciclo de Vida#

Controle o estado do seu endpoint:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
AçãoDescrição
IniciarRetomar um endpoint parado
PararPausar o endpoint (sem faturamento)
ExcluirRemover permanentemente o endpoint

Link to this sectionParar Endpoint#

Pare um endpoint para pausar o faturamento:

  1. Clique no ícone de pausa no cartão de implantação
  2. O status do endpoint muda para "Parando" e depois para "Parado"

Endpoints parados:

  • Não aceitam solicitações
  • Não incorrem em cobranças
  • Podem ser reiniciados a qualquer momento

Link to this sectionExcluir Endpoint#

Remover permanentemente um endpoint:

  1. Clique no ícone de exclusão (lixeira) no cartão de implantação
  2. Confirme a exclusão na caixa de diálogo
Ação Permanente

A exclusão é imediata e permanente. Você sempre pode criar um novo endpoint.

Link to this sectionUsando Endpoints#

Link to this sectionAutenticação#

Cada implantação é criada com uma chave de API da sua conta. Inclua-a nas solicitações:

Authorization: Bearer YOUR_API_KEY

O prefixo da chave de API é exibido no rodapé do cartão de implantação para identificação. Gere chaves a partir de API Keys.

Link to this sectionSem Limites de Taxa#

Solicitações enviadas diretamente para a URL do seu endpoint dedicado não estão sujeitas aos limites de taxa da Platform API — o throughput é limitado apenas pela CPU, memória e configuração de escala do seu endpoint. (Solicitações enviadas via proxy pela Platform API, como o testador no navegador, ainda utilizam o limite padrão de 20 solicitações/min para predições.) Esta é uma vantagem fundamental sobre a inferência compartilhada, que tem o limite de taxa de 20 solicitações/min por API key.

Link to this sectionExemplo de solicitação#

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Link to this sectionParâmetros de solicitação#

ParâmetroTipoPredefiniçãoIntervaloDescrição
filearquivo--Arquivo de imagem ou vídeo (obrigatório)
conffloat0.250.01 – 1.0Limite mínimo de confiança
ioufloat0,70.0 – 0.95Limite de IoU do NMS
imgszint64032 – 1280Tamanho da imagem de entrada em pixels
normalizeboolfalse-Retornar coordenadas de caixa delimitadora como 0 – 1
decimalsint50 – 10Precisão decimal para valores de coordenadas
sourcestring--URL da imagem ou string base64 (alternativa para file)
Inferência de vídeo

Endpoints dedicados aceitam tanto imagens quanto vídeos via parâmetro file.

  • Formatos de imagem (até 100 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
  • Formatos de vídeo (até 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Cada quadro de vídeo é processado individualmente e os resultados são retornados por quadro. Você também pode passar uma URL pública de imagem ou uma imagem codificada em base64 via parâmetro source em vez de file.

Link to this sectionFormato de Resposta#

Igual à inferência compartilhada com campos específicos da tarefa.

Link to this sectionPreços#

Endpoints dedicados básicos são gratuitos em todos os planos. Configurações de recursos mais elevados (mais vCPUs, mais memória, warm start) oferecerão precificação baseada em uso no futuro.

Otimização de custos
  • Use escala para zero (padrão) para que os endpoints funcionem apenas quando receberem solicitações
  • Defina instâncias máximas apropriadas para o seu tráfego
  • Monitore o uso no painel de Monitoramento

Link to this sectionFAQ#

Link to this sectionQuantos endpoints posso criar?#

Os limites de endpoint dependem do plano:

  • Free: Até 3 implantações
  • Pro: Até 10 implantações
  • Enterprise: Implantações ilimitadas

Cada modelo ainda pode ser implantado em várias regiões dentro da cota do seu plano.

Link to this sectionPosso alterar a região após a implantação?#

Não, as regiões são fixas. Para alterar as regiões:

  1. Exclua o endpoint existente
  2. Crie um novo endpoint na região desejada

Link to this sectionComo lido com a implantação em várias regiões?#

Para cobertura global:

  1. Implante em várias regiões
  2. Use um balanceador de carga ou roteamento DNS
  3. Encaminhe os usuários para o endpoint mais próximo

Link to this sectionQual é o tempo de cold start?#

O tempo de cold start depende do tamanho do modelo e se o contêiner já está em cache na região. Intervalos típicos:

CenárioCold Start
Contêiner em cache~5-15 segundos
Primeira implantação/região~15-45 segundos

A verificação de integridade usa um tempo limite de 55 segundos para acomodar os piores casos de cold start.

Link to this sectionPosso usar domínios personalizados?#

Domínios personalizados chegarão em breve. Atualmente, os endpoints usam URLs geradas pela plataforma.

Comentários