Ir para o conteúdo

Implantação

Ultralytics Platform fornece opções abrangentes de implantação para colocar seus modelos YOLO em produção. Teste modelos com inferência baseada em navegador, implante em endpoints dedicados em 43 regiões globais e monitore o desempenho em tempo real.

Visão geral

A seção de Implantação ajuda você a:

  • Testar modelos diretamente no navegador com o Predict guia
  • Implantar em endpoints dedicados em 43 regiões globais
  • Monitorar métricas de solicitação, logs e verificações de saúde
  • Escalar automaticamente com o tráfego (incluindo escala para zero)

Plataforma Ultralytics Página de Implantação Mapa Mundial com Cartões de Visão Geral

Opções de Implantação

Ultralytics Platform oferece múltiplos caminhos de implantação:

OpçãoDescriçãoIdeal Para
Aba PreverInferência baseada em navegador com imagem, webcam e exemplosDesenvolvimento, validação
Inferência CompartilhadaServiço multi-tenant em 3 regiõesUso leve, testes
Endpoints DedicadosServiços de locatário único em 43 regiõesProdução, baixa latência

Fluxo de Trabalho

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescrição
TestarValidar modelo com o Predict guia
ConfigurarSelecione a região, os recursos e o nome da implantação
ImplantaçãoCrie um endpoint dedicado a partir do Deploy guia
Monitorartrack requisições, latência, erros e logs em Monitoramento

Arquitetura

Inferência Compartilhada

O serviço de inferência compartilhado é executado em 3 regiões-chave, roteando automaticamente as solicitações com base na sua região de dados:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiãoLocalização
EUAIowa, EUA
UEBélgica, Europa
APHong Kong, Ásia-Pacífico

Endpoints Dedicados

Implemente em 43 regiões em todo o mundo na Ultralytics Cloud:

  • Américas: 14 regiões
  • Europa: 13 regiões
  • Ásia-Pacífico: 12 regiões
  • Oriente Médio e África: 4 regiões

Cada endpoint é um serviço de tenant único com:

  • Recursos de computação dedicados (CPU e memória configuráveis)
  • Dimensionamento automático (reduz para zero quando ocioso)
  • URL de endpoint único
  • Monitoramento independente, logs e verificações de saúde

Página de Implantações

Acesse a página de implantações globais na barra lateral em Deploy. Esta página mostra:

  • Mapa mundial com marcadores de regiões implantadas (mapa interativo)
  • Cartões de Visão Geral: Total de Requisições (24h), Implantações Ativas, Taxa de Erro (24h), Latência P95 (24h)
  • Lista de Implantações com três modos de visualização: cartões, compacto e tabela
  • Nova Implantação botão para criar endpoints a partir de qualquer modelo concluído

Plataforma Ultralytics Página de Implantação Cartões de Visão Geral e Lista de Implantações

Polling Automático

A página consulta a cada 30 segundos para atualizações de métricas. Quando as implantações estão em um estado de transição (criação, implantação, interrupção), a frequência de consulta aumenta para a cada 2-3 segundos para um feedback quase instantâneo.

Principais Características

Cobertura Global

Implemente próximo aos seus usuários com 43 regiões cobrindo:

  • América do Norte, América do Sul
  • Europa, Oriente Médio, África
  • Ásia-Pacífico, Oceania

Autoescalabilidade

Endpoints escalam automaticamente:

  • Escala para zero: Sem custo quando ocioso (padrão)
  • Escalar: Lidar com picos de tráfego automaticamente

Economia de Custos

O escalonamento para zero é ativado por padrão (instâncias mínimas = 0). Você paga apenas pelo tempo de inferência ativo.

Baixa Latência

Endpoints dedicados oferecem:

  • Inicialização a frio: ~5-15 segundos (contêiner em cache), até ~45 segundos (primeiro deploy)
  • Inferência aquecida: 50-200ms (dependente do modelo)
  • Roteamento regional para desempenho ideal

Verificações de Integridade

Cada implantação em execução inclui uma verificação automática de integridade com:

  • Indicador de status ao vivo (saudável/não saudável)
  • Exibição da latência de resposta
  • Tentativa automática em caso de falha (verifica a cada 20 segundos)
  • Botão de atualização manual

Início Rápido

Implemente um modelo em menos de 2 minutos:

  1. Treinar ou carregar um modelo para um projeto
  2. Vá para a aba Deploy do modelo
  3. Selecione uma região na tabela de latência
  4. Clique em Implantar — seu endpoint está ativo

Implantação Rápida

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Uma vez implantado, use o URL do endpoint com sua chave de API para enviar requisições de inferência de qualquer aplicação.

FAQ

Qual a diferença entre inferência compartilhada e dedicada?

FuncionalidadeCompartilhadoDedicado
LatênciaVariávelConsistente
CustoPagamento por solicitaçãoPagamento pelo tempo de atividade
EscalaLimitadoConfigurável
Regiões343
URLGenéricoPersonalizado

Quanto tempo leva a implantação?

A implantação de endpoint dedicado geralmente leva de 1 a 2 minutos:

  1. Pull da imagem (~30s)
  2. Inicialização do contêiner (~30s)
  3. Verificação de integridade (~30s)

Posso implantar vários modelos?

Sim, cada modelo pode ter múltiplos endpoints em diferentes regiões. Não há limite para o total de endpoints (sujeito ao seu plano).

O que acontece quando um endpoint está ocioso?

Com escala para zero habilitada:

  • O endpoint é reduzido após inatividade
  • A primeira solicitação aciona o início a frio
  • As solicitações subsequentes são rápidas

As primeiras requisições após um período de inatividade acionam um cold start.



📅 Criado há 2 meses ✏️ Atualizado há 25 dias
glenn-jochersergiuwaxmann

Comentários