Ir para o conteúdo

Implantação

Ultralytics Platform fornece opções abrangentes de implantação para colocar seus modelos YOLO em produção. Teste modelos com inferência baseada em navegador, implante em endpoints dedicados em 43 regiões globais e monitore o desempenho em tempo real.



Assista: Introdução à Ultralytics - Implementação

Visão geral

A seção de Implantação ajuda você a:

  • Testar modelos diretamente no navegador com o Predict guia
  • Implantar em endpoints dedicados em 43 regiões globais
  • Monitorar métricas de solicitação, logs e verificações de saúde
  • Reduzir para zero quando inativo (atualmente, as implementações executam uma única instância ativa)

Plataforma Ultralytics Página de Implantação Mapa Mundial com Cartões de Visão Geral

Opções de Implantação

Ultralytics Platform oferece múltiplos caminhos de implantação:

OpçãoDescriçãoIdeal Para
Aba PreverInferência baseada em navegador com imagem, webcam e exemplosDesenvolvimento, validação
Inferência CompartilhadaServiço multi-tenant em 3 regiõesUso leve, testes
Endpoints DedicadosServiços de locatário único em 43 regiõesProdução, baixa latência

Fluxo de Trabalho

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescrição
TestarValidar modelo com o Predict guia
ConfigurarSelecione a região e o nome da implementação (as implementações utilizam recursos padrão fixos)
ImplantaçãoCrie um endpoint dedicado a partir do Deploy guia
Monitorartrack requisições, latência, erros e logs em Monitoramento

Arquitetura

Inferência Compartilhada

O serviço de inferência compartilhado é executado em 3 regiões-chave, roteando automaticamente as solicitações com base na sua região de dados:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiãoLocalização
EUAIowa, EUA
UEBélgica, Europa
APHong Kong, Ásia-Pacífico

Endpoints Dedicados

Implemente em 43 regiões em todo o mundo na Ultralytics Cloud:

  • Américas: 14 regiões
  • Europa: 13 regiões
  • Ásia-Pacífico: 12 regiões
  • Oriente Médio e África: 4 regiões

Cada endpoint é um serviço de tenant único com:

  • Recursos padrão de 1 CPU, 2 GiB memória, minInstances=0, maxInstances=1
  • Zerar a escala quando inativo
  • URL de endpoint único
  • Monitoramento independente, logs e verificações de saúde

Página de Implantações

Acesse a página de implantações globais na barra lateral em Deploy. Esta página mostra:

  • Mapa mundial com marcadores de regiões implantadas (mapa interativo)
  • Cartões de Visão Geral: Total de Requisições (24h), Implantações Ativas, Taxa de Erro (24h), Latência P95 (24h)
  • Lista de Implantações com três modos de visualização: cartões, compacto e tabela
  • Nova Implantação botão para criar endpoints a partir de qualquer modelo concluído

Plataforma Ultralytics Página de Implantação Cartões de Visão Geral e Lista de Implantações

Polling Automático

Normalmente, a página atualiza a cada 15 segundos. Quando as implementações se encontram num estado de transição (creating, deploying, ou stopping), a frequência de sondagem aumenta para a cada 3 segundos, para um feedback mais rápido.

Principais Características

Cobertura Global

Implemente próximo aos seus usuários com 43 regiões cobrindo:

  • América do Norte, América do Sul
  • Europa, Oriente Médio, África
  • Ásia-Pacífico, Oceania

Comportamento de escalonamento

Atualmente, os pontos finais comportam-se da seguinte forma:

  • Escala para zero: Sem custo quando ocioso (padrão)
  • Uma única instância ativa: maxInstances está atualmente limitado a 1 em todos os planos

Economia de Custos

O escalonamento para zero é ativado por padrão (instâncias mínimas = 0). Você paga apenas pelo tempo de inferência ativo.

Baixa Latência

Endpoints dedicados oferecem:

  • Inicialização a frio: ~5-15 segundos (contêiner em cache), até ~45 segundos (primeiro deploy)
  • Inferência aquecida: 50-200ms (dependente do modelo)
  • Roteamento regional para desempenho ideal

Verificações de Integridade

Cada implantação em execução inclui uma verificação automática de integridade com:

  • Indicador de status ao vivo (saudável/não saudável)
  • Exibição da latência de resposta
  • Tentativa automática em caso de falha (verifica a cada 20 segundos)
  • Botão de atualização manual

Início Rápido

Implemente um modelo em menos de 2 minutos:

  1. Treinar ou carregar um modelo para um projeto
  2. Vá para a aba Deploy do modelo
  3. Selecione uma região na tabela de latência
  4. Clique em Implantar — seu endpoint está ativo

Implantação Rápida

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Uma vez implantado, use o URL do endpoint com sua chave de API para enviar requisições de inferência de qualquer aplicação.

FAQ

Qual a diferença entre inferência compartilhada e dedicada?

FuncionalidadeCompartilhadoDedicado
LatênciaVariávelConsistente
CustoGratuito (incluído)Gratuito (básico), com base na utilização (avançado)
EscalaLimitadoEscalabilidade até zero, instância única
Regiões343
URLGenéricoPersonalizado
Taxa20 pedidos/minIlimitado

Quanto tempo leva a implantação?

A implantação de endpoint dedicado geralmente leva de 1 a 2 minutos:

  1. Pull da imagem (~30s)
  2. Inicialização do contêiner (~30s)
  3. Verificação de integridade (~30s)

Posso implantar vários modelos?

Sim, cada modelo pode ter vários pontos de extremidade em diferentes regiões. O número de implementações é limitado pelo plano: Gratuito 3, Pro 10, Empresa unlimited.

O que acontece quando um endpoint está ocioso?

Com escala para zero habilitada:

  • O endpoint é reduzido após inatividade
  • A primeira solicitação aciona o início a frio
  • As solicitações subsequentes são rápidas

As primeiras requisições após um período de inatividade acionam um cold start.



📅 Criado há 2 meses ✏️ Atualizado há 1 dia
glenn-jocherRizwanMunawarsergiuwaxmann

Comentários