Ir para o conteúdo

Implantação

Ultralytics Platform oferece opções abrangentes de implantação para colocar seus modelos YOLO em produção. Teste modelos com a Inference API, implante em endpoints dedicados e monitore o desempenho em tempo real.

Visão geral

A seção de Implantação ajuda você a:

  • Testar modelos diretamente no navegador
  • Implantar em endpoints dedicados em 43 regiões globais
  • Monitorar métricas de requisição e logs
  • Escalar automaticamente com o tráfego

Opções de Implantação

Ultralytics Platform oferece múltiplos caminhos de implantação:

OpçãoDescriçãoIdeal Para
Guia de TesteTeste de inferência baseado em navegadorDesenvolvimento, validação
API CompartilhadaServiço de inferência multi-tenantUso leve, testes
Endpoints DedicadosServiços de produção single-tenantProdução, baixa latência

Fluxo de Trabalho

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescrição
TestarValidar modelo com sample_images
ConfigurarSelecionar região e opções de escalonamento
ImplantaçãoCriar endpoint dedicado
Monitorartrack requisições, latência e erros

Arquitetura

Inferência Compartilhada

O serviço de inferência compartilhado é executado em 3 regiões principais:

RegiãoLocalização
EUAIowa, EUA
UEBélgica, Europa
APTaiwan, Ásia-Pacífico

As requisições são roteadas automaticamente para a sua região de dados.

Endpoints Dedicados

Implementar em 43 regiões em todo o mundo:

  • Américas: 15 regiões
  • Europa: 12 regiões
  • Ásia-Pacífico: 16 regiões

Cada endpoint é um serviço de tenant único com:

  • Recursos de computação dedicados
  • Autoescalonamento (0-N instâncias)
  • URL personalizada
  • Monitoramento independente

Principais Características

Cobertura Global

Implemente próximo aos seus usuários com 43 regiões cobrindo:

  • América do Norte, América do Sul
  • Europa, Oriente Médio, África
  • Ásia-Pacífico, Oceania

Autoescalabilidade

Endpoints escalam automaticamente:

  • Escala para zero: Sem custo quando ocioso
  • Escalonamento vertical: Lida com picos de tráfego
  • Limites configuráveis: Defina instâncias mínimas/máximas

Baixa Latência

Endpoints dedicados oferecem:

  • Inicialização a frio: ~2-5 segundos
  • Inferência aquecida: 50-200ms (dependente do modelo)
  • Roteamento regional para desempenho ideal

FAQ

Qual a diferença entre inferência compartilhada e dedicada?

FuncionalidadeCompartilhadoDedicado
LatênciaVariávelConsistente
CustoPagamento por solicitaçãoPagamento pelo tempo de atividade
EscalaLimitadoConfigurável
Regiões343
URLGenéricoPersonalizado

Quanto tempo leva a implantação?

A implantação de endpoint dedicado geralmente leva de 1 a 2 minutos:

  1. Pull da imagem (~30s)
  2. Inicialização do contêiner (~30s)
  3. Verificação de integridade (~30s)

Posso implantar vários modelos?

Sim, cada modelo pode ter múltiplos endpoints em diferentes regiões. Não há limite para o total de endpoints (sujeito ao seu plano).

O que acontece quando um endpoint está ocioso?

Com escala para zero habilitada:

  • O endpoint é reduzido após inatividade
  • A primeira solicitação aciona o início a frio
  • As solicitações subsequentes são rápidas

Para evitar inícios a frio, defina o número mínimo de instâncias > 0.



📅 Criado há 20 dias ✏️ Atualizado há 14 dias
glenn-jocher

Comentários