Ir para o conteúdo

Implantação

Ultralytics oferece opções abrangentes de implementação para colocar YOLO seus YOLO em produção. Teste modelos com a API de inferência, implemente em pontos finais dedicados e monitore o desempenho em tempo real.

Visão geral

A secção Implementação ajuda-o a:

  • Teste modelos diretamente no navegador
  • Implemente em terminais dedicados em 43 regiões globais
  • Monitorizar métricas e registos de pedidos
  • Dimensionamento automático de acordo com o tráfego

Opções de implementação

Ultralytics oferece várias opções de implementação:

OpçãoDescriçãoIdeal para
Guia TesteTeste de inferência baseado em navegadorDesenvolvimento, validação
API partilhadaServiço de inferência multitenantUtilização leve, testes
Terminais dedicadosServiços de produção para um único clienteProdução, baixa latência

Fluxo de trabalho

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
PalcoDescrição
TesteValidar modelo com imagens de amostra
ConfigurarSelecione a região e as opções de dimensionamento
ImplementarCriar terminal dedicado
MonitorAcompanhe pedidos, latência e erros

Arquitetura

Inferência partilhada

O serviço de inferência partilhada funciona em três regiões principais:

RegiãoLocalização
EUACentro dos EUA (Iowa)
UEUE Oeste (Bélgica)
APÁsia-Pacífico (Hong Kong)

As solicitações são encaminhadas automaticamente para a sua região de dados.

Terminais dedicados

Implante em 43 regiões em todo o mundo:

  • Américas: 15 regiões
  • Europa: 12 regiões
  • Ásia-Pacífico: 16 regiões

Cada ponto final é um serviço de locatário único com:

  • Recursos de computação dedicados
  • Autoescala (0-N instâncias)
  • URL personalizado
  • Monitorização independente

Principais Características

Cobertura global

Implemente perto dos seus utilizadores com 43 regiões que abrangem:

  • América do Norte, América do Sul
  • Europa, Médio Oriente, África
  • Ásia-Pacífico, Oceânia

Autoescala

Os pontos finais são dimensionados automaticamente:

  • Escala para zero: sem custos quando inativo
  • Ampliar: Lidar com picos de tráfego
  • Limites configuráveis: definir instâncias mínimas/máximas

Baixa latência

Os terminais dedicados oferecem:

  • Arranque a frio: ~2-5 segundos
  • Inferência quente: 50-200 ms (dependente do modelo)
  • Roteamento regional para desempenho ideal

FAQ

Qual é a diferença entre inferência partilhada e dedicada?

FuncionalidadePartilhadoDedicado
LatênciaVariávelConsistente
CustoPagamento por pedidoPagar pelo tempo de atividade
EscalaLimitadoConfigurável
Regiões343
URLGenéricoPersonalizado

Quanto tempo demora a implementação?

A implementação dedicada do terminal normalmente demora 1 a 2 minutos:

  1. Transferência de imagem (~30 s)
  2. Início do contentor (~30 s)
  3. Verificação de saúde (~30s)

Posso implementar vários modelos?

Sim, cada modelo pode ter vários pontos finais em diferentes regiões. Não há limite para o total de pontos finais (sujeito ao seu plano).

O que acontece quando um terminal fica inativo?

Com a escala para zero ativada:

  • O terminal reduz a sua escala após inatividade
  • A primeira solicitação aciona o arranque a frio
  • Os pedidos subsequentes são rápidos

Para evitar arranques a frio, defina instâncias mínimas > 0.



📅 Criado há 0 dias ✏️ Atualizado há 0 dias
glenn-jocher

Comentários