Implantação
Ultralytics oferece opções abrangentes de implementação para colocar YOLO seus YOLO em produção. Teste modelos com a API de inferência, implemente em pontos finais dedicados e monitore o desempenho em tempo real.
Visão geral
A secção Implementação ajuda-o a:
- Teste modelos diretamente no navegador
- Implemente em terminais dedicados em 43 regiões globais
- Monitorizar métricas e registos de pedidos
- Dimensionamento automático de acordo com o tráfego
Opções de implementação
Ultralytics oferece várias opções de implementação:
| Opção | Descrição | Ideal para |
|---|---|---|
| Guia Teste | Teste de inferência baseado em navegador | Desenvolvimento, validação |
| API partilhada | Serviço de inferência multitenant | Utilização leve, testes |
| Terminais dedicados | Serviços de produção para um único cliente | Produção, baixa latência |
Fluxo de trabalho
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Palco | Descrição |
|---|---|
| Teste | Validar modelo com imagens de amostra |
| Configurar | Selecione a região e as opções de dimensionamento |
| Implementar | Criar terminal dedicado |
| Monitor | Acompanhe pedidos, latência e erros |
Arquitetura
Inferência partilhada
O serviço de inferência partilhada funciona em três regiões principais:
| Região | Localização |
|---|---|
| EUA | Centro dos EUA (Iowa) |
| UE | UE Oeste (Bélgica) |
| AP | Ásia-Pacífico (Hong Kong) |
As solicitações são encaminhadas automaticamente para a sua região de dados.
Terminais dedicados
Implante em 43 regiões em todo o mundo:
- Américas: 15 regiões
- Europa: 12 regiões
- Ásia-Pacífico: 16 regiões
Cada ponto final é um serviço de locatário único com:
- Recursos de computação dedicados
- Autoescala (0-N instâncias)
- URL personalizado
- Monitorização independente
Principais Características
Cobertura global
Implemente perto dos seus utilizadores com 43 regiões que abrangem:
- América do Norte, América do Sul
- Europa, Médio Oriente, África
- Ásia-Pacífico, Oceânia
Autoescala
Os pontos finais são dimensionados automaticamente:
- Escala para zero: sem custos quando inativo
- Ampliar: Lidar com picos de tráfego
- Limites configuráveis: definir instâncias mínimas/máximas
Baixa latência
Os terminais dedicados oferecem:
- Arranque a frio: ~2-5 segundos
- Inferência quente: 50-200 ms (dependente do modelo)
- Roteamento regional para desempenho ideal
Links rápidos
- Inferência: Testar modelos no navegador
- Pontos finais: Implante pontos finais dedicados
- Monitorização: Acompanhe o desempenho da implementação
FAQ
Qual é a diferença entre inferência partilhada e dedicada?
| Funcionalidade | Partilhado | Dedicado |
|---|---|---|
| Latência | Variável | Consistente |
| Custo | Pagamento por pedido | Pagar pelo tempo de atividade |
| Escala | Limitado | Configurável |
| Regiões | 3 | 43 |
| URL | Genérico | Personalizado |
Quanto tempo demora a implementação?
A implementação dedicada do terminal normalmente demora 1 a 2 minutos:
- Transferência de imagem (~30 s)
- Início do contentor (~30 s)
- Verificação de saúde (~30s)
Posso implementar vários modelos?
Sim, cada modelo pode ter vários pontos finais em diferentes regiões. Não há limite para o total de pontos finais (sujeito ao seu plano).
O que acontece quando um terminal fica inativo?
Com a escala para zero ativada:
- O terminal reduz a sua escala após inatividade
- A primeira solicitação aciona o arranque a frio
- Os pedidos subsequentes são rápidos
Para evitar arranques a frio, defina instâncias mínimas > 0.