Implantação
Ultralytics Platform oferece opções abrangentes de implantação para colocar seus modelos YOLO em produção. Teste modelos com a Inference API, implante em endpoints dedicados e monitore o desempenho em tempo real.
Visão geral
A seção de Implantação ajuda você a:
- Testar modelos diretamente no navegador
- Implantar em endpoints dedicados em 43 regiões globais
- Monitorar métricas de requisição e logs
- Escalar automaticamente com o tráfego
Opções de Implantação
Ultralytics Platform oferece múltiplos caminhos de implantação:
| Opção | Descrição | Ideal Para |
|---|---|---|
| Guia de Teste | Teste de inferência baseado em navegador | Desenvolvimento, validação |
| API Compartilhada | Serviço de inferência multi-tenant | Uso leve, testes |
| Endpoints Dedicados | Serviços de produção single-tenant | Produção, baixa latência |
Fluxo de Trabalho
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Etapa | Descrição |
|---|---|
| Testar | Validar modelo com sample_images |
| Configurar | Selecionar região e opções de escalonamento |
| Implantação | Criar endpoint dedicado |
| Monitorar | track requisições, latência e erros |
Arquitetura
Inferência Compartilhada
O serviço de inferência compartilhado é executado em 3 regiões principais:
| Região | Localização |
|---|---|
| EUA | Iowa, EUA |
| UE | Bélgica, Europa |
| AP | Taiwan, Ásia-Pacífico |
As requisições são roteadas automaticamente para a sua região de dados.
Endpoints Dedicados
Implementar em 43 regiões em todo o mundo:
- Américas: 15 regiões
- Europa: 12 regiões
- Ásia-Pacífico: 16 regiões
Cada endpoint é um serviço de tenant único com:
- Recursos de computação dedicados
- Autoescalonamento (0-N instâncias)
- URL personalizada
- Monitoramento independente
Principais Características
Cobertura Global
Implemente próximo aos seus usuários com 43 regiões cobrindo:
- América do Norte, América do Sul
- Europa, Oriente Médio, África
- Ásia-Pacífico, Oceania
Autoescalabilidade
Endpoints escalam automaticamente:
- Escala para zero: Sem custo quando ocioso
- Escalonamento vertical: Lida com picos de tráfego
- Limites configuráveis: Defina instâncias mínimas/máximas
Baixa Latência
Endpoints dedicados oferecem:
- Inicialização a frio: ~2-5 segundos
- Inferência aquecida: 50-200ms (dependente do modelo)
- Roteamento regional para desempenho ideal
Links Rápidos
- Inferência: Teste modelos no navegador
- Endpoints: Implemente endpoints dedicados
- Monitoramento: Acompanhar o desempenho da implantação
FAQ
Qual a diferença entre inferência compartilhada e dedicada?
| Funcionalidade | Compartilhado | Dedicado |
|---|---|---|
| Latência | Variável | Consistente |
| Custo | Pagamento por solicitação | Pagamento pelo tempo de atividade |
| Escala | Limitado | Configurável |
| Regiões | 3 | 43 |
| URL | Genérico | Personalizado |
Quanto tempo leva a implantação?
A implantação de endpoint dedicado geralmente leva de 1 a 2 minutos:
- Pull da imagem (~30s)
- Inicialização do contêiner (~30s)
- Verificação de integridade (~30s)
Posso implantar vários modelos?
Sim, cada modelo pode ter múltiplos endpoints em diferentes regiões. Não há limite para o total de endpoints (sujeito ao seu plano).
O que acontece quando um endpoint está ocioso?
Com escala para zero habilitada:
- O endpoint é reduzido após inatividade
- A primeira solicitação aciona o início a frio
- As solicitações subsequentes são rápidas
Para evitar inícios a frio, defina o número mínimo de instâncias > 0.