Implantação
Ultralytics Platform fornece opções abrangentes de implantação para colocar seus modelos YOLO em produção. Teste modelos com inferência baseada em navegador, implante em endpoints dedicados em 43 regiões globais e monitore o desempenho em tempo real.
Visão geral
A seção de Implantação ajuda você a:
- Testar modelos diretamente no navegador com o
Predictguia - Implantar em endpoints dedicados em 43 regiões globais
- Monitorar métricas de solicitação, logs e verificações de saúde
- Escalar automaticamente com o tráfego (incluindo escala para zero)

Opções de Implantação
Ultralytics Platform oferece múltiplos caminhos de implantação:
| Opção | Descrição | Ideal Para |
|---|---|---|
| Aba Prever | Inferência baseada em navegador com imagem, webcam e exemplos | Desenvolvimento, validação |
| Inferência Compartilhada | Serviço multi-tenant em 3 regiões | Uso leve, testes |
| Endpoints Dedicados | Serviços de locatário único em 43 regiões | Produção, baixa latência |
Fluxo de Trabalho
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Etapa | Descrição |
|---|---|
| Testar | Validar modelo com o Predict guia |
| Configurar | Selecione a região, os recursos e o nome da implantação |
| Implantação | Crie um endpoint dedicado a partir do Deploy guia |
| Monitorar | track requisições, latência, erros e logs em Monitoramento |
Arquitetura
Inferência Compartilhada
O serviço de inferência compartilhado é executado em 3 regiões-chave, roteando automaticamente as solicitações com base na sua região de dados:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| Região | Localização |
|---|---|
| EUA | Iowa, EUA |
| UE | Bélgica, Europa |
| AP | Hong Kong, Ásia-Pacífico |
Endpoints Dedicados
Implemente em 43 regiões em todo o mundo na Ultralytics Cloud:
- Américas: 14 regiões
- Europa: 13 regiões
- Ásia-Pacífico: 12 regiões
- Oriente Médio e África: 4 regiões
Cada endpoint é um serviço de tenant único com:
- Recursos de computação dedicados (CPU e memória configuráveis)
- Dimensionamento automático (reduz para zero quando ocioso)
- URL de endpoint único
- Monitoramento independente, logs e verificações de saúde
Página de Implantações
Acesse a página de implantações globais na barra lateral em Deploy. Esta página mostra:
- Mapa mundial com marcadores de regiões implantadas (mapa interativo)
- Cartões de Visão Geral: Total de Requisições (24h), Implantações Ativas, Taxa de Erro (24h), Latência P95 (24h)
- Lista de Implantações com três modos de visualização: cartões, compacto e tabela
- Nova Implantação botão para criar endpoints a partir de qualquer modelo concluído

Polling Automático
A página consulta a cada 30 segundos para atualizações de métricas. Quando as implantações estão em um estado de transição (criação, implantação, interrupção), a frequência de consulta aumenta para a cada 2-3 segundos para um feedback quase instantâneo.
Principais Características
Cobertura Global
Implemente próximo aos seus usuários com 43 regiões cobrindo:
- América do Norte, América do Sul
- Europa, Oriente Médio, África
- Ásia-Pacífico, Oceania
Autoescalabilidade
Endpoints escalam automaticamente:
- Escala para zero: Sem custo quando ocioso (padrão)
- Escalar: Lidar com picos de tráfego automaticamente
Economia de Custos
O escalonamento para zero é ativado por padrão (instâncias mínimas = 0). Você paga apenas pelo tempo de inferência ativo.
Baixa Latência
Endpoints dedicados oferecem:
- Inicialização a frio: ~5-15 segundos (contêiner em cache), até ~45 segundos (primeiro deploy)
- Inferência aquecida: 50-200ms (dependente do modelo)
- Roteamento regional para desempenho ideal
Verificações de Integridade
Cada implantação em execução inclui uma verificação automática de integridade com:
- Indicador de status ao vivo (saudável/não saudável)
- Exibição da latência de resposta
- Tentativa automática em caso de falha (verifica a cada 20 segundos)
- Botão de atualização manual
Início Rápido
Implemente um modelo em menos de 2 minutos:
- Treinar ou carregar um modelo para um projeto
- Vá para a aba Deploy do modelo
- Selecione uma região na tabela de latência
- Clique em Implantar — seu endpoint está ativo
Implantação Rápida
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Uma vez implantado, use o URL do endpoint com sua chave de API para enviar requisições de inferência de qualquer aplicação.
Links Rápidos
- Inferência: Teste modelos no navegador
- Endpoints: Implemente endpoints dedicados
- Monitoramento: Acompanhar o desempenho da implantação
FAQ
Qual a diferença entre inferência compartilhada e dedicada?
| Funcionalidade | Compartilhado | Dedicado |
|---|---|---|
| Latência | Variável | Consistente |
| Custo | Pagamento por solicitação | Pagamento pelo tempo de atividade |
| Escala | Limitado | Configurável |
| Regiões | 3 | 43 |
| URL | Genérico | Personalizado |
Quanto tempo leva a implantação?
A implantação de endpoint dedicado geralmente leva de 1 a 2 minutos:
- Pull da imagem (~30s)
- Inicialização do contêiner (~30s)
- Verificação de integridade (~30s)
Posso implantar vários modelos?
Sim, cada modelo pode ter múltiplos endpoints em diferentes regiões. Não há limite para o total de endpoints (sujeito ao seu plano).
O que acontece quando um endpoint está ocioso?
Com escala para zero habilitada:
- O endpoint é reduzido após inatividade
- A primeira solicitação aciona o início a frio
- As solicitações subsequentes são rápidas
As primeiras requisições após um período de inatividade acionam um cold start.