Implementação
A Ultralytics Platform fornece opções de implementação abrangentes para colocar os teus modelos YOLO em produção. Testa modelos com inferência baseada em navegador, implementa em endpoints dedicados em 43 regiões globais e monitoriza o desempenho em tempo real.
Watch: Get Started with Ultralytics Platform - Deploy
Visão geral
A secção de Implementação (Deployment) ajuda-te a:
- Testar modelos diretamente no navegador com o separador
Predict - Implementar em endpoints dedicados em 43 regiões globais
- Monitorizar métricas de pedidos, registos e verificações de saúde
- Reduzir para zero quando inativo (as implementações executam atualmente uma única instância ativa)

Opções de Implementação
A Ultralytics Platform oferece múltiplos caminhos de implementação:
| Opção | Descrição | Ideal Para |
|---|---|---|
| Separador Predict | Inferência baseada em navegador com imagem, webcam e exemplos | Desenvolvimento, validação |
| Inferência Partilhada | Serviço multi-tenant em 3 regiões | Uso leve, testes |
| Endpoints Dedicados | Serviços single-tenant em 43 regiões | Produção, baixa latência |
Fluxo de trabalho
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Estágio | Descrição |
|---|---|
| Test | Valida o modelo com o separador Predict |
| Configurar | Seleciona a região e o nome da implementação (as implementações utilizam recursos padrão fixos) |
| Deploy | Cria um endpoint dedicado a partir do separador Deploy |
| Monitorar | Acompanha pedidos, latência, erros e registos em Monitoring |
Arquitetura
Inferência Partilhada
O serviço de inferência partilhada é executado em 3 regiões principais, encaminhando automaticamente os pedidos com base na região dos teus dados:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Região (Region) | Localização |
|---|---|
| EUA | Iowa, EUA |
| UE | Bélgica, Europa |
| AP | Taiwan, Ásia-Pacífico |
Endpoints Dedicados
Implementa em 43 regiões em todo o mundo na Ultralytics Cloud:
- Américas: 14 regiões
- Europa: 13 regiões
- Ásia-Pacífico: 12 regiões
- Médio Oriente e África: 4 regiões
Cada endpoint é um serviço single-tenant com:
- Recursos padrão de
1 CPU,2 GiBde memória,minInstances=0,maxInstances=1 - Redução para zero quando inativo
- URL de endpoint único
- Monitorização, registos e verificações de saúde independentes
Página de Implementações
Acede à página de implementações globais na barra lateral em Deploy. Esta página mostra:
- Mapa mundial com pinos de região implementados (mapa interativo)
- Cartões de visão geral: Pedidos Totais (24h), Implementações Ativas, Taxa de Erro (24h), Latência P95 (24h)
- Lista de implementações com três modos de visualização: cartões, compacto e tabela
- Botão Nova Implementação para criar endpoints a partir de qualquer modelo concluído

A página verifica normalmente a cada 15 segundos. Quando as implementações estão num estado de transição (creating, deploying ou stopping), a verificação aumenta para cada 3 segundos para um feedback mais rápido.
Principais recursos
Cobertura Global
Implementa perto dos teus utilizadores com 43 regiões cobrindo:
- América do Norte, América do Sul
- Europa, Médio Oriente, África
- Ásia-Pacífico, Oceânia
Comportamento de Escalonamento
Os endpoints comportam-se atualmente da seguinte forma:
- Redução para zero: Sem custos quando inativo (padrão)
- Instância ativa única:
maxInstancesestá atualmente limitado a1em todos os planos
A redução para zero está ativada por padrão (instâncias mínimas = 0). Apenas pagas pelo tempo de inferência ativo.
Baixa Latência
Os endpoints dedicados fornecem:
- Arranque a frio: ~5-15 segundos (contentor em cache), até ~45 segundos (primeira implementação)
- Inferência a quente: 50-200ms (dependente do modelo)
- Encaminhamento regional para um desempenho ideal
Verificações de Saúde
Cada implementação em execução inclui uma verificação de saúde automática com:
- Indicador de estado ao vivo (saudável/não saudável)
- Visualização da latência de resposta
- Retentativa automática quando não saudável (verifica a cada 20 segundos)
- Botão de atualização manual
Início rápido
Implementa um modelo em menos de 2 minutos:
- Treina ou carrega um modelo para um projeto
- Vai ao separador Deploy do modelo
- Seleciona uma região da tabela de latência
- Clica em Deploy — o teu endpoint está ativo
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Uma vez implementado, utiliza o URL do endpoint com a tua chave de API para enviar pedidos de inferência a partir de qualquer aplicação.
Links rápidos
- Inferência: Testa modelos no navegador
- Endpoints: Implementa endpoints dedicados
- Monitorização: Acompanha o desempenho da implementação
FAQ
Qual é a diferença entre a inferência partilhada e a dedicada?
| Recurso | Partilhada | Dedicado |
|---|---|---|
| Latência | Variável | Consistente |
| Custo | Gratuito (incluído) | Gratuito (básico), baseado no uso (avançado) |
| Escala | Limitada | Redução para zero, instância única |
| Regiões | 3 | 43 |
| URL | Genérico | Personalizado |
| Taxa | 20 req/min | Ilimitado |
Quanto tempo demora a implementação?
A implementação de um endpoint dedicado demora normalmente 1-2 minutos:
- Extração de imagem (~30s)
- Início do contentor (~30s)
- Verificação de saúde (~30s)
Posso implantar vários modelos?
Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.
O que acontece quando um endpoint está ocioso?
Com o scale-to-zero ativado:
- O endpoint é reduzido após inatividade
- A primeira solicitação aciona uma inicialização a frio
- As solicitações subsequentes são rápidas
As primeiras solicitações após um período de inatividade acionam uma inicialização a frio.