Link to this sectionImplementação#
A Ultralytics Platform oferece opções abrangentes de implementação para colocar os teus modelos YOLO em produção. Testa modelos com inferência baseada no navegador, implementa em endpoints dedicados em 43 regiões globais e monitoriza o desempenho em tempo real.
Watch: Get Started with Ultralytics Platform - Deploy
Link to this sectionVisão geral#
A secção de Implementação ajuda-te a:
- Testar modelos diretamente no navegador com o separador
Predict - Implementar em endpoints dedicados em 43 regiões globais
- Monitorizar métricas de pedidos, registos e verificações de integridade
- Escalar para zero quando inativo (as implementações executam atualmente uma única instância ativa)

Link to this sectionOpções de Implementação#
A Ultralytics Platform oferece vários caminhos de implementação:
| Opção | Descrição | Melhor para |
|---|---|---|
| Separador Predict | Inferência baseada no navegador com imagem, webcam e exemplos | Desenvolvimento, validação |
| Inferência Partilhada | Serviço multitenant em 3 regiões | Uso leve, testes |
| Endpoints Dedicados | Serviços single-tenant em 43 regiões | Produção, baixa latência |
Link to this sectionFluxo de trabalho#
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Etapa | Descrição |
|---|---|
| Teste | Valida o modelo com o separador Predict |
| Configurar | Seleciona a região e o nome da implementação (as implementações utilizam recursos padrão fixos) |
| Deploy | Cria um endpoint dedicado a partir do separador Deploy |
| Monitorar | Rastreia pedidos, latência, erros e registos na Monitorização |
Link to this sectionArquitetura#
Link to this sectionInferência Partilhada#
O serviço de inferência partilhada funciona em 3 regiões principais, encaminhando automaticamente os pedidos com base na região dos teus dados:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Região | Localização |
|---|---|
| EUA | Iowa, EUA |
| UE | Bélgica, Europa |
| AP | Taiwan, Ásia-Pacífico |
Link to this sectionEndpoints Dedicados#
Implementa em 43 regiões em todo o mundo na Ultralytics Cloud:
- Américas: 14 regiões
- Europa: 13 regiões
- Ásia-Pacífico: 12 regiões
- Médio Oriente e África: 4 regiões
Cada endpoint é um serviço single-tenant com:
- Recursos padrão de
1 CPU,2 GiBde memória,minInstances=0,maxInstances=1 - Escalonamento para zero quando inativo
- URL de endpoint exclusivo
- Monitorização, registos e verificações de integridade independentes
Link to this sectionPágina de Implementações#
Acede à página global de implementações a partir da barra lateral em Deploy. Esta página mostra:
- Mapa mundial com pinos das regiões implementadas (mapa interativo)
- Cartões de visão geral: Total de Pedidos (24h), Implementações Ativas, Taxa de Erro (24h), Latência P95 (24h)
- Lista de implementações com três modos de visualização: cartões, compacto e tabela
- Botão Nova Implementação para criar endpoints a partir de qualquer modelo concluído

A página verifica normalmente a cada 15 segundos. Quando as implementações estão num estado de transição (creating, deploying ou stopping), a sondagem aumenta para cada 3 segundos para um feedback mais rápido.
Link to this sectionPrincipais recursos#
Link to this sectionCobertura Global#
Implementa perto dos teus utilizadores com 43 regiões cobrindo:
- América do Norte, América do Sul
- Europa, Médio Oriente, África
- Ásia-Pacífico, Oceânia
Link to this sectionComportamento de Escalonamento#
Os endpoints comportam-se atualmente da seguinte forma:
- Escalar para zero: Sem custos quando inativo (padrão)
- Instância única ativa:
maxInstancesestá atualmente limitado a1em todos os planos
O escalonamento para zero está ativado por padrão (min instâncias = 0). Apenas pagas pelo tempo de inferência ativo.
Link to this sectionBaixa Latência#
Os endpoints dedicados fornecem:
- Cold start: ~5-15 segundos (contentor em cache), até ~45 segundos (primeira implementação)
- Inferência ativa: 50-200ms (dependente do modelo)
- Encaminhamento regional para um desempenho ideal
Link to this sectionVerificações de Integridade#
Cada implementação em execução inclui uma verificação de integridade automática com:
- Indicador de estado ao vivo (saudável/não saudável)
- Exibição de latência de resposta
- Repetição automática quando não saudável (sondagem a cada 20 segundos)
- Botão de atualização manual
Link to this sectionInício Rápido#
Implementa um modelo em menos de 2 minutos:
- Treina ou carrega um modelo para um projeto
- Vai para o separador Deploy do modelo
- Seleciona uma região na tabela de latência
- Clica em Deploy — o teu endpoint está ativo
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Uma vez implementado, utiliza o URL do endpoint com a tua chave API para enviar pedidos de inferência a partir de qualquer aplicação.
Link to this sectionLinks Rápidos#
- Inferência: Testa modelos no navegador
- Endpoints: Implementa endpoints dedicados
- Monitorização: Rastreia o desempenho da implementação
Link to this sectionFAQ#
Link to this sectionQual é a diferença entre inferência partilhada e dedicada?#
| Funcionalidade | Partilhada | Dedicada |
|---|---|---|
| Latência | Variável | Consistente |
| Custo | Gratuito (incluído) | Gratuito (básico), baseado no uso (avançado) |
| Escala | Limitada | Escalar para zero, instância única |
| Regiões | 3 | 43 |
| URL | Genérico | Personalizado |
| Taxa | 20 req/min | 20 req/min via Platform; ilimitado na URL de endpoint direta |
Link to this sectionQuanto tempo demora a implantação?#
A implantação de um endpoint dedicado normalmente leva de 1 a 2 minutos:
- Pull da imagem (~30s)
- Início do contêiner (~30s)
- Verificação de integridade (~30s)
Link to this sectionPosso implantar vários modelos?#
Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.
Link to this sectionO que acontece quando um endpoint está ocioso?#
Com scale-to-zero ativado:
- O endpoint reduz a escala após inatividade
- A primeira solicitação dispara um cold start
- Solicitações subsequentes são rápidas
As primeiras solicitações após um período de inatividade disparam um cold start.