Implementação

A Ultralytics Platform fornece opções de implementação abrangentes para colocar os teus modelos YOLO em produção. Testa modelos com inferência baseada em navegador, implementa em endpoints dedicados em 43 regiões globais e monitoriza o desempenho em tempo real.



Watch: Get Started with Ultralytics Platform - Deploy

Visão geral

A secção de Implementação (Deployment) ajuda-te a:

  • Testar modelos diretamente no navegador com o separador Predict
  • Implementar em endpoints dedicados em 43 regiões globais
  • Monitorizar métricas de pedidos, registos e verificações de saúde
  • Reduzir para zero quando inativo (as implementações executam atualmente uma única instância ativa)

Mapa mundial da página de implementação da Ultralytics Platform com cartões de visão geral

Opções de Implementação

A Ultralytics Platform oferece múltiplos caminhos de implementação:

OpçãoDescriçãoIdeal Para
Separador PredictInferência baseada em navegador com imagem, webcam e exemplosDesenvolvimento, validação
Inferência PartilhadaServiço multi-tenant em 3 regiõesUso leve, testes
Endpoints DedicadosServiços single-tenant em 43 regiõesProdução, baixa latência

Fluxo de trabalho

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EstágioDescrição
TestValida o modelo com o separador Predict
ConfigurarSeleciona a região e o nome da implementação (as implementações utilizam recursos padrão fixos)
DeployCria um endpoint dedicado a partir do separador Deploy
MonitorarAcompanha pedidos, latência, erros e registos em Monitoring

Arquitetura

Inferência Partilhada

O serviço de inferência partilhada é executado em 3 regiões principais, encaminhando automaticamente os pedidos com base na região dos teus dados:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
Região (Region)Localização
EUAIowa, EUA
UEBélgica, Europa
APTaiwan, Ásia-Pacífico

Endpoints Dedicados

Implementa em 43 regiões em todo o mundo na Ultralytics Cloud:

  • Américas: 14 regiões
  • Europa: 13 regiões
  • Ásia-Pacífico: 12 regiões
  • Médio Oriente e África: 4 regiões

Cada endpoint é um serviço single-tenant com:

  • Recursos padrão de 1 CPU, 2 GiB de memória, minInstances=0, maxInstances=1
  • Redução para zero quando inativo
  • URL de endpoint único
  • Monitorização, registos e verificações de saúde independentes

Página de Implementações

Acede à página de implementações globais na barra lateral em Deploy. Esta página mostra:

  • Mapa mundial com pinos de região implementados (mapa interativo)
  • Cartões de visão geral: Pedidos Totais (24h), Implementações Ativas, Taxa de Erro (24h), Latência P95 (24h)
  • Lista de implementações com três modos de visualização: cartões, compacto e tabela
  • Botão Nova Implementação para criar endpoints a partir de qualquer modelo concluído

Cartões de visão geral e lista de implementações da página de implementação da Ultralytics Platform

Polling Automático

A página verifica normalmente a cada 15 segundos. Quando as implementações estão num estado de transição (creating, deploying ou stopping), a verificação aumenta para cada 3 segundos para um feedback mais rápido.

Principais recursos

Cobertura Global

Implementa perto dos teus utilizadores com 43 regiões cobrindo:

  • América do Norte, América do Sul
  • Europa, Médio Oriente, África
  • Ásia-Pacífico, Oceânia

Comportamento de Escalonamento

Os endpoints comportam-se atualmente da seguinte forma:

  • Redução para zero: Sem custos quando inativo (padrão)
  • Instância ativa única: maxInstances está atualmente limitado a 1 em todos os planos
Poupança de Custos

A redução para zero está ativada por padrão (instâncias mínimas = 0). Apenas pagas pelo tempo de inferência ativo.

Baixa Latência

Os endpoints dedicados fornecem:

  • Arranque a frio: ~5-15 segundos (contentor em cache), até ~45 segundos (primeira implementação)
  • Inferência a quente: 50-200ms (dependente do modelo)
  • Encaminhamento regional para um desempenho ideal

Verificações de Saúde

Cada implementação em execução inclui uma verificação de saúde automática com:

  • Indicador de estado ao vivo (saudável/não saudável)
  • Visualização da latência de resposta
  • Retentativa automática quando não saudável (verifica a cada 20 segundos)
  • Botão de atualização manual

Início rápido

Implementa um modelo em menos de 2 minutos:

  1. Treina ou carrega um modelo para um projeto
  2. Vai ao separador Deploy do modelo
  3. Seleciona uma região da tabela de latência
  4. Clica em Deploy — o teu endpoint está ativo
Implementação Rápida
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Uma vez implementado, utiliza o URL do endpoint com a tua chave de API para enviar pedidos de inferência a partir de qualquer aplicação.

FAQ

Qual é a diferença entre a inferência partilhada e a dedicada?

RecursoPartilhadaDedicado
LatênciaVariávelConsistente
CustoGratuito (incluído)Gratuito (básico), baseado no uso (avançado)
EscalaLimitadaRedução para zero, instância única
Regiões343
URLGenéricoPersonalizado
Taxa20 req/minIlimitado

Quanto tempo demora a implementação?

A implementação de um endpoint dedicado demora normalmente 1-2 minutos:

  1. Extração de imagem (~30s)
  2. Início do contentor (~30s)
  3. Verificação de saúde (~30s)

Posso implantar vários modelos?

Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.

O que acontece quando um endpoint está ocioso?

Com o scale-to-zero ativado:

  • O endpoint é reduzido após inatividade
  • A primeira solicitação aciona uma inicialização a frio
  • As solicitações subsequentes são rápidas

As primeiras solicitações após um período de inatividade acionam uma inicialização a frio.

Comentários