Meet YOLO26: next-gen vision AI.

Link to this sectionImplementação#

A Ultralytics Platform fornece opções de implementação abrangentes para colocar os teus modelos YOLO em produção. Testa modelos com inferência baseada em navegador, implementa em endpoints dedicados em 43 regiões globais e monitoriza o desempenho em tempo real.



Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionVisão geral#

A secção de Implementação (Deployment) ajuda-te a:

  • Testar modelos diretamente no navegador com o separador Predict
  • Implementar em endpoints dedicados em 43 regiões globais
  • Monitorizar métricas de pedidos, registos e verificações de saúde
  • Reduzir para zero quando inativo (as implementações executam atualmente uma única instância ativa)

Mapa mundial da página de implementação da Ultralytics Platform com cartões de visão geral

Link to this sectionOpções de Implementação#

A Ultralytics Platform oferece múltiplos caminhos de implementação:

OpçãoDescriçãoIdeal Para
Separador PredictInferência baseada em navegador com imagem, webcam e exemplosDesenvolvimento, validação
Inferência PartilhadaServiço multi-tenant em 3 regiõesUso leve, testes
Endpoints DedicadosServiços single-tenant em 43 regiõesProdução, baixa latência

Link to this sectionFluxo de trabalho#

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EstágioDescrição
TestValida o modelo com o separador Predict
ConfigurarSeleciona a região e o nome da implementação (as implementações utilizam recursos padrão fixos)
DeployCria um endpoint dedicado a partir do separador Deploy
MonitorarAcompanha pedidos, latência, erros e registos em Monitoring

Link to this sectionArquitetura#

Link to this sectionInferência Partilhada#

O serviço de inferência partilhada é executado em 3 regiões principais, encaminhando automaticamente os pedidos com base na região dos teus dados:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
Região (Region)Localização
EUAIowa, EUA
UEBélgica, Europa
APTaiwan, Ásia-Pacífico

Link to this sectionEndpoints Dedicados#

Implementa em 43 regiões em todo o mundo na Ultralytics Cloud:

  • Américas: 14 regiões
  • Europa: 13 regiões
  • Ásia-Pacífico: 12 regiões
  • Médio Oriente e África: 4 regiões

Cada endpoint é um serviço single-tenant com:

  • Recursos padrão de 1 CPU, 2 GiB de memória, minInstances=0, maxInstances=1
  • Redução para zero quando inativo
  • URL de endpoint único
  • Monitorização, registos e verificações de saúde independentes

Link to this sectionPágina de Implementações#

Acede à página de implementações globais na barra lateral em Deploy. Esta página mostra:

  • Mapa mundial com pinos de região implementados (mapa interativo)
  • Cartões de visão geral: Pedidos Totais (24h), Implementações Ativas, Taxa de Erro (24h), Latência P95 (24h)
  • Lista de implementações com três modos de visualização: cartões, compacto e tabela
  • Botão Nova Implementação para criar endpoints a partir de qualquer modelo concluído

Cartões de visão geral e lista de implementações da página de implementação da Ultralytics Platform

Polling Automático

A página verifica normalmente a cada 15 segundos. Quando as implementações estão num estado de transição (creating, deploying ou stopping), a verificação aumenta para cada 3 segundos para um feedback mais rápido.

Link to this sectionPrincipais recursos#

Link to this sectionCobertura Global#

Implementa perto dos teus utilizadores com 43 regiões cobrindo:

  • América do Norte, América do Sul
  • Europa, Médio Oriente, África
  • Ásia-Pacífico, Oceânia

Link to this sectionComportamento de Escalonamento#

Os endpoints comportam-se atualmente da seguinte forma:

  • Redução para zero: Sem custos quando inativo (padrão)
  • Instância ativa única: maxInstances está atualmente limitado a 1 em todos os planos
Poupança de Custos

A redução para zero está ativada por padrão (instâncias mínimas = 0). Apenas pagas pelo tempo de inferência ativo.

Link to this sectionBaixa Latência#

Os endpoints dedicados fornecem:

  • Arranque a frio: ~5-15 segundos (contentor em cache), até ~45 segundos (primeira implementação)
  • Inferência a quente: 50-200ms (dependente do modelo)
  • Encaminhamento regional para um desempenho ideal

Link to this sectionVerificações de Saúde#

Cada implementação em execução inclui uma verificação de saúde automática com:

  • Indicador de estado ao vivo (saudável/não saudável)
  • Visualização da latência de resposta
  • Retentativa automática quando não saudável (verifica a cada 20 segundos)
  • Botão de atualização manual

Link to this sectionInício rápido#

Implementa um modelo em menos de 2 minutos:

  1. Treina ou carrega um modelo para um projeto
  2. Vai ao separador Deploy do modelo
  3. Seleciona uma região da tabela de latência
  4. Clica em Deploy — o teu endpoint está ativo
Implementação Rápida
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Uma vez implementado, utiliza o URL do endpoint com a tua chave de API para enviar pedidos de inferência a partir de qualquer aplicação.

Link to this sectionFAQ#

Link to this sectionQual é a diferença entre a inferência partilhada e a dedicada?#

RecursoPartilhadaDedicado
LatênciaVariávelConsistente
CustoGratuito (incluído)Gratuito (básico), baseado no uso (avançado)
EscalaLimitadaRedução para zero, instância única
Regiões343
URLGenéricoPersonalizado
Taxa20 req/minIlimitado

Link to this sectionQuanto tempo demora a implementação?#

A implementação de um endpoint dedicado demora normalmente 1-2 minutos:

  1. Extração de imagem (~30s)
  2. Início do contentor (~30s)
  3. Verificação de saúde (~30s)

Link to this sectionPosso implantar vários modelos?#

Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.

Link to this sectionO que acontece quando um endpoint está ocioso?#

Com o scale-to-zero ativado:

  • O endpoint é reduzido após inatividade
  • A primeira solicitação aciona uma inicialização a frio
  • As solicitações subsequentes são rápidas

As primeiras solicitações após um período de inatividade acionam uma inicialização a frio.

Comentários