Meet YOLO26: next-gen vision AI.

Link to this sectionImplementação#

A Ultralytics Platform oferece opções abrangentes de implementação para colocar os teus modelos YOLO em produção. Testa modelos com inferência baseada no navegador, implementa em endpoints dedicados em 43 regiões globais e monitoriza o desempenho em tempo real.



Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionVisão geral#

A secção de Implementação ajuda-te a:

  • Testar modelos diretamente no navegador com o separador Predict
  • Implementar em endpoints dedicados em 43 regiões globais
  • Monitorizar métricas de pedidos, registos e verificações de integridade
  • Escalar para zero quando inativo (as implementações executam atualmente uma única instância ativa)

Mapa mundial da página de implementação da Ultralytics Platform com cartões de visão geral

Link to this sectionOpções de Implementação#

A Ultralytics Platform oferece vários caminhos de implementação:

OpçãoDescriçãoMelhor para
Separador PredictInferência baseada no navegador com imagem, webcam e exemplosDesenvolvimento, validação
Inferência PartilhadaServiço multitenant em 3 regiõesUso leve, testes
Endpoints DedicadosServiços single-tenant em 43 regiõesProdução, baixa latência

Link to this sectionFluxo de trabalho#

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescrição
TesteValida o modelo com o separador Predict
ConfigurarSeleciona a região e o nome da implementação (as implementações utilizam recursos padrão fixos)
DeployCria um endpoint dedicado a partir do separador Deploy
MonitorarRastreia pedidos, latência, erros e registos na Monitorização

Link to this sectionArquitetura#

Link to this sectionInferência Partilhada#

O serviço de inferência partilhada funciona em 3 regiões principais, encaminhando automaticamente os pedidos com base na região dos teus dados:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiãoLocalização
EUAIowa, EUA
UEBélgica, Europa
APTaiwan, Ásia-Pacífico

Link to this sectionEndpoints Dedicados#

Implementa em 43 regiões em todo o mundo na Ultralytics Cloud:

  • Américas: 14 regiões
  • Europa: 13 regiões
  • Ásia-Pacífico: 12 regiões
  • Médio Oriente e África: 4 regiões

Cada endpoint é um serviço single-tenant com:

  • Recursos padrão de 1 CPU, 2 GiB de memória, minInstances=0, maxInstances=1
  • Escalonamento para zero quando inativo
  • URL de endpoint exclusivo
  • Monitorização, registos e verificações de integridade independentes

Link to this sectionPágina de Implementações#

Acede à página global de implementações a partir da barra lateral em Deploy. Esta página mostra:

  • Mapa mundial com pinos das regiões implementadas (mapa interativo)
  • Cartões de visão geral: Total de Pedidos (24h), Implementações Ativas, Taxa de Erro (24h), Latência P95 (24h)
  • Lista de implementações com três modos de visualização: cartões, compacto e tabela
  • Botão Nova Implementação para criar endpoints a partir de qualquer modelo concluído

Cartões de visão geral da página de implementação da Ultralytics Platform e lista de implementações

Sondagem Automática

A página verifica normalmente a cada 15 segundos. Quando as implementações estão num estado de transição (creating, deploying ou stopping), a sondagem aumenta para cada 3 segundos para um feedback mais rápido.

Link to this sectionPrincipais recursos#

Link to this sectionCobertura Global#

Implementa perto dos teus utilizadores com 43 regiões cobrindo:

  • América do Norte, América do Sul
  • Europa, Médio Oriente, África
  • Ásia-Pacífico, Oceânia

Link to this sectionComportamento de Escalonamento#

Os endpoints comportam-se atualmente da seguinte forma:

  • Escalar para zero: Sem custos quando inativo (padrão)
  • Instância única ativa: maxInstances está atualmente limitado a 1 em todos os planos
Poupança de Custos

O escalonamento para zero está ativado por padrão (min instâncias = 0). Apenas pagas pelo tempo de inferência ativo.

Link to this sectionBaixa Latência#

Os endpoints dedicados fornecem:

  • Cold start: ~5-15 segundos (contentor em cache), até ~45 segundos (primeira implementação)
  • Inferência ativa: 50-200ms (dependente do modelo)
  • Encaminhamento regional para um desempenho ideal

Link to this sectionVerificações de Integridade#

Cada implementação em execução inclui uma verificação de integridade automática com:

  • Indicador de estado ao vivo (saudável/não saudável)
  • Exibição de latência de resposta
  • Repetição automática quando não saudável (sondagem a cada 20 segundos)
  • Botão de atualização manual

Link to this sectionInício Rápido#

Implementa um modelo em menos de 2 minutos:

  1. Treina ou carrega um modelo para um projeto
  2. Vai para o separador Deploy do modelo
  3. Seleciona uma região na tabela de latência
  4. Clica em Deploy — o teu endpoint está ativo
Implementação Rápida
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Uma vez implementado, utiliza o URL do endpoint com a tua chave API para enviar pedidos de inferência a partir de qualquer aplicação.

Link to this sectionFAQ#

Link to this sectionQual é a diferença entre inferência partilhada e dedicada?#

FuncionalidadePartilhadaDedicada
LatênciaVariávelConsistente
CustoGratuito (incluído)Gratuito (básico), baseado no uso (avançado)
EscalaLimitadaEscalar para zero, instância única
Regiões343
URLGenéricoPersonalizado
Taxa20 req/min20 req/min via Platform; ilimitado na URL de endpoint direta

Link to this sectionQuanto tempo demora a implantação?#

A implantação de um endpoint dedicado normalmente leva de 1 a 2 minutos:

  1. Pull da imagem (~30s)
  2. Início do contêiner (~30s)
  3. Verificação de integridade (~30s)

Link to this sectionPosso implantar vários modelos?#

Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.

Link to this sectionO que acontece quando um endpoint está ocioso?#

Com scale-to-zero ativado:

  • O endpoint reduz a escala após inatividade
  • A primeira solicitação dispara um cold start
  • Solicitações subsequentes são rápidas

As primeiras solicitações após um período de inatividade disparam um cold start.

Comentários