Ir para o conteúdo

Implantação

Ultralytics oferece opções abrangentes de implementação para colocar YOLO seus YOLO em produção. Teste modelos com inferência baseada em navegador, implemente em terminais dedicados em 43 regiões globais e monitore o desempenho em tempo real.

Visão geral

A seção de Implantação ajuda você a:

  • Testar modelos diretamente no navegador com o Predict aba
  • Implantar em endpoints dedicados em 43 regiões globais
  • Monitorize métricas de pedidos, registos e verificações de integridade
  • Escala automaticamente com o tráfego (incluindo escala para zero)

Página de implementação Ultralytics Mapa-múndi com cartões de visão geral

Opções de Implantação

Ultralytics Platform oferece múltiplos caminhos de implantação:

OpçãoDescriçãoIdeal Para
Guia PreverInferência baseada em navegador com imagem, webcam e exemplosDesenvolvimento, validação
Inferência CompartilhadaServiço multi-tenant em 3 regiõesUso leve, testes
Endpoints DedicadosServiços para um único inquilino em 43 regiõesProdução, baixa latência

Fluxo de Trabalho

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescrição
TestarValidar o modelo com o Predict aba
ConfigurarSelecione a região, os recursos e o nome da implementação
ImplantaçãoCrie um ponto de extremidade dedicado a partir do Deploy aba
MonitorarAcompanhe solicitações, latência, erros e registos no Monitoramento

Arquitetura

Inferência Compartilhada

O serviço de inferência partilhada é executado em três regiões principais, encaminhando automaticamente as solicitações com base na sua região de dados:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiãoLocalização
EUAIowa, EUA
UEBélgica, Europa
APHong Kong, Ásia-Pacífico

Endpoints Dedicados

Implemente em 43 regiões em todo o mundo na Ultralytics :

  • Américas: 14 regiões
  • Europa: 13 regiões
  • Ásia-Pacífico: 12 regiões
  • Médio Oriente e África: 4 regiões

Cada endpoint é um serviço de tenant único com:

  • Recursos de computação dedicados ( CPU memória configuráveis)
  • Autoescalonamento (escalonamento para zero quando inativo)
  • URL de ponto final exclusivo
  • Monitorização independente, registos e verificações de integridade

Página de implementações

Aceda à página de implementações globais na barra lateral em Deploy. Esta página mostra:

  • Mapa-múndi com marcadores das regiões implantadas (mapa interativo)
  • Cartões de visão geral: Total de solicitações (24 horas), Implantações ativas, Taxa de erros (24 horas), Latência P95 (24 horas)
  • Lista de implementações com três modos de visualização: cartões, compacto e tabela
  • Botão Nova Implementação para criar pontos finais a partir de qualquer modelo concluído

Visão geral da página de implementação Ultralytics Cartões e lista de implementações

Pesquisa automática

A página faz uma sondagem a cada 30 segundos para atualizações métricas. Quando as implementações estão num estado de transição (criação, implementação, paragem), a sondagem aumenta para cada 2-3 segundos para um feedback quase instantâneo.

Principais Características

Cobertura Global

Implemente próximo aos seus usuários com 43 regiões cobrindo:

  • América do Norte, América do Sul
  • Europa, Oriente Médio, África
  • Ásia-Pacífico, Oceania

Autoescalabilidade

Endpoints escalam automaticamente:

  • Escala para zero: sem custo quando inativo (padrão)
  • Amplie: lide com picos de tráfego automaticamente

Poupança de custos

A escala para zero está ativada por predefinição (mínimo de instâncias = 0). Só paga pelo tempo de inferência ativo.

Baixa Latência

Endpoints dedicados oferecem:

  • Arranque a frio: ~5-15 segundos (contentor em cache), até ~45 segundos (primeira implementação)
  • Inferência aquecida: 50-200ms (dependente do modelo)
  • Roteamento regional para desempenho ideal

Exames de saúde

Cada implementação em execução inclui uma verificação automática de integridade com:

  • Indicador de estado em tempo real (funcionando/não funcionando)
  • Exibição da latência de resposta
  • Reentrada automática quando não estiver em boas condições (verifica a cada 20 segundos)
  • Botão de atualização manual

Início Rápido

Implemente um modelo em menos de 2 minutos:

  1. Treinar ou carregar um modelo para um projeto
  2. Vá para o separador Implantar do modelo
  3. Selecione uma região na tabela de latência
  4. Clique em Implementar — o seu terminal está ativo

Implantação rápida

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Depois de implementado, utilize o URL do ponto final com a sua chave API para enviar pedidos de inferência a partir de qualquer aplicação.

FAQ

Qual a diferença entre inferência compartilhada e dedicada?

FuncionalidadeCompartilhadoDedicado
LatênciaVariávelConsistente
CustoPagamento por solicitaçãoPagamento pelo tempo de atividade
EscalaLimitadoConfigurável
Regiões343
URLGenéricoPersonalizado

Quanto tempo leva a implantação?

A implantação de endpoint dedicado geralmente leva de 1 a 2 minutos:

  1. Pull da imagem (~30s)
  2. Inicialização do contêiner (~30s)
  3. Verificação de integridade (~30s)

Posso implantar vários modelos?

Sim, cada modelo pode ter múltiplos endpoints em diferentes regiões. Não há limite para o total de endpoints (sujeito ao seu plano).

O que acontece quando um endpoint está ocioso?

Com escala para zero habilitada:

  • O endpoint é reduzido após inatividade
  • A primeira solicitação aciona o início a frio
  • As solicitações subsequentes são rápidas

As primeiras solicitações após um período de inatividade acionam uma inicialização a frio.



📅 Criado há 1 mês ✏️ Atualizado há 5 dias
glenn-jochersergiuwaxmann

Comentários