Salta para o conteúdo

Triton Servidor de Inferência com Ultralytics YOLOv8

O Triton Inference Server (anteriormente conhecido como TensorRT Inference Server) é uma solução de software de código aberto desenvolvida pela NVIDIA. Fornece uma solução de inferência em nuvem optimizada para GPUs NVIDIA. Triton simplifica a implementação de modelos de IA em escala na produção. A integração do Ultralytics YOLOv8 com o Triton Inference Server permite-te implementar cargas de trabalho de inferência de aprendizagem profunda escaláveis e de elevado desempenho. Este guia fornece etapas para configurar e testar a integração.



Observa: Introdução ao Servidor de Inferência NVIDIA Triton .

O que é o Triton Inference Server?

Triton O Servidor de Inferência foi concebido para implementar uma variedade de modelos de IA na produção. Suporta uma vasta gama de estruturas de aprendizagem profunda e de aprendizagem automática, incluindo TensorFlow, PyTorch, ONNX Runtime, e muitas outras. Os seus principais casos de utilização são:

  • Serve vários modelos a partir de uma única instância de servidor.
  • Carrega e descarrega modelos dinâmicos sem reiniciar o servidor.
  • Inferência de conjunto, que permite a utilização de vários modelos em conjunto para obter resultados.
  • Modelo de versões para testes A/B e actualizações contínuas.

Pré-requisitos

Certifica-te de que tens os seguintes pré-requisitos antes de prosseguires:

  • Docker instalado na tua máquina.
  • Instala tritonclient:
    pip install tritonclient[all]
    

Exportar YOLOv8 para o formato ONNX

Antes de implementares o modelo em Triton, tens de o exportar para o formato ONNX . ONNX (Open Neural Network Exchange) é um formato que permite a transferência de modelos entre diferentes estruturas de aprendizagem profunda. Utiliza o formato export da função YOLO classe:

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n.pt')  # load an official model

# Export the model
onnx_file = model.export(format='onnx', dynamic=True)

Configura o repositório de modelos Triton

O Triton Model Repository é um local de armazenamento onde o Triton pode aceder e carregar modelos.

  1. Cria a estrutura de directórios necessária:

    from pathlib import Path
    
    # Define paths
    triton_repo_path = Path('tmp') / 'triton_repo'
    triton_model_path = triton_repo_path / 'yolo'
    
    # Create directories
    (triton_model_path / '1').mkdir(parents=True, exist_ok=True)
    
  2. Move o modelo ONNX exportado para o repositório Triton :

    from pathlib import Path
    
    # Move ONNX model to Triton Model path
    Path(onnx_file).rename(triton_model_path / '1' / 'model.onnx')
    
    # Create config file
    (triton_model_path / 'config.pbtxt').touch()
    

Executa Triton Servidor de Inferência

Executa o servidor de inferência Triton utilizando o Docker:

import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = 'nvcr.io/nvidia/tritonserver:23.09-py3'  # 6.4 GB

# Pull the image
subprocess.call(f'docker pull {tag}', shell=True)

# Run the Triton server and capture the container ID
container_id = subprocess.check_output(
    f'docker run -d --rm -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models',
    shell=True).decode('utf-8').strip()

# Wait for the Triton server to start
triton_client = InferenceServerClient(url='localhost:8000', verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Em seguida, executa a inferência utilizando o modelo do servidor Triton :

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO(f'http://localhost:8000/yolo', task='detect')

# Run inference on the server
results = model('path/to/image.jpg')

Limpa o contentor:

# Kill and remove the container at the end of the test
subprocess.call(f'docker kill {container_id}', shell=True)

Seguindo os passos acima, podes implementar e executar Ultralytics YOLOv8 modelos de forma eficiente no Triton Inference Server, fornecendo uma solução escalável e de elevado desempenho para tarefas de inferência de aprendizagem profunda. Se tiveres problemas ou outras dúvidas, consulta a documentação oficial Triton ou entra em contacto com a comunidade Ultralytics para obteres apoio.



Criado em 2023-11-12, Atualizado em 2024-02-03
Autores: glenn-jocher (5)

Comentários