Triton Servidor de Inferência com Ultralytics YOLOv8

Q: How do I set up Ultralytics YOLOv8 with NVIDIA Triton Inference Server?

A configuração de Ultralytics YOLOv8 com NVIDIA Triton Servidor de Inferência envolve algumas etapas importantes: Esta configuração pode ajudar-te a implementar eficientemente modelos YOLOv8 em escala no Triton Inference Server para inferência de modelos de IA de elevado desempenho.

Q: What benefits does using Ultralytics YOLOv8 with NVIDIA Triton Inference Server offer?

A integração de Ultralytics YOLOv8 com NVIDIA Triton Servidor de Inferência oferece várias vantagens: Para obter instruções detalhadas sobre como configurar e executar YOLOv8 com Triton, pode consultar o guia de configuração.

Q: Why should I export my YOLOv8 model to ONNX format before using Triton Inference Server?

Usar o formato ONNX (Open Neural Network Exchange) para o seu modelo Ultralytics YOLOv8 antes de implantá-lo no NVIDIA Triton Inference Server oferece vários benefícios importantes: Para exportar seu modelo, usa: Podes seguir os passos do guia de exportação para concluir o processo.

Q: How does Ultralytics YOLOv8 compare to TensorFlow and PyTorch models for deployment?

Ultralytics YOLOv8 oferece várias vantagens exclusivas em comparação com os modelos TensorFlow e PyTorch para implantação: Para mais detalhes, compara as opções de implementação no guia de implementação do modelo.

O Triton Inference Server (anteriormente conhecido como TensorRT Inference Server) é uma solução de software de código aberto desenvolvida pela NVIDIA. Fornece uma solução de inferência em nuvem otimizada para NVIDIA GPUs. Triton simplifica a implantação de modelos de IA em escala na produção. A integração do Ultralytics YOLOv8 com o Servidor de Inferência Triton permite-te implementar cargas de trabalho de inferência de aprendizagem profunda escaláveis e de elevado desempenho. Este guia fornece etapas para configurar e testar a integração.

Observa: Introdução ao NVIDIA Triton Inference Server.

O que é o Triton Inference Server?

Triton O Servidor de Inferência foi concebido para implementar uma variedade de modelos de IA na produção. Suporta uma vasta gama de estruturas de aprendizagem profunda e de aprendizagem automática, incluindo TensorFlow, PyTorch, ONNX Runtime, e muitas outras. Os seus principais casos de utilização são:

Serve vários modelos a partir de uma única instância de servidor.
Carrega e descarrega modelos dinâmicos sem reiniciar o servidor.
Inferência de conjunto, que permite a utilização de vários modelos em conjunto para obter resultados.
Modelo de versões para testes A/B e actualizações contínuas.

Pré-requisitos

Certifica-te de que tens os seguintes pré-requisitos antes de prosseguires:

Docker instalado na tua máquina.
Instala tritonclient:
```
pip install tritonclient[all]
```

Exportar YOLOv8 para o formato ONNX

Antes de implementares o modelo em Triton, tens de o exportar para o formato ONNX . ONNX (Open Neural Network Exchange) é um formato que permite a transferência de modelos entre diferentes estruturas de aprendizagem profunda. Utiliza o formato export da função YOLO classe:

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # load an official model

# Export the model
onnx_file = model.export(format="onnx", dynamic=True)

Configura o repositório de modelos Triton

O Triton Model Repository é um local de armazenamento onde o Triton pode aceder e carregar modelos.

Cria a estrutura de directórios necessária:

from pathlib import Path

# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name

# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)

Move o modelo ONNX exportado para o repositório Triton :

from pathlib import Path

# Move ONNX model to Triton Model path
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")

# Create config file
(triton_model_path / "config.pbtxt").touch()

Executa Triton Servidor de Inferência

Executa o servidor de inferência Triton utilizando o Docker:

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:23.09-py3"  # 6.4 GB

# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)

# Run the Triton server and capture the container ID
container_id = (
    subprocess.check_output(
        f"docker run -d --rm -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Em seguida, executa a inferência utilizando o modelo do servidor Triton :

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Limpa o contentor:

# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)

Seguindo os passos acima, podes implementar e executar Ultralytics YOLOv8 modelos de forma eficiente no Triton Inference Server, fornecendo uma solução escalável e de elevado desempenho para tarefas de inferência de aprendizagem profunda. Se tiveres problemas ou outras dúvidas, consulta a documentação oficial Triton ou entra em contacto com a comunidade Ultralytics para obteres apoio.

FAQ

Como é que configuro Ultralytics YOLOv8 com NVIDIA Triton Servidor de Inferência?

Configura o Ultralytics YOLOv8 com NVIDIA Triton O Servidor de Inferência envolve alguns passos importantes:

Exporta YOLOv8 para o formato ONNX :

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # load an official model

# Export the model to ONNX format
onnx_file = model.export(format="onnx", dynamic=True)

Configura o Triton Model Repository:

from pathlib import Path

# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name

# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
(triton_model_path / "config.pbtxt").touch()

Executa o servidor Triton :

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:23.09-py3"

subprocess.call(f"docker pull {tag}", shell=True)

container_id = (
    subprocess.check_output(
        f"docker run -d --rm -v {triton_repo_path}/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Esta configuração pode ajudar-te a implementar eficazmente modelos YOLOv8 em escala no Servidor de Inferência Triton para inferência de modelos de IA de elevado desempenho.

Que vantagens oferece a utilização de Ultralytics YOLOv8 com NVIDIA Triton Inference Server?

A integração Ultralytics YOLOv8 com NVIDIA Triton O Servidor de Inferência oferece várias vantagens:

Inferência de IA escalável: Triton permite servir vários modelos a partir de uma única instância de servidor, suportando o carregamento e descarregamento dinâmico de modelos, tornando-o altamente escalável para diversas cargas de trabalho de IA.
Alto desempenho: Optimizado para NVIDIA GPUs, o Triton Inference Server garante operações de inferência de alta velocidade, perfeitas para aplicações em tempo real, como a deteção de objectos.
Ensemble e versionamento de modelos: O modo ensemble do Triton permite combinar vários modelos para melhorar os resultados e o versionamento de modelos suporta testes A/B e actualizações contínuas.

Para obter instruções detalhadas sobre como configurar e executar o YOLOv8 com Triton, podes consultar o guia de configuração.

Porque é que devo exportar o meu modelo YOLOv8 para o formato ONNX antes de utilizar o Servidor de Inferência Triton ?

Utilizar o formato ONNX (Open Neural Network Exchange) para o teu Ultralytics YOLOv8 modelo antes de implantá-lo no NVIDIA Triton Inference Server oferece vários benefícios importantes:

Interoperabilidade: o formato ONNX suporta a transferência entre diferentes quadros de aprendizagem profunda (como PyTorch, TensorFlow), assegurando uma maior compatibilidade.
Otimização: Muitos ambientes de implementação, incluindo Triton, optimizam para ONNX, permitindo uma inferência mais rápida e um melhor desempenho.
Facilidade de implementação: ONNX é amplamente suportado em estruturas e plataformas, simplificando o processo de implementação em vários sistemas operativos e configurações de hardware.

Para exportar o teu modelo, utiliza:

from ultralytics import YOLO

model = YOLO("yolov8n.pt")
onnx_file = model.export(format="onnx", dynamic=True)

Podes seguir os passos do guia de exportação para concluir o processo.

Posso efetuar a inferência utilizando o modelo Ultralytics YOLOv8 no servidor de inferência Triton ?

Sim, podes executar a inferência utilizando o modelo Ultralytics YOLOv8 modelo em NVIDIA Triton Servidor de inferência. Quando o modelo estiver configurado no Repositório de Modelos Triton e o servidor estiver em execução, podes carregar e executar a inferência no teu modelo da seguinte forma:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Para obter um guia pormenorizado sobre a configuração e execução do servidor Triton com YOLOv8, consulte a secção Executar o servidor de inferência triton .

Como é que Ultralytics YOLOv8 se compara aos modelos TensorFlow e PyTorch para a implantação?

Ultralytics YOLOv8 oferece várias vantagens únicas em comparação com os modelos TensorFlow e PyTorch para a implantação:

Desempenho em tempo real: Optimizado para tarefas de deteção de objectos em tempo real, o YOLOv8 fornece precisão e velocidade de ponta, tornando-o ideal para aplicações que requerem análise de vídeo em direto.
Facilidade de utilização: YOLOv8 integra-se perfeitamente com Triton Inference Server e suporta diversos formatos de exportação (ONNX, TensorRT, CoreML), tornando-o flexível para vários cenários de implementação.
Funcionalidades avançadas: YOLOv8 inclui funcionalidades como o carregamento dinâmico de modelos, o controlo de versões de modelos e a inferência de conjuntos, que são cruciais para implementações de IA escaláveis e fiáveis.

Para mais detalhes, compara as opções de implantação no guia de implantação do modelo.

Criado em 2023-11-12, Atualizado em 2024-07-05
Autores: glenn-jocher (10)