Triton Server di inferenza con Ultralytics YOLO11

Q: How do I set up Ultralytics YOLO11 with NVIDIA Triton Inference Server?

La configurazione di Ultralytics YOLO11 con NVIDIA Triton Inference Server richiede alcuni passaggi chiave: Questa configurazione può aiutarvi a distribuire in modo efficiente i modelli YOLO11 su scala su Triton Inference Server per l'inferenza di modelli AI ad alte prestazioni.

Q: How does Ultralytics YOLO11 compare to TensorFlow and PyTorch models for deployment?

Ultralytics YOLO11 offre diversi vantaggi unici rispetto ai modelli TensorFlow e PyTorch per la distribuzione: Per maggiori dettagli, confrontare le opzioni di distribuzione nella guida all'esportazione dei modelli.

Triton Inference Server (precedentemente noto come TensorRT Inference Server) è una soluzione software open-source sviluppata da NVIDIA. Offre una soluzione di inferenza in cloud ottimizzata per le GPU NVIDIA . Triton semplifica l'implementazione di modelli di intelligenza artificiale su scala in produzione. L'integrazione di Ultralytics YOLO11 con Triton Inference Server consente di distribuire carichi di lavoro di inferenza di deep learning scalabili e ad alte prestazioni. Questa guida fornisce i passaggi per impostare e testare l'integrazione.

Guarda: Come iniziare con NVIDIA Triton Inference Server.

Che cos'è Triton Inference Server?

Triton Inference Server è stato progettato per distribuire una serie di modelli di intelligenza artificiale in produzione. Supporta un'ampia gamma di framework di deep learning e machine learning, tra cui TensorFlow, PyTorch, ONNX Runtime e molti altri. I suoi casi d'uso principali sono:

Servire più modelli da un'unica istanza del server
Caricamento e scaricamento dinamico del modello senza riavvio del server
Inferenza ensemble, che consente di utilizzare più modelli insieme per ottenere risultati
Versioni del modello per test A/B e aggiornamenti continui

Vantaggi principali di Triton Inference Server

L'uso di Triton Inference Server con Ultralytics YOLO11 offre diversi vantaggi:

Batching automatico: raggruppa più richieste di intelligenza artificiale prima di elaborarle, riducendo la latenza e migliorando la velocità di inferenza.
Integrazione con Kubernetes: Il design cloud-native funziona perfettamente con Kubernetes per la gestione e la scalabilità delle applicazioni AI.
Ottimizzazioni specifiche per l'hardware: Sfrutta appieno le GPU NVIDIA per ottenere le massime prestazioni.
Flessibilità del framework: Supporta diversi framework di intelligenza artificiale, tra cui TensorFlow, PyTorch, ONNX e TensorRT.
Open-source e personalizzabile: Può essere modificato per adattarsi a esigenze specifiche, garantendo la flessibilità per varie applicazioni di intelligenza artificiale.

Prerequisiti

Prima di procedere, accertatevi di disporre dei seguenti prerequisiti:

Docker installato sulla macchina
Installare tritonclient:
```
pip install tritonclient[all]
```

Esportazione di YOLO11 nel formato ONNX

Prima di distribuire il modello su Triton, è necessario esportarlo nel formato ONNX . ONNX (Open Neural Network Exchange) è un formato che consente di trasferire i modelli tra diversi framework di deep learning. Utilizzare il formato export dalla funzione YOLO classe:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model

# Retrieve metadata during export. Metadata needs to be added to config.pbtxt. See next section.
metadata = []


def export_cb(exporter):
    metadata.append(exporter.metadata)


model.add_callback("on_export_end", export_cb)

# Export the model
onnx_file = model.export(format="onnx", dynamic=True)

Impostazione del repository di modelli Triton

Il Repository dei modelli di Triton è un luogo di archiviazione in cui Triton può accedere e caricare i modelli.

Creare la struttura di directory necessaria:

from pathlib import Path

# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name

# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)

Spostare il modello esportato ONNX nel repository Triton :

from pathlib import Path

# Move ONNX model to Triton Model path
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")

# Create config file
(triton_model_path / "config.pbtxt").touch()

data = """
# Add metadata
parameters {
  key: "metadata"
  value {
    string_value: "%s"
  }
}

# (Optional) Enable TensorRT for GPU inference
# First run will be slow due to TensorRT engine conversion
optimization {
  execution_accelerators {
    gpu_execution_accelerator {
      name: "tensorrt"
      parameters {
        key: "precision_mode"
        value: "FP16"
      }
      parameters {
        key: "max_workspace_size_bytes"
        value: "3221225472"
      }
      parameters {
        key: "trt_engine_cache_enable"
        value: "1"
      }
      parameters {
        key: "trt_engine_cache_path"
        value: "/models/yolo/1"
      }
    }
  }
}
""" % metadata[0]  # noqa

with open(triton_model_path / "config.pbtxt", "w") as f:
    f.write(data)

Esecuzione del server di inferenza Triton

Eseguire il server di inferenza Triton utilizzando Docker:

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:24.09-py3"  # 8.57 GB

# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)

# Run the Triton server and capture the container ID
container_id = (
    subprocess.check_output(
        f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Quindi eseguire l'inferenza utilizzando il modello di Triton Server:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Pulire il contenitore:

# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)

Ottimizzazione di TensorRT (opzionale)

Per ottenere prestazioni ancora maggiori, è possibile utilizzare TensorRT con Triton Inference Server. TensorRT è un ottimizzatore di deep learning ad alte prestazioni costruito specificamente per le GPU NVIDIA che può aumentare significativamente la velocità di inferenza.

I vantaggi principali dell'utilizzo di TensorRT con Triton includono:

Inferenza fino a 36 volte più veloce rispetto ai modelli non ottimizzati
Ottimizzazioni specifiche per l'hardware per il massimo utilizzo della GPU
Supporto per formati a precisione ridotta (INT8, FP16) mantenendo la precisione
Fusione di livelli per ridurre l'overhead computazionale

Per utilizzare direttamente TensorRT , è possibile esportare il modello YOLO11 in formato TensorRT :

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT format
model.export(format="engine")  # creates 'yolo11n.engine'

Per ulteriori informazioni sull'ottimizzazione di TensorRT , consultare la guida all'integrazione diTensorRT .

Seguendo i passi sopra descritti, è possibile distribuire ed eseguire i modelli Ultralytics YOLO11 in modo efficiente su Triton Inference Server, fornendo una soluzione scalabile e ad alte prestazioni per le attività di inferenza dell'apprendimento profondo. In caso di problemi o di ulteriori domande, consultare la documentazione ufficiale di Triton o rivolgersi alla comunità di Ultralytics per ottenere supporto.

FAQ

Come si configura Ultralytics YOLO11 con NVIDIA Triton Inference Server?

La configurazione Ultralytics YOLO11 con NVIDIA Triton Inference Server comporta alcuni passaggi chiave:

Esportazione di YOLO11 in formato ONNX :

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model

# Export the model to ONNX format
onnx_file = model.export(format="onnx", dynamic=True)

Impostare il repository di modelli Triton :

from pathlib import Path

# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name

# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
(triton_model_path / "config.pbtxt").touch()

Eseguire il server Triton :

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:24.09-py3"

subprocess.call(f"docker pull {tag}", shell=True)

container_id = (
    subprocess.check_output(
        f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Questa configurazione può aiutarvi a distribuire in modo efficiente i modelli di YOLO11 in scala su Triton Inference Server per l'inferenza di modelli di intelligenza artificiale ad alte prestazioni.

Quali vantaggi offre l'utilizzo di Ultralytics YOLO11 con NVIDIA Triton Inference Server?

L'integrazione di Ultralytics YOLO11 con NVIDIA Triton Inference Server offre diversi vantaggi:

Inferenza AI scalabile: Triton consente di servire più modelli da una singola istanza del server, supportando il caricamento e lo scaricamento dinamico dei modelli e rendendolo altamente scalabile per diversi carichi di lavoro AI.
Prestazioni elevate: Ottimizzato per le GPU NVIDIA , Triton Inference Server garantisce operazioni di inferenza ad alta velocità, perfette per applicazioni in tempo reale come il rilevamento di oggetti.
Ensemble e Model Versioning: la modalità ensemble di Triton consente di combinare più modelli per migliorare i risultati, mentre il versioning dei modelli supporta i test A/B e gli aggiornamenti continui.
Batching automatico: Triton raggruppa automaticamente più richieste di inferenza, migliorando significativamente il throughput e riducendo la latenza.
Distribuzione semplificata: Ottimizzazione graduale dei flussi di lavoro dell'intelligenza artificiale senza richiedere una revisione completa del sistema, rendendo più facile scalare in modo efficiente.

Per istruzioni dettagliate sull'impostazione e l'esecuzione di YOLO11 con Triton, è possibile consultare la guida all'installazione.

Perché devo esportare il mio modello YOLO11 nel formato ONNX prima di usare Triton Inference Server?

L'uso del formato ONNX (Open Neural Network Exchange) per il modello Ultralytics YOLO11 prima di distribuirlo su NVIDIA Triton Inference Server offre diversi vantaggi chiave:

Interoperabilità: il formato ONNX supporta il trasferimento tra diversi framework di deep learning (come PyTorch, TensorFlow), garantendo una maggiore compatibilità.
Ottimizzazione: Molti ambienti di distribuzione, tra cui Triton, ottimizzano per ONNX, consentendo un'inferenza più rapida e migliori prestazioni.
Facilità di distribuzione: ONNX è ampiamente supportato da diversi framework e piattaforme, semplificando il processo di distribuzione in diversi sistemi operativi e configurazioni hardware.
Indipendenza dal framework: Una volta convertito in ONNX, il modello non è più legato al framework originale, rendendolo più portabile.
Standardizzazione: ONNX fornisce una rappresentazione standardizzata che aiuta a superare i problemi di compatibilità tra diversi framework di IA.

Per esportare il modello, utilizzare:

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
onnx_file = model.export(format="onnx", dynamic=True)

Per completare il processo, è possibile seguire i passi della guida all'integrazione diONNX .

È possibile eseguire l'inferenza utilizzando il modello Ultralytics YOLO11 su Triton Inference Server?

Sì, è possibile eseguire l'inferenza utilizzando il modello Ultralytics YOLO11 su NVIDIA Triton Inference Server. Una volta che il modello è stato configurato nel Triton Model Repository e il server è in funzione, è possibile caricare ed eseguire l'inferenza sul modello come segue:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Questo approccio consente di sfruttare le ottimizzazioni di Triton pur utilizzando la familiare interfaccia di Ultralytics YOLO . Per una guida approfondita sulla configurazione e l'esecuzione di Triton Server con YOLO11, consultate la sezione Esecuzione di triton Inference Server.

Come si colloca Ultralytics YOLO11 rispetto ai modelli TensorFlow e PyTorch per quanto riguarda la distribuzione?

Ultralytics YOLO11 offre diversi vantaggi unici rispetto a TensorFlow e PyTorch per la distribuzione:

Prestazioni in tempo reale: Ottimizzato per le attività di rilevamento di oggetti in tempo reale, YOLO11 offre precisione e velocità all'avanguardia, rendendolo ideale per le applicazioni che richiedono l'analisi di video dal vivo.
Facilità d'uso: YOLO11 si integra perfettamente con Triton Inference Server e supporta diversi formati di esportazione (ONNX, TensorRT, CoreML), rendendolo flessibile per vari scenari di implementazione.
Funzionalità avanzate: YOLO11 include funzionalità come il caricamento dinamico dei modelli, il versioning dei modelli e l'inferenza di ensemble, che sono fondamentali per implementazioni di IA scalabili e affidabili.
API semplificata: L'API di Ultralytics offre un'interfaccia coerente tra i diversi target di distribuzione, riducendo la curva di apprendimento e i tempi di sviluppo.
Ottimizzazione dei bordi: I modelli YOLO11 sono stati progettati tenendo conto dell'implementazione edge, offrendo prestazioni eccellenti anche su dispositivi con risorse limitate.

Per maggiori dettagli, confrontare le opzioni di distribuzione nella guida all'esportazione del modello.

📅C reato 1 anno fa ✏️ Aggiornato 8 giorni fa