─░├žeri─če ge├ž

Triton Çıkarım Sunucusu ile Ultralytics YOLOv8

Triton Inference Server (eski ad─▒yla TensorRT Inference Server), NVIDIA taraf─▒ndan geli┼čtirilen a├ž─▒k kaynakl─▒ bir yaz─▒l─▒m ├ž├Âz├╝m├╝d├╝r. NVIDIA GPU'lar i├žin optimize edilmi┼č bir bulut ├ž─▒kar─▒m ├ž├Âz├╝m├╝ sunar. Triton , yapay zeka modellerinin ├╝retimde geni┼č ├Âl├žekte da─č─▒t─▒m─▒n─▒ basitle┼čtirir. Ultralytics YOLOv8 adresini Triton Inference Server ile entegre etmek, ├Âl├žeklenebilir, y├╝ksek performansl─▒ derin ├Â─črenme ├ž─▒kar─▒m i┼č y├╝klerini da─č─▒tman─▒za olanak tan─▒r. Bu k─▒lavuz, entegrasyonu ayarlamak ve test etmek i├žin ad─▒mlar sa─člar.



─░zle: NVIDIA Triton Inference Server ile Ba┼člarken.

Triton Çıkarım Sunucusu nedir?

Triton Inference Server, ├╝retimde ├že┼čitli yapay zeka modellerini da─č─▒tmak i├žin tasarlanm─▒┼čt─▒r. TensorFlow , PyTorch, ONNX Runtime ve di─čerleri dahil olmak ├╝zere ├žok ├že┼čitli derin ├Â─črenme ve makine ├Â─črenimi ├žer├ževelerini destekler. Birincil kullan─▒m alanlar─▒ ┼čunlard─▒r:

  • Tek bir sunucu ├Ârne─činden birden fazla model sunma.
  • Sunucu yeniden ba┼člat─▒lmadan dinamik model y├╝kleme ve bo┼čaltma.
  • Ensemble ├ž─▒kar─▒m─▒, sonu├žlara ula┼čmak i├žin birden fazla modelin birlikte kullan─▒lmas─▒na izin verir.
  • A/B testi ve s├╝rekli g├╝ncellemeler i├žin model versiyonlama.

├ľn Ko┼čullar

Devam etmeden ├Ânce a┼ča─č─▒daki ├Ân ko┼čullara sahip oldu─čunuzdan emin olun:

  • Makinenizde Docker y├╝kl├╝.
  • Kurulum tritonclient:
    pip install tritonclient[all]
    

YOLOv8 adresini ONNX bi├žimine aktarma

Modeli Triton adresine yerle┼čtirmeden ├Ânce ONNX format─▒na aktar─▒lmas─▒ gerekir. ONNX (Open Neural Network Exchange), modellerin farkl─▒ derin ├Â─črenme ├žer├ževeleri aras─▒nda aktar─▒lmas─▒n─▒ sa─člayan bir formatt─▒r. Kullan─▒n export fonksiyonundan YOLO S─▒n─▒f:

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # load an official model

# Export the model
onnx_file = model.export(format="onnx", dynamic=True)

Triton Model Deposunun Kurulmas─▒

Triton Model Deposu, Triton adresinin modellere eri┼čebilece─či ve y├╝kleyebilece─či bir depolama yeridir.

  1. Gerekli dizin yap─▒s─▒n─▒ olu┼čturun:

    from pathlib import Path
    
    # Define paths
    model_name = "yolo"
    triton_repo_path = Path("tmp") / "triton_repo"
    triton_model_path = triton_repo_path / model_name
    
    # Create directories
    (triton_model_path / "1").mkdir(parents=True, exist_ok=True)
    
  2. D─▒┼ča aktar─▒lan ONNX modelini Triton deposuna ta┼č─▒y─▒n:

    from pathlib import Path
    
    # Move ONNX model to Triton Model path
    Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
    
    # Create config file
    (triton_model_path / "config.pbtxt").touch()
    

Triton ├ç─▒kar─▒m Sunucusunu ├çal─▒┼čt─▒rma

Docker kullanarak Triton ├ç─▒kar─▒m Sunucusunu ├žal─▒┼čt─▒r─▒n:

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:23.09-py3"  # 6.4 GB

# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)

# Run the Triton server and capture the container ID
container_id = (
    subprocess.check_output(
        f"docker run -d --rm -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Ard─▒ndan Triton Server modelini kullanarak ├ž─▒kar─▒m─▒ ├žal─▒┼čt─▒r─▒n:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO(f"http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Konteyneri temizleyin:

# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)

Yukar─▒daki ad─▒mlar─▒ izleyerek, derin ├Â─črenme ├ž─▒kar─▒m g├Ârevleri i├žin ├Âl├žeklenebilir ve y├╝ksek performansl─▒ bir ├ž├Âz├╝m sa─člayan Triton Inference Server ├╝zerinde Ultralytics YOLOv8 modellerini verimli bir ┼čekilde da─č─▒tabilir ve ├žal─▒┼čt─▒rabilirsiniz. Herhangi bir sorunla kar┼č─▒la┼č─▒rsan─▒z veya ba┼čka sorular─▒n─▒z varsa, resmi Triton belgelerine bak─▒n veya destek i├žin Ultralytics toplulu─čuna ula┼č─▒n.



Created 2023-11-12, Updated 2024-06-02
Authors: glenn-jocher (8)

Yorumlar