Triton Çıkarım Sunucusu ile Ultralytics YOLO11
Triton Inference Server (eski adıyla TensorRT Inference Server) NVIDIA tarafından geliştirilen açık kaynaklı bir yazılım çözümüdür. NVIDIA GPU'lar için optimize edilmiş bir bulut çıkarım çözümü sunar. Triton , yapay zeka modellerinin üretimde ölçekli olarak dağıtılmasını basitleştirir. Ultralytics YOLO11 ile Triton Inference Server'ı entegre etmek, ölçeklenebilir, yüksek performanslı derin öğrenme çıkarım iş yüklerini dağıtmanıza olanak tanır. Bu kılavuz, entegrasyonu ayarlamak ve test etmek için adımlar sağlar.
İzle: NVIDIA Triton Inference Server ile Başlarken.
Triton Çıkarım Sunucusu nedir?
Triton Inference Server, üretimde çeşitli yapay zeka modellerini dağıtmak için tasarlanmıştır. TensorFlow dahil olmak üzere çok çeşitli derin öğrenme ve makine öğren imi çerçevelerini destekler, PyTorch, ONNX Runtime ve diğerleri. Birincil kullanım alanları şunlardır:
- Tek bir sunucu örneğinden birden fazla model sunma.
- Sunucu yeniden başlatılmadan dinamik model yükleme ve boşaltma.
- Ensemble çıkarımı, sonuçlara ulaşmak için birden fazla modelin birlikte kullanılmasına izin verir.
- A/B testi ve sürekli güncellemeler için model versiyonlama.
Ön Koşullar
Devam etmeden önce aşağıdaki ön koşullara sahip olduğunuzdan emin olun:
- Makinenizde Docker yüklü.
- Kurulum
tritonclient
:
YOLO11 adresini ONNX biçimine aktarma
Modeli Triton adresine yerleştirmeden önce ONNX formatına aktarılması gerekir. ONNX (Open Neural Network Exchange), modellerin farklı derin öğrenme çerçeveleri arasında aktarılmasını sağlayan bir formattır. Kullanın export
fonksiyonundan YOLO
Sınıf:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # load an official model
# Retreive metadata during export
metadata = []
def export_cb(exporter):
metadata.append(exporter.metadata)
model.add_callback("on_export_end", export_cb)
# Export the model
onnx_file = model.export(format="onnx", dynamic=True)
Triton Model Deposunun Kurulması
Triton Model Deposu, Triton adresinin modellere erişebileceği ve yükleyebileceği bir depolama yeridir.
-
Gerekli dizin yapısını oluşturun:
-
Dışa aktarılan ONNX modelini Triton deposuna taşıyın:
from pathlib import Path # Move ONNX model to Triton Model path Path(onnx_file).rename(triton_model_path / "1" / "model.onnx") # Create config file (triton_model_path / "config.pbtxt").touch() # (Optional) Enable TensorRT for GPU inference # First run will be slow due to TensorRT engine conversion data = """ optimization { execution_accelerators { gpu_execution_accelerator { name: "tensorrt" parameters { key: "precision_mode" value: "FP16" } parameters { key: "max_workspace_size_bytes" value: "3221225472" } parameters { key: "trt_engine_cache_enable" value: "1" } parameters { key: "trt_engine_cache_path" value: "/models/yolo/1" } } } } parameters { key: "metadata" value: { string_value: "%s" } } """ % metadata[0] with open(triton_model_path / "config.pbtxt", "w") as f: f.write(data)
Triton Çıkarım Sunucusunu Çalıştırma
Docker kullanarak Triton Çıkarım Sunucusunu çalıştırın:
import contextlib
import subprocess
import time
from tritonclient.http import InferenceServerClient
# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:24.09-py3" # 8.57 GB
# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)
# Run the Triton server and capture the container ID
container_id = (
subprocess.check_output(
f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
shell=True,
)
.decode("utf-8")
.strip()
)
# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)
# Wait until model is ready
for _ in range(10):
with contextlib.suppress(Exception):
assert triton_client.is_model_ready(model_name)
break
time.sleep(1)
Ardından Triton Server modelini kullanarak çıkarımı çalıştırın:
from ultralytics import YOLO
# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")
# Run inference on the server
results = model("path/to/image.jpg")
Konteyneri temizleyin:
# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)
Yukarıdaki adımları izleyerek, derin öğrenme çıkarım görevleri için ölçeklenebilir ve yüksek performanslı bir çözüm sağlayan Triton Inference Server üzerinde Ultralytics YOLO11 modellerini verimli bir şekilde dağıtabilir ve çalıştırabilirsiniz. Herhangi bir sorunla karşılaşırsanız veya başka sorularınız varsa, resmi Triton belgelerine bakın veya destek için Ultralytics topluluğuna ulaşın.
SSS
Ultralytics YOLO11 ile NVIDIA Triton Çıkarım Sunucusunu nasıl kurabilirim?
Kurulum Ultralytics YOLO11 NVIDIA Triton Çıkarım Sunucusu ile birkaç temel adımı içerir:
-
YOLO11 adresini ONNX biçimine aktarın:
-
Triton Model Deposunu kurun:
from pathlib import Path # Define paths model_name = "yolo" triton_repo_path = Path("tmp") / "triton_repo" triton_model_path = triton_repo_path / model_name # Create directories (triton_model_path / "1").mkdir(parents=True, exist_ok=True) Path(onnx_file).rename(triton_model_path / "1" / "model.onnx") (triton_model_path / "config.pbtxt").touch()
-
Triton Sunucusunu çalıştırın:
import contextlib import subprocess import time from tritonclient.http import InferenceServerClient # Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver tag = "nvcr.io/nvidia/tritonserver:24.09-py3" subprocess.call(f"docker pull {tag}", shell=True) container_id = ( subprocess.check_output( f"docker run -d --rm --gpus 0 -v {triton_repo_path}/models -p 8000:8000 {tag} tritonserver --model-repository=/models", shell=True, ) .decode("utf-8") .strip() ) triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False) for _ in range(10): with contextlib.suppress(Exception): assert triton_client.is_model_ready(model_name) break time.sleep(1)
Bu kurulum, yüksek performanslı yapay zeka model çıkarımı için Triton Inference Server üzerinde YOLO11 modellerini verimli bir şekilde dağıtmanıza yardımcı olabilir.
Ultralytics YOLO11 adresini NVIDIA Triton Inference Server ile kullanmak ne gibi avantajlar sağlar?
Entegrasyon Ultralytics YOLO11 NVIDIA Triton Inference Server ile çeşitli avantajlar sağlar:
- Ölçeklenebilir Yapay Zeka Çıkarsaması: Triton , tek bir sunucu örneğinden birden fazla modelin sunulmasına izin verir, dinamik model yükleme ve boşaltmayı destekler, bu da onu çeşitli yapay zeka iş yükleri için yüksek oranda ölçeklenebilir hale getirir.
- Yüksek Performans: NVIDIA GPU'lar için optimize edilen Triton Inference Server, nesne algılama gibi gerçek zamanlı uygulamalar için mükemmel olan yüksek hızlı çıkarım işlemleri sağlar.
- Topluluk ve Model Versiyonlama: Triton'un topluluk modu, sonuçları iyileştirmek için birden fazla modelin birleştirilmesini sağlar ve model versiyonlama, A/B testini ve sürekli güncellemeleri destekler.
YOLO11 adresinin Triton ile kurulumu ve çalıştırılması hakkında ayrıntılı talimatlar için kurulum kılavuzuna başvurabilirsiniz.
Triton Inference Server'ı kullanmadan önce neden YOLO11 modelimi ONNX formatına aktarmalıyım?
Sizin için ONNX (Open Neural Network Exchange) formatını kullanma Ultralytics YOLO11 modeli NVIDIA Triton Inference Server 'da dağıtmadan önce birkaç önemli avantaj sunar:
- Birlikte çalışabilirlik: ONNX formatı, farklı derin öğrenme çerçeveleri ( PyTorch, TensorFlow gibi) arasında aktarımı destekleyerek daha geniş uyumluluk sağlar.
- Optimizasyon: Triton dahil olmak üzere birçok dağıtım ortamı, ONNX için optimize edilerek daha hızlı çıkarım ve daha iyi performans sağlar.
- Dağıtım Kolaylığı: ONNX , çeşitli işletim sistemleri ve donanım yapılandırmalarında dağıtım sürecini basitleştiren çerçeveler ve platformlar arasında yaygın olarak desteklenmektedir.
Modelinizi dışa aktarmak için şunu kullanın:
from ultralytics import YOLO
model = YOLO("yolo11n.pt")
onnx_file = model.export(format="onnx", dynamic=True)
İşlemi tamamlamak için dışa aktarma kılavuzundaki adımları takip edebilirsiniz.
Ultralytics YOLO11 modelini kullanarak Triton Çıkarım Sunucusu üzerinde çıkarım yapabilir miyim?
Evet, aşağıdakileri kullanarak çıkarımı çalıştırabilirsiniz Ultralytics YOLO11 modelini NVIDIA Triton Çıkarım Sunucusuna yükleyebilirsiniz. Modeliniz Triton Model Deposunda kurulduktan ve sunucu çalıştıktan sonra, modelinize aşağıdaki şekilde çıkarım yükleyebilir ve çalıştırabilirsiniz:
from ultralytics import YOLO
# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")
# Run inference on the server
results = model("path/to/image.jpg")
Triton Server'ı YOLO11 ile kurma ve çalıştırma hakkında ayrıntılı bir kılavuz için triton çıkarım sunucusunu çalıştırma bölümüne bakın.
Ultralytics YOLO11 ile karşılaştırıldığında nasıldır? TensorFlow ve dağıtım için PyTorch modelleri?
Ultralytics YOLO11 dağıtım için TensorFlow ve PyTorch modellerine kıyasla çeşitli benzersiz avantajlar sunar:
- Gerçek Zamanlı Performans: Gerçek zamanlı nesne algılama görevleri için optimize edilen YOLO11 , son teknoloji ürünü doğruluk ve hız sağlayarak canlı video analizi gerektiren uygulamalar için idealdir.
- Kullanım Kolaylığı: YOLO11 , Triton Inference Server ile sorunsuz bir şekilde entegre olur ve çeşitli dışa aktarma formatlarını destekler (ONNX, TensorRT, CoreML), bu da onu çeşitli dağıtım senaryoları için esnek hale getirir.
- Gelişmiş Özellikler: YOLO11 , ölçeklenebilir ve güvenilir yapay zeka dağıtımları için çok önemli olan dinamik model yükleme, model sürümleme ve topluluk çıkarımı gibi özellikler içerir.
Daha fazla ayrıntı için model dağıtım kılavuzundaki dağıtım seçeneklerini karşılaştırın.