انتقل إلى المحتوى

Triton خادم الاستدلال مع Ultralytics YOLO11

Triton Inference Server (المعروف سابقًا باسم TensorRT Inference Server) هو حل برمجي مفتوح المصدر تم تطويره بواسطة NVIDIA. وهو يوفر حلاً استدلاليًا سحابيًا مُحسّنًا لوحدات معالجة الرسومات NVIDIA . Triton يبسط نشر نماذج الذكاء الاصطناعي على نطاق واسع في الإنتاج. يتيح لك دمج Ultralytics YOLO11 مع Triton Inference Server نشر أعباء عمل استدلالية للتعلم العميق قابلة للتطوير وعالية الأداء. يوفر هذا الدليل خطوات إعداد التكامل واختباره.



شاهد: الشروع في العمل مع NVIDIA Triton Inference Server.

ما هو Triton خادم الاستدلال؟

Triton تم تصميم Inference Server لنشر مجموعة متنوعة من نماذج الذكاء الاصطناعي في الإنتاج. وهو يدعم مجموعة واسعة من أطر التعلم العميق والتعلم الآلي، بما في ذلك TensorFlow, PyTorchONNX Runtime، وغيرها الكثير. حالات استخدامه الأساسية هي:

  • خدمة نماذج متعددة من مثيل خادم واحد.
  • تحميل وتفريغ النموذج الديناميكي دون إعادة تشغيل الخادم.
  • الاستدلال الجماعي ، مما يسمح باستخدام نماذج متعددة معا لتحقيق النتائج.
  • إصدار النموذج لاختبار A / B والتحديثات المستمرة.

المتطلبات المسبقه

تأكد من توفر المتطلبات الأساسية التالية قبل المتابعة:

  • عامل ميناء مثبت على جهازك.
  • أقام tritonclient:
    pip install tritonclient[all]
    

تصدير YOLO11 إلى تنسيق ONNX

قبل نشر النموذج على Triton، يجب تصديرها إلى ONNX تنسيق. ONNX (Open Neural Network Exchange) هو تنسيق يسمح بنقل النماذج بين أطر التعلم العميق المختلفة. استخدم الزر export وظيفة من YOLO فصل:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model

# Export the model
onnx_file = model.export(format="onnx", dynamic=True)

اعداد Triton مستودع النماذج

ال Triton مستودع النموذج هو موقع تخزين حيث Triton يمكن الوصول إلى النماذج وتحميلها.

  1. إنشاء بنية الدليل اللازمة:

    from pathlib import Path
    
    # Define paths
    model_name = "yolo"
    triton_repo_path = Path("tmp") / "triton_repo"
    triton_model_path = triton_repo_path / model_name
    
    # Create directories
    (triton_model_path / "1").mkdir(parents=True, exist_ok=True)
    
  2. نقل المصدر ONNX نموذج ل Triton مستودع:

    from pathlib import Path
    
    # Move ONNX model to Triton Model path
    Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
    
    # Create config file
    (triton_model_path / "config.pbtxt").touch()
    
    # (Optional) Enable TensorRT for GPU inference
    # First run will be slow due to TensorRT engine conversion
    data = """
    optimization {
      execution_accelerators {
        gpu_execution_accelerator {
          name: "tensorrt"
          parameters {
            key: "precision_mode"
            value: "FP16"
          }
          parameters {
            key: "max_workspace_size_bytes"
            value: "3221225472"
          }
          parameters {
            key: "trt_engine_cache_enable"
            value: "1"
          }
          parameters {
            key: "trt_engine_cache_path"
            value: "/models/yolo/1"
          }
        }
      }
    }
    """
    
    with open(triton_model_path / "config.pbtxt", "w") as f:
        f.write(data)
    

تشغيل Triton خادم الاستدلال

قم بتشغيل الزر Triton خادم الاستدلال باستخدام Docker:

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:24.09-py3"  # 8.57 GB

# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)

# Run the Triton server and capture the container ID
container_id = (
    subprocess.check_output(
        f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

ثم قم بتشغيل الاستدلال باستخدام Triton طراز الخادم:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

تنظيف الحاوية:

# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)

من خلال اتباع الخطوات المذكورة أعلاه، يمكنك نشر وتشغيل نماذج Ultralytics YOLO11 بكفاءة على Triton Inference Server، مما يوفر حلاً قابلاً للتطوير وعالي الأداء لمهام الاستدلال على التعلم العميق. إذا واجهت أي مشاكل أو كان لديك المزيد من الاستفسارات، فارجع إلى الوثائق الرسمية Triton أو تواصل مع مجتمع Ultralytics للحصول على الدعم.

الأسئلة المتداولة

كيف أقوم بإعداد Ultralytics YOLO11 مع NVIDIA Triton Inference Server؟

ينطوي إعداد Ultralytics YOLO11 مع NVIDIA Triton Inference Server على بعض الخطوات الرئيسية:

  1. تصدير YOLO11 إلى تنسيق ONNX :

    from ultralytics import YOLO
    
    # Load a model
    model = YOLO("yolo11n.pt")  # load an official model
    
    # Export the model to ONNX format
    onnx_file = model.export(format="onnx", dynamic=True)
    
  2. إعداد مستودع النماذج Triton

    from pathlib import Path
    
    # Define paths
    model_name = "yolo"
    triton_repo_path = Path("tmp") / "triton_repo"
    triton_model_path = triton_repo_path / model_name
    
    # Create directories
    (triton_model_path / "1").mkdir(parents=True, exist_ok=True)
    Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
    (triton_model_path / "config.pbtxt").touch()
    
  3. قم بتشغيل الخادم Triton

    import contextlib
    import subprocess
    import time
    
    from tritonclient.http import InferenceServerClient
    
    # Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
    tag = "nvcr.io/nvidia/tritonserver:24.09-py3"
    
    subprocess.call(f"docker pull {tag}", shell=True)
    
    container_id = (
        subprocess.check_output(
            f"docker run -d --rm --gpus 0 -v {triton_repo_path}/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
            shell=True,
        )
        .decode("utf-8")
        .strip()
    )
    
    triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)
    
    for _ in range(10):
        with contextlib.suppress(Exception):
            assert triton_client.is_model_ready(model_name)
            break
        time.sleep(1)
    

يمكن أن يساعدك هذا الإعداد على نشر نماذج YOLO11 بكفاءة على نطاق واسع على Triton Inference Server للاستدلال على نماذج الذكاء الاصطناعي عالية الأداء.

ما هي الفوائد التي يوفرها استخدام Ultralytics YOLO11 مع NVIDIA Triton Inference Server؟

يوفر دمج Ultralytics YOLO11 مع NVIDIA Triton Inference Server العديد من المزايا:

  • استدلال الذكاء الاصطناعي القابل للتطوير: Triton يسمح بتقديم نماذج متعددة من مثيل خادم واحد، ويدعم تحميل وتفريغ النماذج الديناميكية، مما يجعله قابلاً للتطوير بدرجة كبيرة لأعباء عمل الذكاء الاصطناعي المتنوعة.
  • أداء عالٍ: يضمن خادم الاستدلال Triton Inference Server، الذي تم تحسينه لوحدات معالجة الرسومات NVIDIA ، عمليات استدلال عالية السرعة، وهو مثالي للتطبيقات في الوقت الحقيقي مثل اكتشاف الأجسام.
  • التجميع وإصدار النماذج: يتيح وضع التجميع Triton الجمع بين نماذج متعددة لتحسين النتائج، ويدعم إصدار النماذج اختبار A/B والتحديثات المتجددة.

للحصول على تعليمات مفصلة حول إعداد YOLO11 وتشغيله باستخدام Triton ، يمكنك الرجوع إلى دليل الإعداد.

لماذا يجب عليّ تصدير نموذج YOLO11 الخاص بي إلى تنسيق ONNX قبل استخدام Triton Inference Server؟

يوفر استخدام صيغة ONNX (Open Neural Network Exchange) لنموذج Ultralytics YOLO11 الخاص بك قبل نشره على NVIDIA Triton Inference Server العديد من المزايا الرئيسية:

  • قابلية التشغيل البيني: يدعم تنسيق ONNX النقل بين أطر عمل التعلم العميق المختلفة (مثل PyTorch ، TensorFlow)، مما يضمن توافقًا أوسع نطاقًا.
  • التحسين: تعمل العديد من بيئات النشر، بما في ذلك Triton ، على تحسين ONNX ، مما يتيح استدلالاً أسرع وأداءً أفضل.
  • سهولة النشر: ONNX مدعوم على نطاق واسع عبر الأطر والأنظمة الأساسية، مما يبسّط عملية النشر في مختلف أنظمة التشغيل وتكوينات الأجهزة.

لتصدير النموذج الخاص بك، استخدم:

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
onnx_file = model.export(format="onnx", dynamic=True)

يمكنك اتباع الخطوات الواردة في دليل التصدير لإكمال العملية.

هل يمكنني تشغيل الاستدلال باستخدام نموذج Ultralytics YOLO11 على Triton Inference Server ؟

نعم، يمكنك تشغيل الاستدلال باستخدام نموذج Ultralytics YOLO11 على NVIDIA Triton Inference Server. بمجرد إعداد النموذج الخاص بك في مستودع النماذج Triton وتشغيل الخادم، يمكنك تحميل وتشغيل الاستدلال على نموذجك على النحو التالي:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

للحصول على دليل متعمق حول إعداد وتشغيل Triton الخادم مع YOLO11، راجع قسم تشغيل خادم الاستدلال triton .

كيف يمكن مقارنة Ultralytics YOLO11 مع TensorFlow ونماذج PyTorch للنشر؟

Ultralytics يوفر YOLO11 العديد من المزايا الفريدة مقارنةً بنموذجي TensorFlow و PyTorch للنشر:

  • الأداء في الوقت الحقيقي: تم تحسين YOLO11 لمهام الكشف عن الأجسام في الوقت الحقيقي، ويوفر أحدث ما توصلت إليه التكنولوجيا من دقة وسرعة، مما يجعله مثاليًا للتطبيقات التي تتطلب تحليلات فيديو مباشرة.
  • سهولة الاستخدام: يتكامل YOLO11 بسلاسة مع Triton Inference Server ويدعم تنسيقات تصدير متنوعة (ONNX و TensorRT و CoreML)، مما يجعله مرنًا لمختلف سيناريوهات النشر.
  • ميزات متقدمة: يتضمن YOLO11 ميزات مثل التحميل الديناميكي للنماذج، وإصدار النماذج، والاستدلال التجميعي، وهي ميزات ضرورية لعمليات نشر الذكاء الاصطناعي القابلة للتطوير والموثوقية.

لمزيد من التفاصيل، قارن خيارات النشر في دليل نشر النموذج.

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 20 يومًا

التعليقات