Meet YOLO26: next-gen vision AI.

Link to this sectionTriton Inference Server с Ultralytics YOLO26#

Triton Inference Server (ранее известный как TensorRT Inference Server) — это программное решение с открытым исходным кодом, разработанное NVIDIA. Оно предоставляет решение для облачного вывода, оптимизированное для GPU NVIDIA. Triton упрощает развертывание моделей ИИ в промышленном масштабе. Интеграция Ultralytics YOLO26 с Triton Inference Server позволяет запускать масштабируемые и высокопроизводительные рабочие нагрузки глубокого обучения. В этом руководстве представлены шаги по настройке и тестированию интеграции.



Watch: Getting Started with NVIDIA Triton Inference Server.

Link to this sectionЧто такое Triton Inference Server?#

Triton Inference Server предназначен для развертывания различных моделей ИИ в производственных условиях. Он поддерживает широкий спектр фреймворков глубокого и машинного обучения, включая PyTorch, TensorFlow, ONNX, OpenVINO, TensorRT и многие другие. Его основные сценарии использования:

  • Обслуживание нескольких моделей с одного экземпляра сервера
  • Динамическая загрузка и выгрузка моделей без перезапуска сервера
  • Ансамблевый вывод, позволяющий использовать несколько моделей вместе для получения результатов
  • Версионирование моделей для A/B-тестирования и постепенных обновлений

Link to this sectionКлючевые преимущества Triton Inference Server#

Использование Triton Inference Server с Ultralytics YOLO26 дает несколько преимуществ:

  • Автоматическое пакетирование: группирует несколько запросов ИИ перед их обработкой, снижая задержку и повышая скорость вывода
  • Интеграция с Kubernetes: облачно-ориентированный дизайн отлично работает с Kubernetes для управления и масштабирования приложений ИИ
  • Аппаратные оптимизации: использует возможности GPU NVIDIA по максимуму для достижения пиковой производительности
  • Гибкость фреймворков: поддерживает множество фреймворков ИИ, включая PyTorch, TensorFlow, ONNX, OpenVINO и TensorRT
  • Открытый исходный код и настраиваемость: можно изменять под конкретные нужды, обеспечивая гибкость для различных приложений ИИ

Link to this sectionПредварительные требования#

Перед началом работы убедись, что у тебя выполнены следующие предварительные требования:

  • Установлен Docker или Podman на твоей машине
  • Установи ultralytics:
    pip install ultralytics
  • Установи tritonclient:
    pip install tritonclient[all]

Link to this sectionНастройка Triton Inference Server#

Запусти этот полный блок настройки, чтобы экспортировать Ultralytics YOLO26 в ONNX, собрать репозиторий моделей Triton и запустить Triton Inference Server:

Примечание

Используй переключатель runtime в скрипте, чтобы выбрать свой движок контейнеров:

  • Установи runtime = "docker" для Docker
  • Установи runtime = "podman" для Podman
import contextlib
import subprocess
import time
from pathlib import Path

from tritonclient.http import InferenceServerClient

from ultralytics import YOLO

runtime = "docker"  # set to "podman" to use Podman

# 1) Exporting YOLO26 to ONNX Format

# Load a model
model = YOLO("yolo26n.pt")  # load an official model

# Retrieve metadata during export. Metadata needs to be added to config.pbtxt. See next section.
metadata = []

def export_cb(exporter):
    metadata.append(exporter.metadata)

model.add_callback("on_export_end", export_cb)

# Export the model
onnx_file = model.export(format="onnx", dynamic=True)

# 2) Setting Up Triton Model Repository

# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name

# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)

# Move ONNX model to Triton Model path
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")

# Create config file
(triton_model_path / "config.pbtxt").touch()

data = """
# Add metadata
parameters {
  key: "metadata"
  value {
    string_value: "%s"
  }
}

# Enable TensorRT acceleration (requires a GPU and TensorRT-enabled Triton; remove this block for CPU-only serving)
# The first run will be slow due to TensorRT engine conversion
optimization {
  execution_accelerators {
    gpu_execution_accelerator {
      name: "tensorrt"
      parameters {
        key: "precision_mode"
        value: "FP16"
      }
      parameters {
        key: "max_workspace_size_bytes"
        value: "3221225472"
      }
      parameters {
        key: "trt_engine_cache_enable"
        value: "1"
      }
      parameters {
        key: "trt_engine_cache_path"
        value: "/models/yolo/1"
      }
    }
  }
}
""" % metadata[0]  # noqa

with open(triton_model_path / "config.pbtxt", "w") as f:
    f.write(data)

# 3) Running Triton Inference Server

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:26.02-py3"  # 16.17 GB (Compressed Size)

subprocess.call(f"{runtime} pull {tag}", shell=True)

# GPU flags differ between Docker and Podman
gpu_flags = "--device nvidia.com/gpu=all" if runtime == "podman" else "--runtime=nvidia --gpus all"

container_name = "triton_server"

# Note: The :z flag on the volume mount is necessary for systems with SELinux (like Fedora/RHEL)
subprocess.call(
    f"{runtime} run -d --rm --name {container_name} {gpu_flags} -v {triton_repo_path.absolute()}:/models:z -p 8000:8000 {tag} tritonserver --model-repository=/models",
    shell=True,
)

# Wait for the Triton server to start
triton_client = InferenceServerClient(url="127.0.0.1:8000", verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Link to this sectionЗапуск вывода#

Запусти вывод с использованием модели Triton Server:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://127.0.0.1:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Очисти контейнер:

import subprocess

runtime = "docker"  # set to "podman" to use Podman
container_name = "triton_server"  # Kill the named container
subprocess.call(f"{runtime} kill {container_name}", shell=True)

Link to this sectionОптимизация TensorRT (необязательно)#

Для еще большей производительности ты можешь использовать TensorRT с Triton Inference Server. TensorRT — это высокопроизводительный оптимизатор глубокого обучения, специально разработанный для GPU NVIDIA, который может значительно увеличить скорость вывода.

Ключевые преимущества использования TensorRT с Triton включают:

  • До 36 раз более быстрый вывод по сравнению с неоптимизированными моделями
  • Аппаратно-зависимые оптимизации для максимальной загрузки GPU
  • Поддержка форматов с пониженной точностью (INT8, FP16) при сохранении точности
  • Слияние слоев для уменьшения вычислительных затрат

Чтобы использовать TensorRT напрямую, ты можешь экспортировать свою модель Ultralytics YOLO26 в формат TensorRT:

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format
model.export(format="engine")  # creates 'yolo26n.engine'

Для получения дополнительной информации об оптимизации TensorRT смотри руководство по интеграции TensorRT.

Теперь ты можешь развертывать и запускать модели Ultralytics YOLO26 на Triton Inference Server для масштабируемого и высокопроизводительного вывода. Более подробную информацию ищи в официальной документации Triton или попроси помощи у сообщества Ultralytics.

Link to this sectionFAQ#

Link to this sectionКак настроить Ultralytics YOLO26 с NVIDIA Triton Inference Server?#

Настройка Ultralytics YOLO26 с NVIDIA Triton Inference Server включает несколько ключевых шагов:

  1. Экспорт YOLO26 в формат ONNX:

    from ultralytics import YOLO
    
    # Load a model
    model = YOLO("yolo26n.pt")  # load an official model
    
    # Export the model to ONNX format
    onnx_file = model.export(format="onnx", dynamic=True)
  2. Настройка репозитория моделей Triton:

    from pathlib import Path
    
    # Define paths
    model_name = "yolo"
    triton_repo_path = Path("tmp") / "triton_repo"
    triton_model_path = triton_repo_path / model_name
    
    # Create directories
    (triton_model_path / "1").mkdir(parents=True, exist_ok=True)
    Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
    (triton_model_path / "config.pbtxt").touch()
  3. Запуск сервера Triton:

    import contextlib
    import subprocess
    import time
    
    from tritonclient.http import InferenceServerClient
    
    # Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
    tag = "nvcr.io/nvidia/tritonserver:26.02-py3"
    
    runtime = "docker"  # set to "podman" to use Podman
    subprocess.call(f"{runtime} pull {tag}", shell=True)
    
    # GPU flags differ between Docker and Podman
    gpu_flags = "--device nvidia.com/gpu=all" if runtime == "podman" else "--runtime=nvidia --gpus all"
    
    container_name = "triton_server"
    subprocess.call(
        f"{runtime} run -d --rm --name {container_name} {gpu_flags} -v {triton_repo_path.absolute()}:/models:z -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    
    triton_client = InferenceServerClient(url="127.0.0.1:8000", verbose=False, ssl=False)
    
    for _ in range(10):
        with contextlib.suppress(Exception):
            assert triton_client.is_model_ready(model_name)
            break
        time.sleep(1)

Эта настройка поможет тебе эффективно развертывать модели Ultralytics YOLO26 в масштабе на Triton Inference Server для высокопроизводительного вывода моделей ИИ.

Link to this sectionКакие преимущества дает использование Ultralytics YOLO26 с NVIDIA Triton Inference Server?#

Интеграция Ultralytics YOLO26 с NVIDIA Triton Inference Server дает ряд преимуществ:

  • Масштабируемый вывод ИИ: Triton позволяет обслуживать несколько моделей с одного экземпляра сервера, поддерживает динамическую загрузку и выгрузку моделей, что делает его легко масштабируемым для различных нагрузок ИИ.
  • Высокая производительность: Оптимизированный для GPU NVIDIA, Triton Inference Server обеспечивает высокоскоростные операции вывода, что идеально подходит для приложений реального времени, таких как обнаружение объектов.
  • Ансамблевое и версионное управление моделями: ансамблевый режим Triton позволяет объединять несколько моделей для улучшения результатов, а его версионирование поддерживает A/B-тестирование и постепенные обновления.
  • Автоматическое пакетирование: Triton автоматически группирует несколько запросов на вывод вместе, значительно увеличивая пропускную способность и снижая задержку.
  • Упрощенное развертывание: Постепенная оптимизация рабочих процессов ИИ без необходимости полной переработки системы, что упрощает эффективное масштабирование.

Подробные инструкции по настройке и запуску Ultralytics YOLO26 с Triton см. в разделах Настройка Triton Inference Server и Запуск вывода.

Link to this sectionПочему мне следует экспортировать модель YOLO26 в формат ONNX перед использованием Triton Inference Server?#

Использование формата ONNX (Open Neural Network Exchange) для твоей модели Ultralytics YOLO26 перед развертыванием на NVIDIA Triton Inference Server дает несколько ключевых преимуществ:

  • Совместимость: формат ONNX поддерживает передачу данных между различными фреймворками глубокого обучения (такими как PyTorch, TensorFlow), обеспечивая более широкую совместимость.
  • Оптимизация: многие среды развертывания, включая Triton, оптимизированы под ONNX, что обеспечивает более быстрый вывод и лучшую производительность.
  • Простота развертывания: ONNX широко поддерживается различными фреймворками и платформами, что упрощает процесс развертывания в разных операционных системах и конфигурациях оборудования.
  • Независимость от фреймворка: после преобразования в ONNX твоя модель больше не привязана к исходному фреймворку, что делает ее более портативной.
  • Стандартизация: ONNX предоставляет стандартизированное представление, которое помогает преодолеть проблемы совместимости между различными ИИ-фреймворками.

Для экспорта модели используй:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
onnx_file = model.export(format="onnx", dynamic=True)

Ты можешь выполнить шаги из руководства по интеграции ONNX, чтобы завершить процесс.

Link to this sectionМогу ли я запускать вывод с использованием модели Ultralytics YOLO26 на Triton Inference Server?#

Да, ты можешь запускать вывод, используя модель Ultralytics YOLO26 на NVIDIA Triton Inference Server. Как только твоя модель будет настроена в репозитории моделей Triton и сервер будет запущен, ты сможешь загрузить и выполнить вывод на своей модели следующим образом:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://127.0.0.1:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Этот подход позволяет тебе использовать преимущества оптимизации Triton, применяя при этом привычный интерфейс Ultralytics YOLO.

Link to this sectionКак Ultralytics YOLO26 соотносится с моделями TensorFlow и PyTorch для развертывания?#

Ultralytics YOLO26 предлагает несколько уникальных преимуществ по сравнению с моделями TensorFlow и PyTorch для развертывания:

  • Производительность в реальном времени: оптимизированная для задач обнаружения объектов в реальном времени, Ultralytics YOLO26 обеспечивает передовую точность и скорость, что делает ее идеальной для приложений, требующих анализа видео в прямом эфире.
  • Простота использования: Ultralytics YOLO26 бесшовно интегрируется с Triton Inference Server и поддерживает различные форматы экспорта (ONNX, TensorRT), что делает ее гибкой для различных сценариев развертывания.
  • Расширенные функции: Ultralytics YOLO26 включает такие функции, как динамическая загрузка моделей, версионирование моделей и ансамблевый вывод, которые критически важны для масштабируемых и надежных развертываний ИИ.
  • Упрощенный API: Ultralytics API предоставляет согласованный интерфейс для различных целей развертывания, снижая кривую обучения и время разработки.
  • Оптимизация для периферийных устройств (Edge): модели Ultralytics YOLO26 разработаны с учетом развертывания на Edge, обеспечивая отличную производительность даже на устройствах с ограниченными ресурсами.

Для получения более подробной информации сравни варианты развертывания в руководстве по экспорту моделей.

Комментарии