Triton Сервер выводов с Ultralytics YOLO11

Q: How does Ultralytics YOLO11 compare to TensorFlow and PyTorch models for deployment?

Ultralytics YOLO11 предлагает несколько уникальных преимуществ по сравнению с моделями TensorFlow и PyTorch при развертывании: Для получения более подробной информации сравните варианты развертывания в руководстве по экспорту моделей.

СерверTriton Inference Server (ранее известный как TensorRT Inference Server) - это программное решение с открытым исходным кодом, разработанное компанией NVIDIA. Он представляет собой облачное решение для вычислений, оптимизированное для NVIDIA GPU. Triton упрощает развертывание моделей ИИ в масштабе производства. Интеграция Ultralytics YOLO11 с Triton Inference Server позволяет развернуть масштабируемые, высокопроизводительные рабочие нагрузки по анализу глубокого обучения. В этом руководстве описаны шаги по настройке и тестированию интеграции.

Смотреть: Начало работы с NVIDIA Triton Inference Server.

Что такое Triton Inference Server?

Triton Inference Server предназначен для развертывания различных моделей искусственного интеллекта в производстве. Он поддерживает широкий спектр фреймворков глубокого обучения и машинного обучения, включая TensorFlow, PyTorch, ONNX Runtime и многие другие. Его основными областями применения являются:

Обслуживание нескольких моделей с одного экземпляра сервера
Динамическая загрузка и выгрузка моделей без перезагрузки сервера
Выводы по ансамблю, позволяющие использовать несколько моделей для получения результатов
Версионирование моделей для A/B-тестирования и скользящих обновлений

Ключевые преимущества Triton Inference Server

Использование Triton Inference Server с Ultralytics YOLO11 дает несколько преимуществ:

Автоматическая сортировка: объединяет несколько запросов ИИ перед их обработкой, сокращая время ожидания и повышая скорость вывода.
Интеграция с Kubernetes: Облачно-нативный дизайн легко сочетается с Kubernetes для управления и масштабирования приложений искусственного интеллекта
Оптимизация под конкретное оборудование: Использует все преимущества графических процессоров NVIDIA для максимальной производительности
Гибкость фреймворков: Поддерживает множество фреймворков искусственного интеллекта, включая TensorFlow, PyTorch, ONNX и TensorRT.
Открытый исходный код и возможность настройки: Можно модифицировать под конкретные нужды, обеспечивая гибкость для различных приложений ИИ

Пререквизиты

Прежде чем приступить к работе, убедитесь, что у вас есть следующие необходимые условия:

Docker установлен на вашей машине
Установите tritonclient:
```
pip install tritonclient[all]
```

Экспорт YOLO11 в формат ONNX

Перед развертыванием модели на Triton ее необходимо экспортировать в формат ONNX . ONNX (Open Neural Network Exchange) - это формат, который позволяет передавать модели между различными фреймворками глубокого обучения. Используйте export функция из YOLO класс:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model

# Retrieve metadata during export. Metadata needs to be added to config.pbtxt. See next section.
metadata = []


def export_cb(exporter):
    metadata.append(exporter.metadata)


model.add_callback("on_export_end", export_cb)

# Export the model
onnx_file = model.export(format="onnx", dynamic=True)

Настройка репозитория моделей Triton

Репозиторий моделей Triton - это место хранения, где Triton может получить доступ к моделям и загрузить их.

Создайте необходимую структуру каталогов:

from pathlib import Path

# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name

# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)

Переместите экспортированную модель ONNX в хранилище Triton :

from pathlib import Path

# Move ONNX model to Triton Model path
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")

# Create config file
(triton_model_path / "config.pbtxt").touch()

data = """
# Add metadata
parameters {
  key: "metadata"
  value {
    string_value: "%s"
  }
}

# (Optional) Enable TensorRT for GPU inference
# First run will be slow due to TensorRT engine conversion
optimization {
  execution_accelerators {
    gpu_execution_accelerator {
      name: "tensorrt"
      parameters {
        key: "precision_mode"
        value: "FP16"
      }
      parameters {
        key: "max_workspace_size_bytes"
        value: "3221225472"
      }
      parameters {
        key: "trt_engine_cache_enable"
        value: "1"
      }
      parameters {
        key: "trt_engine_cache_path"
        value: "/models/yolo/1"
      }
    }
  }
}
""" % metadata[0]  # noqa

with open(triton_model_path / "config.pbtxt", "w") as f:
    f.write(data)

Запуск Triton Inference Server

Запустите сервер Triton Inference Server с помощью Docker:

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:24.09-py3"  # 8.57 GB

# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)

# Run the Triton server and capture the container ID
container_id = (
    subprocess.check_output(
        f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Затем выполните вывод с помощью модели Triton Server:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Очистите контейнер:

# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)

Оптимизация TensorRT (необязательно)

Для еще большей производительности вы можете использовать TensorRT с Triton Inference Server. TensorRT - это высокопроизводительный оптимизатор глубокого обучения, созданный специально для графических процессоров NVIDIA , который позволяет значительно увеличить скорость вычислений.

Основные преимущества использования TensorRT с Triton включают:

В 36 раз быстрее по сравнению с неоптимизированными моделями
Оптимизация под конкретное оборудование для максимального использования GPU
Поддержка форматов пониженной точности (INT8, FP16) при сохранении точности
Объединение слоев для снижения вычислительных затрат

Чтобы использовать TensorRT напрямую, вы можете экспортировать модель YOLO11 в формат TensorRT :

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT format
model.export(format="engine")  # creates 'yolo11n.engine'

Дополнительные сведения об оптимизации TensorRT см. в руководстве по интеграцииTensorRT .

Выполнив описанные выше шаги, вы сможете эффективно развернуть и запустить Ultralytics YOLO11 модели на Triton Inference Server, обеспечив масштабируемое и высокопроизводительное решение для задач глубокого обучения. Если у вас возникнут проблемы или дополнительные вопросы, обратитесь к официальной документации Triton или обратитесь за поддержкой к сообществу Ultralytics .

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Как настроить Ultralytics YOLO11 с NVIDIA Triton Inference Server?

Настройка Ultralytics YOLO11 с NVIDIA Triton Inference Server включает в себя несколько ключевых шагов:

Экспорт YOLO11 в формат ONNX :

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model

# Export the model to ONNX format
onnx_file = model.export(format="onnx", dynamic=True)

Настройте репозиторий моделей Triton :

from pathlib import Path

# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name

# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
(triton_model_path / "config.pbtxt").touch()

Запустите сервер Triton :

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:24.09-py3"

subprocess.call(f"docker pull {tag}", shell=True)

container_id = (
    subprocess.check_output(
        f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Эта настройка поможет вам эффективно развернуть модели YOLO11 в масштабе на сервере Triton Inference Server для высокопроизводительного вывода моделей ИИ.

Какие преимущества дает использование Ultralytics YOLO11 с NVIDIA Triton Inference Server?

Интеграция Ultralytics YOLO11 с NVIDIA Triton Inference Server дает несколько преимуществ:

Масштабируемый AI Inference: Triton позволяет обслуживать несколько моделей с одного экземпляра сервера, поддерживая динамическую загрузку и выгрузку моделей, что делает его высокомасштабируемым для различных рабочих нагрузок AI.
Высокая производительность: Оптимизированный для графических процессоров NVIDIA , сервер Triton Inference Server обеспечивает высокую скорость операций вывода, что идеально подходит для приложений реального времени, таких как обнаружение объектов.
Ансамбль и версионирование моделей: режим ансамбля Triton позволяет объединить несколько моделей для улучшения результатов, а версионирование моделей поддерживает A/B-тестирование и скользящие обновления.
Автоматическая сортировка: Triton автоматически группирует несколько запросов на вывод, значительно повышая пропускную способность и сокращая время ожидания.
Упрощенное развертывание: Постепенная оптимизация рабочих процессов ИИ, не требующая полной перестройки системы, что облегчает эффективное масштабирование.

Подробные инструкции по настройке и запуску YOLO11 с помощью Triton можно найти в руководстве по настройке.

Почему я должен экспортировать свою модель YOLO11 в формат ONNX перед использованием Triton Inference Server?

Использование формата ONNX (Open Neural Network Exchange) для модели Ultralytics YOLO11 перед ее развертыванием на NVIDIA Triton Inference Server дает несколько ключевых преимуществ:

Совместимость: формат ONNX поддерживает передачу данных между различными фреймворками глубокого обучения (такими как PyTorch, TensorFlow), обеспечивая более широкую совместимость.
Оптимизация: Многие среды развертывания, включая Triton, оптимизированы для ONNX, что позволяет быстрее делать выводы и повышает производительность.
Простота развертывания: ONNX широко поддерживается различными фреймворками и платформами, что упрощает процесс развертывания в различных операционных системах и аппаратных конфигурациях.
Независимость от фреймворка: После преобразования в ONNX ваша модель больше не привязана к исходному фреймворку, что делает ее более переносимой.
Стандартизация: ONNX обеспечивает стандартизированное представление, которое помогает преодолеть проблемы совместимости между различными фреймворками ИИ.

Чтобы экспортировать модель, используйте:

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
onnx_file = model.export(format="onnx", dynamic=True)

Для завершения процесса можно выполнить шаги, описанные в руководстве по интеграцииONNX .

Могу ли я выполнить вывод с помощью модели Ultralytics YOLO11 на сервере Triton Inference Server?

Да, вы можете проводить расчеты с помощью модели Ultralytics YOLO11 на сервереNVIDIA Triton Inference Server. После того, как ваша модель установлена в репозитории моделей Triton и сервер запущен, вы можете загрузить и запустить расчеты на вашей модели следующим образом:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Такой подход позволяет использовать оптимизацию Triton и при этом пользоваться привычным интерфейсом Ultralytics YOLO . Подробное руководство по настройке и запуску Triton Server с YOLO11 см. в разделе " Запуск triton inference server ".

Чем Ultralytics YOLO11 отличается от моделей TensorFlow и PyTorch в плане развертывания?

Ultralytics YOLO11 обладает рядом уникальных преимуществ по сравнению с TensorFlow и PyTorch для развертывания:

Производительность в реальном времени: Оптимизированный для задач обнаружения объектов в реальном времени, YOLO11 обеспечивает современную точность и скорость, что делает его идеальным для приложений, требующих анализа видео в реальном времени.
Простота использования: YOLO11 легко интегрируется с Triton Inference Server и поддерживает различные форматы экспорта (ONNX, TensorRT, CoreML), что делает его гибким для различных сценариев развертывания.
Расширенные возможности: YOLO11 включает такие функции, как динамическая загрузка моделей, версионирование моделей и ансамблевый вывод, что очень важно для масштабируемых и надежных развертываний ИИ.
Упрощенный API: API Ultralytics обеспечивает согласованный интерфейс для различных целей развертывания, что сокращает время обучения и разработки.
Пограничная оптимизация: Модели YOLO11 разработаны с учетом особенностей пограничного развертывания, обеспечивая превосходную производительность даже на устройствах с ограниченными ресурсами.

Для получения более подробной информации сравните варианты развертывания в руководстве по экспорту моделей.

📅 Создано 1 год назад ✏️ Обновлено 1 день назад