Triton Сервер выводов с Ultralytics YOLOv8
Triton Inference Server (ранее известный как TensorRT Inference Server) - это программное решение с открытым исходным кодом, разработанное компанией NVIDIA. Оно представляет собой облачное решение для вычислений, оптимизированное для NVIDIA GPU. Triton упрощает развертывание моделей ИИ в масштабе производства. Интеграция Ultralytics YOLOv8 с Triton Inference Server позволяет тебе развернуть масштабируемые, высокопроизводительные рабочие нагрузки глубокого обучения. В этом руководстве описаны шаги по настройке и тестированию интеграции.
Смотри: Начало работы с NVIDIA Triton Inference Server.
Что такое Triton Inference Server?
Triton Inference Server предназначен для развертывания различных моделей ИИ в продакшене. Он поддерживает широкий спектр фреймворков глубокого обучения и машинного обучения, включая TensorFlow, PyTorch, ONNX Runtime и многие другие. Его основные сценарии использования таковы:
- Обслуживание нескольких моделей с одного экземпляра сервера.
- Динамическая загрузка и выгрузка моделей без перезапуска сервера.
- Ансамблевый вывод, позволяющий использовать несколько моделей вместе для достижения результатов.
- Версионирование модели для A/B-тестирования и скользящих обновлений.
Пререквизиты
Прежде чем приступить к работе, убедись, что у тебя есть следующие необходимые условия:
- На твоей машине установлен Docker.
- Установи
tritonclient
:
Экспорт YOLOv8 в формат ONNX
Прежде чем развернуть модель на Triton, ее нужно экспортировать в формат ONNX. ONNX (Open Neural Network Exchange) - это формат, который позволяет передавать модели между различными фреймворками глубокого обучения. Используй export
функция из YOLO
класс:
from ultralytics import YOLO
# Load a model
model = YOLO("yolov8n.pt") # load an official model
# Export the model
onnx_file = model.export(format="onnx", dynamic=True)
Настройка репозитория моделей Triton
Репозиторий моделей Triton - это место хранения, где Triton может получить доступ к моделям и загрузить их.
-
Создай необходимую структуру каталогов:
-
Перемести экспортированную модель ONNX в хранилище Triton:
Запуск Triton Inference Server
Запусти сервер Triton Inference Server с помощью Docker:
import contextlib
import subprocess
import time
from tritonclient.http import InferenceServerClient
# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:23.09-py3" # 6.4 GB
# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)
# Run the Triton server and capture the container ID
container_id = (
subprocess.check_output(
f"docker run -d --rm -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
shell=True,
)
.decode("utf-8")
.strip()
)
# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)
# Wait until model is ready
for _ in range(10):
with contextlib.suppress(Exception):
assert triton_client.is_model_ready(model_name)
break
time.sleep(1)
Затем запусти вывод с помощью модели Triton Server:
from ultralytics import YOLO
# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")
# Run inference on the server
results = model("path/to/image.jpg")
Очисти контейнер от мусора:
# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)
Выполнив описанные выше шаги, ты сможешь эффективно развернуть и запустить Ultralytics YOLOv8 модели на Triton Inference Server, обеспечив масштабируемое и высокопроизводительное решение для задач глубокого обучения. Если у тебя возникнут какие-либо проблемы или дополнительные вопросы, обратись к официальной документации Triton или обратись за поддержкой к сообществу Ultralytics .
ВОПРОСЫ И ОТВЕТЫ
Как настроить Ultralytics YOLOv8 с NVIDIA Triton Inference Server?
Настройка Ultralytics YOLOv8 с NVIDIA Triton Inference Server включает в себя несколько ключевых шагов:
-
Экспортируй YOLOv8 в формат ONNX :
-
Установи репозиторий моделей Triton :
from pathlib import Path # Define paths model_name = "yolo" triton_repo_path = Path("tmp") / "triton_repo" triton_model_path = triton_repo_path / model_name # Create directories (triton_model_path / "1").mkdir(parents=True, exist_ok=True) Path(onnx_file).rename(triton_model_path / "1" / "model.onnx") (triton_model_path / "config.pbtxt").touch()
-
Запусти сервер Triton :
import contextlib import subprocess import time from tritonclient.http import InferenceServerClient # Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver tag = "nvcr.io/nvidia/tritonserver:23.09-py3" subprocess.call(f"docker pull {tag}", shell=True) container_id = ( subprocess.check_output( f"docker run -d --rm -v {triton_repo_path}/models -p 8000:8000 {tag} tritonserver --model-repository=/models", shell=True, ) .decode("utf-8") .strip() ) triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False) for _ in range(10): with contextlib.suppress(Exception): assert triton_client.is_model_ready(model_name) break time.sleep(1)
Эта настройка поможет тебе эффективно развернуть модели YOLOv8 в масштабе на сервере Triton Inference Server для высокопроизводительного вывода моделей ИИ.
Какие преимущества дает использование Ultralytics YOLOv8 с NVIDIA Triton Inference Server?
Интеграция Ultralytics YOLOv8 с NVIDIA Triton Inference Server дает несколько преимуществ:
- Масштабируемый AI Inference: Triton позволяет обслуживать несколько моделей с одного экземпляра сервера, поддерживая динамическую загрузку и выгрузку моделей, что делает его высокомасштабируемым для различных рабочих нагрузок AI.
- Высокая производительность: Оптимизированный для графических процессоров NVIDIA , сервер Triton Inference Server обеспечивает высокую скорость операций вывода, идеально подходящую для приложений реального времени, таких как обнаружение объектов.
- Ансамбль и версификация моделей: режим ансамбля Triton позволяет объединить несколько моделей для улучшения результатов, а версификация моделей поддерживает A/B-тестирование и скользящие обновления.
Подробные инструкции по настройке и запуску YOLOv8 с помощью Triton ты можешь найти в руководстве по настройке.
Почему я должен экспортировать свою модель YOLOv8 в формат ONNX , прежде чем использовать Triton Inference Server?
Использование формата ONNX (Open Neural Network Exchange) для твоей Ultralytics YOLOv8 перед развертыванием модели на NVIDIA Triton Inference Server дает несколько ключевых преимуществ:
- Совместимость: формат ONNX поддерживает передачу между различными фреймворками глубокого обучения (например, PyTorch, TensorFlow), обеспечивая более широкую совместимость.
- Оптимизация: Многие среды развертывания, включая Triton, оптимизированы для ONNX, что позволяет быстрее делать выводы и повышает производительность.
- Простота развертывания: ONNX широко поддерживается различными фреймворками и платформами, что упрощает процесс развертывания в различных операционных системах и аппаратных конфигурациях.
Чтобы экспортировать свою модель, используй:
from ultralytics import YOLO
model = YOLO("yolov8n.pt")
onnx_file = model.export(format="onnx", dynamic=True)
Чтобы завершить процесс, ты можешь следовать шагам из руководства по экспорту.
Могу ли я запустить вывод с помощью модели Ultralytics YOLOv8 на Triton Inference Server?
Да, ты можешь запускать исследования, используя Ultralytics YOLOv8 модель на NVIDIA Triton Inference Server. После того как твоя модель установлена в Triton Model Repository и сервер запущен, ты можешь загружать и запускать анализ на своей модели следующим образом:
from ultralytics import YOLO
# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")
# Run inference on the server
results = model("path/to/image.jpg")
Подробное руководство по настройке и запуску Triton Server с YOLOv8 ты найдешь в разделе " Запуск triton inference server ".
Как Ultralytics YOLOv8 сравнивается с TensorFlow и PyTorch моделями для развертывания?
Ultralytics YOLOv8 предлагает несколько уникальных преимуществ по сравнению с моделями развертывания TensorFlow и PyTorch :
- Производительность в реальном времени: Оптимизированный для задач обнаружения объектов в реальном времени, YOLOv8 обеспечивает современную точность и скорость, что делает его идеальным для приложений, требующих аналитики видео в реальном времени.
- Простота использования: YOLOv8 легко интегрируется с Triton Inference Server и поддерживает различные форматы экспорта (ONNX, TensorRT, CoreML), что делает его гибким для различных сценариев развертывания.
- Расширенные возможности: YOLOv8 включает в себя такие функции, как динамическая загрузка моделей, версионирование моделей и ансамблевый вывод, которые крайне важны для масштабируемых и надежных развертываний ИИ.
Для получения более подробной информации сравни варианты развертывания в руководстве по развертыванию модели.