Перейти к содержанию

Triton Сервер выводов с Ultralytics YOLO11

СерверTriton Inference Server (ранее известный как TensorRT Inference Server) - это программное решение с открытым исходным кодом, разработанное компанией NVIDIA. Он представляет собой облачное решение для вычислений, оптимизированное для NVIDIA GPU. Triton упрощает развертывание моделей ИИ в масштабе производства. Интеграция Ultralytics YOLO11 с Triton Inference Server позволяет развернуть масштабируемые, высокопроизводительные рабочие нагрузки по анализу глубокого обучения. В этом руководстве описаны шаги по настройке и тестированию интеграции.



Смотреть: Начало работы с NVIDIA Triton Inference Server.

Что такое Triton Inference Server?

Triton Inference Server предназначен для развертывания различных моделей искусственного интеллекта в производстве. Он поддерживает широкий спектр фреймворков глубокого обучения и машинного обучения, включая TensorFlow, PyTorch, ONNX Runtime и многие другие. Его основными областями применения являются:

  • Обслуживание нескольких моделей с одного экземпляра сервера
  • Динамическая загрузка и выгрузка моделей без перезагрузки сервера
  • Выводы по ансамблю, позволяющие использовать несколько моделей для получения результатов
  • Версионирование моделей для A/B-тестирования и скользящих обновлений

Ключевые преимущества Triton Inference Server

Использование Triton Inference Server с Ultralytics YOLO11 дает несколько преимуществ:

  • Автоматическая сортировка: объединяет несколько запросов ИИ перед их обработкой, сокращая время ожидания и повышая скорость вывода.
  • Интеграция с Kubernetes: Облачно-нативный дизайн легко сочетается с Kubernetes для управления и масштабирования приложений искусственного интеллекта
  • Оптимизация под конкретное оборудование: Использует все преимущества графических процессоров NVIDIA для максимальной производительности
  • Гибкость фреймворков: Поддерживает множество фреймворков искусственного интеллекта, включая TensorFlow, PyTorch, ONNX и TensorRT.
  • Открытый исходный код и возможность настройки: Можно модифицировать под конкретные нужды, обеспечивая гибкость для различных приложений ИИ

Пререквизиты

Прежде чем приступить к работе, убедитесь, что у вас есть следующие необходимые условия:

  • Docker установлен на вашей машине
  • Установите tritonclient:
    pip install tritonclient[all]
    

Экспорт YOLO11 в формат ONNX

Перед развертыванием модели на Triton ее необходимо экспортировать в формат ONNX . ONNX (Open Neural Network Exchange) - это формат, который позволяет передавать модели между различными фреймворками глубокого обучения. Используйте export функция из YOLO класс:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model

# Retrieve metadata during export. Metadata needs to be added to config.pbtxt. See next section.
metadata = []


def export_cb(exporter):
    metadata.append(exporter.metadata)


model.add_callback("on_export_end", export_cb)

# Export the model
onnx_file = model.export(format="onnx", dynamic=True)

Настройка репозитория моделей Triton

Репозиторий моделей Triton - это место хранения, где Triton может получить доступ к моделям и загрузить их.

  1. Создайте необходимую структуру каталогов:

    from pathlib import Path
    
    # Define paths
    model_name = "yolo"
    triton_repo_path = Path("tmp") / "triton_repo"
    triton_model_path = triton_repo_path / model_name
    
    # Create directories
    (triton_model_path / "1").mkdir(parents=True, exist_ok=True)
    
  2. Переместите экспортированную модель ONNX в хранилище Triton :

    from pathlib import Path
    
    # Move ONNX model to Triton Model path
    Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
    
    # Create config file
    (triton_model_path / "config.pbtxt").touch()
    
    data = """
    # Add metadata
    parameters {
      key: "metadata"
      value {
        string_value: "%s"
      }
    }
    
    # (Optional) Enable TensorRT for GPU inference
    # First run will be slow due to TensorRT engine conversion
    optimization {
      execution_accelerators {
        gpu_execution_accelerator {
          name: "tensorrt"
          parameters {
            key: "precision_mode"
            value: "FP16"
          }
          parameters {
            key: "max_workspace_size_bytes"
            value: "3221225472"
          }
          parameters {
            key: "trt_engine_cache_enable"
            value: "1"
          }
          parameters {
            key: "trt_engine_cache_path"
            value: "/models/yolo/1"
          }
        }
      }
    }
    """ % metadata[0]  # noqa
    
    with open(triton_model_path / "config.pbtxt", "w") as f:
        f.write(data)
    

Запуск Triton Inference Server

Запустите сервер Triton Inference Server с помощью Docker:

import contextlib
import subprocess
import time

from tritonclient.http import InferenceServerClient

# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:24.09-py3"  # 8.57 GB

# Pull the image
subprocess.call(f"docker pull {tag}", shell=True)

# Run the Triton server and capture the container ID
container_id = (
    subprocess.check_output(
        f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
        shell=True,
    )
    .decode("utf-8")
    .strip()
)

# Wait for the Triton server to start
triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)

# Wait until model is ready
for _ in range(10):
    with contextlib.suppress(Exception):
        assert triton_client.is_model_ready(model_name)
        break
    time.sleep(1)

Затем выполните вывод с помощью модели Triton Server:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Очистите контейнер:

# Kill and remove the container at the end of the test
subprocess.call(f"docker kill {container_id}", shell=True)

Оптимизация TensorRT (необязательно)

Для еще большей производительности вы можете использовать TensorRT с Triton Inference Server. TensorRT - это высокопроизводительный оптимизатор глубокого обучения, созданный специально для графических процессоров NVIDIA , который позволяет значительно увеличить скорость вычислений.

Основные преимущества использования TensorRT с Triton включают:

  • В 36 раз быстрее по сравнению с неоптимизированными моделями
  • Оптимизация под конкретное оборудование для максимального использования GPU
  • Поддержка форматов пониженной точности (INT8, FP16) при сохранении точности
  • Объединение слоев для снижения вычислительных затрат

Чтобы использовать TensorRT напрямую, вы можете экспортировать модель YOLO11 в формат TensorRT :

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT format
model.export(format="engine")  # creates 'yolo11n.engine'

Дополнительные сведения об оптимизации TensorRT см. в руководстве по интеграцииTensorRT .


Выполнив описанные выше шаги, вы сможете эффективно развернуть и запустить Ultralytics YOLO11 модели на Triton Inference Server, обеспечив масштабируемое и высокопроизводительное решение для задач глубокого обучения. Если у вас возникнут проблемы или дополнительные вопросы, обратитесь к официальной документации Triton или обратитесь за поддержкой к сообществу Ultralytics .

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Как настроить Ultralytics YOLO11 с NVIDIA Triton Inference Server?

Настройка Ultralytics YOLO11 с NVIDIA Triton Inference Server включает в себя несколько ключевых шагов:

  1. Экспорт YOLO11 в формат ONNX :

    from ultralytics import YOLO
    
    # Load a model
    model = YOLO("yolo11n.pt")  # load an official model
    
    # Export the model to ONNX format
    onnx_file = model.export(format="onnx", dynamic=True)
    
  2. Настройте репозиторий моделей Triton :

    from pathlib import Path
    
    # Define paths
    model_name = "yolo"
    triton_repo_path = Path("tmp") / "triton_repo"
    triton_model_path = triton_repo_path / model_name
    
    # Create directories
    (triton_model_path / "1").mkdir(parents=True, exist_ok=True)
    Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
    (triton_model_path / "config.pbtxt").touch()
    
  3. Запустите сервер Triton :

    import contextlib
    import subprocess
    import time
    
    from tritonclient.http import InferenceServerClient
    
    # Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
    tag = "nvcr.io/nvidia/tritonserver:24.09-py3"
    
    subprocess.call(f"docker pull {tag}", shell=True)
    
    container_id = (
        subprocess.check_output(
            f"docker run -d --rm --gpus 0 -v {triton_repo_path}:/models -p 8000:8000 {tag} tritonserver --model-repository=/models",
            shell=True,
        )
        .decode("utf-8")
        .strip()
    )
    
    triton_client = InferenceServerClient(url="localhost:8000", verbose=False, ssl=False)
    
    for _ in range(10):
        with contextlib.suppress(Exception):
            assert triton_client.is_model_ready(model_name)
            break
        time.sleep(1)
    

Эта настройка поможет вам эффективно развернуть модели YOLO11 в масштабе на сервере Triton Inference Server для высокопроизводительного вывода моделей ИИ.

Какие преимущества дает использование Ultralytics YOLO11 с NVIDIA Triton Inference Server?

Интеграция Ultralytics YOLO11 с NVIDIA Triton Inference Server дает несколько преимуществ:

  • Масштабируемый AI Inference: Triton позволяет обслуживать несколько моделей с одного экземпляра сервера, поддерживая динамическую загрузку и выгрузку моделей, что делает его высокомасштабируемым для различных рабочих нагрузок AI.
  • Высокая производительность: Оптимизированный для графических процессоров NVIDIA , сервер Triton Inference Server обеспечивает высокую скорость операций вывода, что идеально подходит для приложений реального времени, таких как обнаружение объектов.
  • Ансамбль и версионирование моделей: режим ансамбля Triton позволяет объединить несколько моделей для улучшения результатов, а версионирование моделей поддерживает A/B-тестирование и скользящие обновления.
  • Автоматическая сортировка: Triton автоматически группирует несколько запросов на вывод, значительно повышая пропускную способность и сокращая время ожидания.
  • Упрощенное развертывание: Постепенная оптимизация рабочих процессов ИИ, не требующая полной перестройки системы, что облегчает эффективное масштабирование.

Подробные инструкции по настройке и запуску YOLO11 с помощью Triton можно найти в руководстве по настройке.

Почему я должен экспортировать свою модель YOLO11 в формат ONNX перед использованием Triton Inference Server?

Использование формата ONNX (Open Neural Network Exchange) для модели Ultralytics YOLO11 перед ее развертыванием на NVIDIA Triton Inference Server дает несколько ключевых преимуществ:

  • Совместимость: формат ONNX поддерживает передачу данных между различными фреймворками глубокого обучения (такими как PyTorch, TensorFlow), обеспечивая более широкую совместимость.
  • Оптимизация: Многие среды развертывания, включая Triton, оптимизированы для ONNX, что позволяет быстрее делать выводы и повышает производительность.
  • Простота развертывания: ONNX широко поддерживается различными фреймворками и платформами, что упрощает процесс развертывания в различных операционных системах и аппаратных конфигурациях.
  • Независимость от фреймворка: После преобразования в ONNX ваша модель больше не привязана к исходному фреймворку, что делает ее более переносимой.
  • Стандартизация: ONNX обеспечивает стандартизированное представление, которое помогает преодолеть проблемы совместимости между различными фреймворками ИИ.

Чтобы экспортировать модель, используйте:

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
onnx_file = model.export(format="onnx", dynamic=True)

Для завершения процесса можно выполнить шаги, описанные в руководстве по интеграцииONNX .

Могу ли я выполнить вывод с помощью модели Ultralytics YOLO11 на сервере Triton Inference Server?

Да, вы можете проводить расчеты с помощью модели Ultralytics YOLO11 на сервереNVIDIA Triton Inference Server. После того, как ваша модель установлена в репозитории моделей Triton и сервер запущен, вы можете загрузить и запустить расчеты на вашей модели следующим образом:

from ultralytics import YOLO

# Load the Triton Server model
model = YOLO("http://localhost:8000/yolo", task="detect")

# Run inference on the server
results = model("path/to/image.jpg")

Такой подход позволяет использовать оптимизацию Triton и при этом пользоваться привычным интерфейсом Ultralytics YOLO . Подробное руководство по настройке и запуску Triton Server с YOLO11 см. в разделе " Запуск triton inference server ".

Чем Ultralytics YOLO11 отличается от моделей TensorFlow и PyTorch в плане развертывания?

Ultralytics YOLO11 обладает рядом уникальных преимуществ по сравнению с TensorFlow и PyTorch для развертывания:

  • Производительность в реальном времени: Оптимизированный для задач обнаружения объектов в реальном времени, YOLO11 обеспечивает современную точность и скорость, что делает его идеальным для приложений, требующих анализа видео в реальном времени.
  • Простота использования: YOLO11 легко интегрируется с Triton Inference Server и поддерживает различные форматы экспорта (ONNX, TensorRT, CoreML), что делает его гибким для различных сценариев развертывания.
  • Расширенные возможности: YOLO11 включает такие функции, как динамическая загрузка моделей, версионирование моделей и ансамблевый вывод, что очень важно для масштабируемых и надежных развертываний ИИ.
  • Упрощенный API: API Ultralytics обеспечивает согласованный интерфейс для различных целей развертывания, что сокращает время обучения и разработки.
  • Пограничная оптимизация: Модели YOLO11 разработаны с учетом особенностей пограничного развертывания, обеспечивая превосходную производительность даже на устройствах с ограниченными ресурсами.

Для получения более подробной информации сравните варианты развертывания в руководстве по экспорту моделей.

📅 Создано 1 год назад ✏️ Обновлено 1 день назад

Комментарии