Link to this sectionTriton Inference Server와 Ultralytics YOLO26#
Triton Inference Server(이전 명칭 TensorRT Inference Server)는 NVIDIA에서 개발한 오픈 소스 소프트웨어 솔루션입니다. 이 서버는 NVIDIA GPU에 최적화된 클라우드 추론 솔루션을 제공합니다. Triton은 프로덕션 환경에서 AI 모델을 대규모로 배포하는 과정을 간소화합니다. Ultralytics YOLO26을 Triton Inference Server와 통합하면 확장 가능하고 성능이 뛰어난 딥러닝 추론 워크로드를 배포할 수 있습니다. 이 가이드에서는 해당 통합을 설정하고 테스트하는 단계를 안내합니다.
Watch: Getting Started with NVIDIA Triton Inference Server.
Link to this sectionTriton Inference Server란 무엇입니까?#
Triton Inference Server is designed to deploy a variety of AI models in production. It supports a wide range of deep learning and machine learning frameworks, including PyTorch, TensorFlow, ONNX, OpenVINO, TensorRT and many others. Its primary use cases are:
- 단일 서버 인스턴스에서 여러 모델 제공
- 서버 재시작 없이 동적 모델 로딩 및 언로딩
- 앙상블 추론: 여러 모델을 함께 사용하여 결과 도출
- A/B 테스트 및 롤링 업데이트를 위한 모델 버전 관리
Link to this sectionTriton Inference Server의 주요 이점#
Ultralytics YOLO26과 Triton Inference Server를 함께 사용하면 다음과 같은 여러 이점이 있습니다:
- 자동 배치 처리(Automatic batching): 처리 전 여러 AI 요청을 그룹화하여 지연 시간을 줄이고 추론 속도를 향상합니다.
- Kubernetes 통합: 클라우드 네이티브 설계로 AI 애플리케이션 관리 및 확장을 위해 Kubernetes와 원활하게 작동합니다.
- 하드웨어별 최적화: NVIDIA GPU의 성능을 최대한 활용합니다.
- 프레임워크 유연성: PyTorch, TensorFlow, ONNX, OpenVINO, TensorRT를 포함한 다수의 AI 프레임워크를 지원합니다.
- 오픈 소스 및 커스터마이징 가능: 특정 요구 사항에 맞게 수정할 수 있어 다양한 AI 애플리케이션에 유연성을 제공합니다.
Link to this section사전 요구 사항#
진행하기 전에 다음 필수 구성 요소가 준비되었는지 확인하십시오:
- 시스템에 설치된 Docker 또는 Podman
ultralytics설치:pip install ultralyticstritonclient설치:pip install tritonclient[all]
Link to this sectionTriton Inference Server 설정#
이 전체 설정 블록을 실행하여 Ultralytics YOLO26을 ONNX로 내보내고, Triton 모델 리포지토리를 빌드한 다음 Triton Inference Server를 시작하십시오:
스크립트에서 runtime 스위치를 사용하여 컨테이너 엔진을 선택하십시오:
- Docker의 경우
runtime = "docker"로 설정 - Podman의 경우
runtime = "podman"으로 설정
import contextlib
import subprocess
import time
from pathlib import Path
from tritonclient.http import InferenceServerClient
from ultralytics import YOLO
runtime = "docker" # set to "podman" to use Podman
# 1) Exporting YOLO26 to ONNX Format
# Load a model
model = YOLO("yolo26n.pt") # load an official model
# Retrieve metadata during export. Metadata needs to be added to config.pbtxt. See next section.
metadata = []
def export_cb(exporter):
metadata.append(exporter.metadata)
model.add_callback("on_export_end", export_cb)
# Export the model
onnx_file = model.export(format="onnx", dynamic=True)
# 2) Setting Up Triton Model Repository
# Define paths
model_name = "yolo"
triton_repo_path = Path("tmp") / "triton_repo"
triton_model_path = triton_repo_path / model_name
# Create directories
(triton_model_path / "1").mkdir(parents=True, exist_ok=True)
# Move ONNX model to Triton Model path
Path(onnx_file).rename(triton_model_path / "1" / "model.onnx")
# Create config file
(triton_model_path / "config.pbtxt").touch()
data = """
# Add metadata
parameters {
key: "metadata"
value {
string_value: "%s"
}
}
# Enable TensorRT acceleration (requires a GPU and TensorRT-enabled Triton; remove this block for CPU-only serving)
# The first run will be slow due to TensorRT engine conversion
optimization {
execution_accelerators {
gpu_execution_accelerator {
name: "tensorrt"
parameters {
key: "precision_mode"
value: "FP16"
}
parameters {
key: "max_workspace_size_bytes"
value: "3221225472"
}
parameters {
key: "trt_engine_cache_enable"
value: "1"
}
parameters {
key: "trt_engine_cache_path"
value: "/models/yolo/1"
}
}
}
}
""" % metadata[0] # noqa
with open(triton_model_path / "config.pbtxt", "w") as f:
f.write(data)
# 3) Running Triton Inference Server
# Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver
tag = "nvcr.io/nvidia/tritonserver:26.02-py3" # 16.17 GB (Compressed Size)
subprocess.call(f"{runtime} pull {tag}", shell=True)
# GPU flags differ between Docker and Podman
gpu_flags = "--device nvidia.com/gpu=all" if runtime == "podman" else "--runtime=nvidia --gpus all"
container_name = "triton_server"
# Note: The :z flag on the volume mount is necessary for systems with SELinux (like Fedora/RHEL)
subprocess.call(
f"{runtime} run -d --rm --name {container_name} {gpu_flags} -v {triton_repo_path.absolute()}:/models:z -p 8000:8000 {tag} tritonserver --model-repository=/models",
shell=True,
)
# Wait for the Triton server to start
triton_client = InferenceServerClient(url="127.0.0.1:8000", verbose=False, ssl=False)
# Wait until model is ready
for _ in range(10):
with contextlib.suppress(Exception):
assert triton_client.is_model_ready(model_name)
break
time.sleep(1)Link to this section추론 실행#
Triton Server 모델을 사용하여 추론을 실행하십시오:
from ultralytics import YOLO
# Load the Triton Server model
model = YOLO("http://127.0.0.1:8000/yolo", task="detect")
# Run inference on the server
results = model("path/to/image.jpg")컨테이너 정리:
import subprocess
runtime = "docker" # set to "podman" to use Podman
container_name = "triton_server" # Kill the named container
subprocess.call(f"{runtime} kill {container_name}", shell=True)Link to this sectionTensorRT 최적화 (선택 사항)#
더 높은 성능을 위해 Triton Inference Server와 함께 TensorRT를 사용할 수 있습니다. TensorRT는 NVIDIA GPU 전용으로 설계된 고성능 딥러닝 최적화 도구로, 추론 속도를 크게 향상할 수 있습니다.
Triton과 TensorRT 사용의 주요 이점은 다음과 같습니다:
- 최적화되지 않은 모델 대비 최대 36배 빠른 추론
- 최대 GPU 활용을 위한 하드웨어별 최적화
- 정확도를 유지하면서 줄어든 정밀도 형식(INT8, FP16) 지원
- 계산 오버헤드를 줄이기 위한 레이어 융합(Layer fusion)
TensorRT를 직접 사용하려면 Ultralytics YOLO26 모델을 TensorRT 형식으로 내보낼 수 있습니다:
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format
model.export(format="engine") # creates 'yolo26n.engine'TensorRT 최적화에 대한 자세한 내용은 TensorRT 통합 가이드를 참조하십시오.
이제 확장 가능하고 고성능인 추론을 위해 Triton Inference Server에서 Ultralytics YOLO26 모델을 배포하고 실행할 수 있습니다. 자세한 내용은 공식 Triton 문서를 참조하거나 Ultralytics 커뮤니티에 문의하십시오.
Link to this sectionFAQ#
Link to this sectionUltralytics YOLO26을 NVIDIA Triton Inference Server와 어떻게 설정합니까?#
Ultralytics YOLO26을 NVIDIA Triton Inference Server와 설정하려면 몇 가지 주요 단계가 필요합니다:
-
YOLO26을 ONNX 형식으로 내보내기:
from ultralytics import YOLO # Load a model model = YOLO("yolo26n.pt") # load an official model # Export the model to ONNX format onnx_file = model.export(format="onnx", dynamic=True) -
Triton 모델 리포지토리 설정:
from pathlib import Path # Define paths model_name = "yolo" triton_repo_path = Path("tmp") / "triton_repo" triton_model_path = triton_repo_path / model_name # Create directories (triton_model_path / "1").mkdir(parents=True, exist_ok=True) Path(onnx_file).rename(triton_model_path / "1" / "model.onnx") (triton_model_path / "config.pbtxt").touch() -
Triton Server 실행:
import contextlib import subprocess import time from tritonclient.http import InferenceServerClient # Define image https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver tag = "nvcr.io/nvidia/tritonserver:26.02-py3" runtime = "docker" # set to "podman" to use Podman subprocess.call(f"{runtime} pull {tag}", shell=True) # GPU flags differ between Docker and Podman gpu_flags = "--device nvidia.com/gpu=all" if runtime == "podman" else "--runtime=nvidia --gpus all" container_name = "triton_server" subprocess.call( f"{runtime} run -d --rm --name {container_name} {gpu_flags} -v {triton_repo_path.absolute()}:/models:z -p 8000:8000 {tag} tritonserver --model-repository=/models", shell=True, ) triton_client = InferenceServerClient(url="127.0.0.1:8000", verbose=False, ssl=False) for _ in range(10): with contextlib.suppress(Exception): assert triton_client.is_model_ready(model_name) break time.sleep(1)
이 설정을 통해 Ultralytics YOLO26 모델을 고성능 AI 모델 추론을 위해 Triton Inference Server에서 대규모로 효율적으로 배포할 수 있습니다.
Link to this sectionUltralytics YOLO26을 NVIDIA Triton Inference Server와 함께 사용하면 어떤 이점이 있습니까?#
Ultralytics YOLO26을 NVIDIA Triton Inference Server와 통합하면 다음과 같은 몇 가지 이점이 있습니다:
- 확장 가능한 AI 추론: Triton은 단일 서버 인스턴스에서 여러 모델을 제공할 수 있게 하며, 동적 모델 로딩 및 언로딩을 지원하여 다양한 AI 워크로드에 대해 매우 확장성이 뛰어납니다.
- 고성능: NVIDIA GPU에 최적화된 Triton Inference Server는 고속 추론 작업을 보장하며, 객체 탐지와 같은 실시간 애플리케이션에 적합합니다.
- 앙상블 및 모델 버전 관리: Triton의 앙상블 모드는 결과를 향상하기 위해 여러 모델을 결합할 수 있게 하며, 모델 버전 관리는 A/B 테스트 및 롤링 업데이트를 지원합니다.
- 자동 배치 처리: Triton은 여러 추론 요청을 자동으로 그룹화하여 처리량을 크게 높이고 지연 시간을 줄입니다.
- 간소화된 배포: 전체 시스템을 수정할 필요 없이 AI 워크로드를 점진적으로 최적화할 수 있어 효율적인 확장이 더 쉽습니다.
Triton에서 Ultralytics YOLO26을 설정하고 실행하는 방법에 대한 자세한 지침은 Triton Inference Server 설정 및 추론 실행을 참조하십시오.
Link to this sectionTriton Inference Server를 사용하기 전에 YOLO26 모델을 ONNX 형식으로 내보내야 하는 이유는 무엇입니까?#
Using ONNX (Open Neural Network Exchange) format for your Ultralytics YOLO26 model before deploying it on NVIDIA Triton Inference Server offers several key benefits:
- 상호 운용성: ONNX 형식은 다양한 딥러닝 프레임워크(PyTorch, TensorFlow 등) 간의 전송을 지원하여 더 넓은 호환성을 보장합니다.
- 최적화: Triton을 포함한 많은 배포 환경은 ONNX에 최적화되어 있어 더 빠른 추론과 더 나은 성능을 구현할 수 있습니다.
- 배포의 용이성: ONNX는 프레임워크와 플랫폼 전반에서 널리 지원되므로 다양한 운영 체제 및 하드웨어 구성에서 배포 과정을 간소화합니다.
- 프레임워크 독립성: ONNX로 변환되면 모델이 원래의 프레임워크에 종속되지 않아 이식성이 높아집니다.
- 표준화: ONNX는 서로 다른 AI 프레임워크 간의 호환성 문제를 극복하는 데 도움이 되는 표준화된 표현을 제공합니다.
모델을 내보내려면 다음을 사용하십시오:
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
onnx_file = model.export(format="onnx", dynamic=True)ONNX 통합 가이드의 단계에 따라 프로세스를 완료할 수 있습니다.
Link to this sectionTriton Inference Server에서 Ultralytics YOLO26 모델을 사용하여 추론을 실행할 수 있습니까?#
Yes, you can run inference using the Ultralytics YOLO26 model on NVIDIA Triton Inference Server. Once your model is set up in the Triton Model Repository and the server is running, you can load and run inference on your model as follows:
from ultralytics import YOLO
# Load the Triton Server model
model = YOLO("http://127.0.0.1:8000/yolo", task="detect")
# Run inference on the server
results = model("path/to/image.jpg")이 접근 방식을 사용하면 친숙한 Ultralytics YOLO 인터페이스를 사용하면서 Triton의 최적화 기능을 활용할 수 있습니다.
Link to this section배포 측면에서 Ultralytics YOLO26은 TensorFlow 및 PyTorch 모델과 어떻게 비교됩니까?#
Ultralytics YOLO26은 배포 시 TensorFlow 및 PyTorch 모델과 비교하여 다음과 같은 고유한 이점을 제공합니다:
- 실시간 성능: 실시간 객체 탐지 작업에 최적화된 Ultralytics YOLO26은 업계 최고 수준의 정확도와 속도를 제공하여 실시간 영상 분석이 필요한 애플리케이션에 이상적입니다.
- 사용 편의성: Ultralytics YOLO26은 Triton Inference Server와 원활하게 통합되며 다양한 내보내기 형식(ONNX, TensorRT)을 지원하여 여러 배포 시나리오에 유연하게 대응합니다.
- 고급 기능: Ultralytics YOLO26에는 동적 모델 로딩, 모델 버전 관리, 앙상블 추론과 같이 확장 가능하고 신뢰할 수 있는 AI 배포에 필수적인 기능이 포함되어 있습니다.
- 간소화된 API: Ultralytics API는 다양한 배포 대상 전반에서 일관된 인터페이스를 제공하여 학습 곡선을 줄이고 개발 시간을 단축합니다.
- 에지 최적화: Ultralytics YOLO26 모델은 에지 배포를 고려하여 설계되었으며 리소스가 제한된 장치에서도 뛰어난 성능을 제공합니다.
자세한 내용은 모델 내보내기 가이드에서 배포 옵션을 비교해 보십시오.