퀵 스타트 가이드: NVIDIA Jetson과 Ultralytics YOLO26 사용하기

이 종합 가이드는 NVIDIA Jetson 장치에 Ultralytics YOLO26을 배포하기 위한 상세 절차를 제공합니다. 또한, 이러한 작고 강력한 장치에서 YOLO26의 성능을 입증하는 벤치마크 결과를 보여줍니다.

신규 제품 지원

본 가이드는 최신 NVIDIA Jetson AGX Thor Developer Kit에 맞춰 업데이트되었습니다. 이 키트는 최대 2070 FP4 TFLOPS의 AI 연산 성능과 128GB 메모리를 제공하며, 전력은 40W에서 130W 사이로 구성 가능합니다. 이는 NVIDIA Jetson AGX Orin보다 7.5배 높은 AI 연산 성능과 3.5배 향상된 에너지 효율을 제공하여 가장 대중적인 AI 모델을 원활하게 실행할 수 있도록 합니다.



Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices
NVIDIA Jetson Ecosystem
참고

This guide has been tested with NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) running the latest stable JetPack release of JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) running JetPack release of JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit running JetPack release of JP6.1, Seeed Studio reComputer J4012 which is based on NVIDIA Jetson Orin NX 16GB running JetPack release of JP6.0/ JetPack release of JP5.1.3 and Seeed Studio reComputer J1020 v2 which is based on NVIDIA Jetson Nano 4GB running JetPack release of JP4.6.1. It is expected to work across all the NVIDIA Jetson hardware lineup, including the latest and legacy devices.

NVIDIA Jetson이란 무엇입니까?

NVIDIA Jetson is a series of embedded computing boards designed to bring accelerated AI (artificial intelligence) computing to edge devices. These compact and powerful devices are built around NVIDIA's GPU architecture and can run complex AI algorithms and deep learning models directly on the device, without relying on cloud computing resources. Jetson boards are often used in robotics, autonomous vehicles, industrial automation, and other applications where AI inference needs to be performed locally with low latency and high efficiency. Additionally, these boards are based on the ARM64 architecture and run at lower power compared to traditional GPU computing devices.

NVIDIA Jetson 시리즈 비교

NVIDIA Jetson AGX Thor는 NVIDIA Blackwell 아키텍처를 기반으로 한 NVIDIA Jetson 제품군의 최신 버전으로, 이전 세대와 비교하여 획기적으로 개선된 AI 성능을 제공합니다. 아래 표는 생태계 내 몇 가지 Jetson 장치를 비교합니다.

Jetson AGX Thor(T5000)Jetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
AI 성능2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPU96개의 Tensor 코어를 갖춘 2560코어 NVIDIA Blackwell 아키텍처 GPU64개의 Tensor 코어를 갖춘 2048코어 NVIDIA Ampere 아키텍처 GPU32개의 Tensor 코어를 갖춘 1024코어 NVIDIA Ampere 아키텍처 GPU32개의 Tensor 코어를 갖춘 1024코어 NVIDIA Ampere 아키텍처 GPU64개의 Tensor 코어를 갖춘 512코어 NVIDIA Volta 아키텍처 GPU48개의 Tensor 코어를 갖춘 384코어 NVIDIA Volta™ 아키텍처 GPU128코어 NVIDIA Maxwell™ 아키텍처 GPU
GPU 최대 주파수1.57 GHz1.3 GHz918 MHz1020 MHz1377 MHz1100 MHz921MHz
CPU14코어 Arm® Neoverse®-V3AE 64-bit CPU 1MB L2 + 16MB L312코어 NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 3MB L2 + 6MB L38코어 NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L36코어 Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L38코어 NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L36코어 NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3쿼드 코어 Arm® Cortex®-A57 MPCore 프로세서
CPU 최대 주파수2.6 GHz2.2 GHz2.0 GHz1.7 GHz2.2 GHz1.9 GHz1.43GHz
메모리128GB 256-bit LPDDR5X 273GB/s64GB 256-bit LPDDR5 204.8GB/s16GB 128-bit LPDDR5 102.4GB/s8GB 128-bit LPDDR5 102 GB/s32GB 256-bit LPDDR4x 136.5GB/s8GB 128-bit LPDDR4x 59.7GB/s4GB 64-bit LPDDR4 25.6GB/s

더 자세한 비교 표를 보려면 공식 NVIDIA Jetson 페이지사양 비교 섹션을 방문하십시오.

NVIDIA JetPack이란 무엇입니까?

Jetson 모듈을 구동하는 NVIDIA JetPack SDK는 가장 포괄적인 솔루션으로, 엔드투엔드 가속 AI 애플리케이션을 구축하기 위한 완전한 개발 환경을 제공하여 시장 출시 시간을 단축합니다. JetPack에는 부트로더, Linux 커널, Ubuntu 데스크톱 환경이 포함된 Jetson Linux와 GPU 컴퓨팅, 멀티미디어, 그래픽 및 컴퓨터 비전 가속을 위한 완벽한 라이브러리 세트가 포함되어 있습니다. 또한 호스트 컴퓨터와 개발자 키트 모두를 위한 샘플, 문서 및 개발자 도구를 포함하며, 비디오 분석 스트리밍을 위한 DeepStream, 로봇 공학을 위한 Isaac, 대화형 AI를 위한 Riva와 같은 상위 수준의 SDK를 지원합니다.

NVIDIA Jetson에 JetPack 플래싱하기

NVIDIA Jetson 장치를 손에 넣은 후 첫 번째 단계는 장치에 NVIDIA JetPack을 플래싱하는 것입니다. NVIDIA Jetson 장치를 플래싱하는 방법에는 여러 가지가 있습니다.

  1. Jetson AGX Thor Developer Kit와 같은 공식 NVIDIA 개발자 키트를 소유하고 있다면, 이미지를 다운로드하고 부팅 가능한 USB 스틱을 준비하여 포함된 SSD에 JetPack을 플래싱할 수 있습니다.
  2. Jetson Orin Nano Developer Kit와 같은 공식 NVIDIA 개발자 키트를 소유하고 있다면, 이미지를 다운로드하고 장치 부팅을 위해 JetPack이 포함된 SD 카드를 준비할 수 있습니다.
  3. 다른 NVIDIA 개발자 키트를 소유하고 있다면, SDK Manager를 사용하여 장치에 JetPack을 플래싱할 수 있습니다.
  4. Seeed Studio reComputer J4012 장치를 소유하고 있다면 포함된 SSD에 JetPack을 플래싱할 수 있으며, Seeed Studio reComputer J1020 v2 장치를 소유하고 있다면 eMMC/SSD에 JetPack을 플래싱할 수 있습니다.
  5. NVIDIA Jetson 모듈로 구동되는 다른 타사 장치를 소유하고 있는 경우, 명령줄 플래싱을 따르는 것을 권장합니다.
참고

위의 1, 4, 5 방법의 경우, 시스템을 플래싱하고 장치를 부팅한 후 장치 터미널에 "sudo apt update && sudo apt install nvidia-jetpack -y"를 입력하여 필요한 나머지 모든 JetPack 구성 요소를 설치하십시오.

Jetson 장치별 JetPack 지원

아래 표는 다양한 NVIDIA Jetson 장치에서 지원되는 NVIDIA JetPack 버전을 강조합니다.

JetPack 4JetPack 5JetPack 6JetPack 7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Thor

Docker를 이용한 퀵 스타트

NVIDIA Jetson에서 Ultralytics YOLO26을 시작하는 가장 빠른 방법은 Jetson용 사전 빌드 Docker 이미지를 실행하는 것입니다. 위의 표를 참조하여 소유한 Jetson 장치에 맞는 JetPack 버전을 선택하십시오.

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

완료 후, NVIDIA Jetson에서 TensorRT 사용 섹션으로 건너뛰십시오.

네이티브 설치로 시작

Docker 없이 네이티브 설치를 하려면 아래 단계를 참조하십시오.

JetPack 7.0에서 실행

Ultralytics 패키지 설치

여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 옵션 종속 항목과 함께 Jetson에 Ultralytics 패키지를 설치합니다. TensorRT가 Jetson 장치에서 최대 성능을 발휘할 수 있도록 NVIDIA TensorRT 내보내기에 중점을 둘 것입니다.

  1. 패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 선택적 종속성이 포함된 ultralytics pip 패키지 설치

    pip install ultralytics[export]
  3. 장치 재부팅

    sudo reboot

PyTorch 및 Torchvision 설치

위의 ultralytics 설치는 Torch와 Torchvision을 설치합니다. 하지만 pip를 통해 설치된 이 두 패키지는 JetPack 7.0 및 CUDA 13이 탑재된 Jetson AGX Thor에서 실행하기에 호환되지 않습니다. 따라서 수동으로 설치해야 합니다.

JP7.0에 따라 torchtorchvision 설치

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

onnxruntime-gpu 설치

PyPI에 호스팅된 onnxruntime-gpu 패키지에는 Jetson용 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기 작업에 필요합니다.

Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

JetPack 6.1에서 실행

Ultralytics 패키지 설치

여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 옵션 종속 항목과 함께 Jetson에 Ultralytics 패키지를 설치합니다. TensorRT가 Jetson 장치에서 최대 성능을 발휘할 수 있도록 NVIDIA TensorRT 내보내기에 중점을 둘 것입니다.

  1. 패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 선택적 종속성이 포함된 ultralytics pip 패키지 설치

    pip install ultralytics[export]
  3. 장치 재부팅

    sudo reboot

PyTorch 및 Torchvision 설치

위의 ultralytics 설치는 Torch와 Torchvision을 설치합니다. 하지만 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반의 Jetson 플랫폼과 호환되지 않습니다. 따라서 수동으로 사전 빌드된 PyTorch pip 휠을 설치하고 소스에서 Torchvision을 컴파일하거나 설치해야 합니다.

JP6.1에 따라 torch 2.10.0torchvision 0.25.0 설치

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl
참고

Jetson용 PyTorch 페이지를 방문하여 다양한 JetPack 버전별 모든 PyTorch 버전에 액세스하십시오. PyTorch, Torchvision 호환성에 대한 자세한 목록은 PyTorch 및 Torchvision 호환성 페이지를 방문하십시오.

Install cuDSS to fix a dependency issue with torch 2.10.0

wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudss

onnxruntime-gpu 설치

PyPI에 호스팅된 onnxruntime-gpu 패키지에는 Jetson용 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기 작업에 필요합니다.

JetPack 버전, Python 버전 및 기타 호환성 세부 정보별로 정리된 모든 사용 가능한 onnxruntime-gpu 패키지는 Jetson Zoo ONNX Runtime 호환성 매트릭스에서 찾을 수 있습니다.

Python 3.10을 지원하는 JetPack 6의 경우 onnxruntime-gpu 1.23.0을 설치할 수 있습니다:

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whl

또는 onnxruntime-gpu 1.20.0의 경우:

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

JetPack 5.1.2에서 실행

Ultralytics 패키지 설치

여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 옵션 종속 항목과 함께 Jetson에 Ultralytics 패키지를 설치합니다. TensorRT가 Jetson 장치에서 최대 성능을 발휘할 수 있도록 NVIDIA TensorRT 내보내기에 중점을 둘 것입니다.

  1. 패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 선택적 종속성이 포함된 ultralytics pip 패키지 설치

    pip install ultralytics[export]
  3. 장치 재부팅

    sudo reboot

PyTorch 및 Torchvision 설치

위의 ultralytics 설치는 Torch와 Torchvision을 설치합니다. 하지만 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반의 Jetson 플랫폼과 호환되지 않습니다. 따라서 수동으로 사전 빌드된 PyTorch pip 휠을 설치하고 소스에서 Torchvision을 컴파일하거나 설치해야 합니다.

  1. 현재 설치된 PyTorch 및 Torchvision 제거

    pip uninstall torch torchvision
  2. JP5.1.2에 따라 torch 2.1.0torchvision 0.16.2 설치

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
참고

Jetson용 PyTorch 페이지를 방문하여 다양한 JetPack 버전별 모든 PyTorch 버전에 액세스하십시오. PyTorch, Torchvision 호환성에 대한 자세한 목록은 PyTorch 및 Torchvision 호환성 페이지를 방문하십시오.

onnxruntime-gpu 설치

PyPI에 호스팅된 onnxruntime-gpu 패키지에는 Jetson용 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기 작업에 필요합니다.

You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix. Here we will download and install onnxruntime-gpu 1.17.0 with Python3.8 support.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
참고

onnxruntime-gpu는 자동으로 NumPy 버전을 최신 버전으로 되돌립니다. 따라서 문제를 해결하기 위해 다음을 실행하여 NumPy를 1.23.5로 재설치해야 합니다:

pip install numpy==1.23.5

NVIDIA Jetson에서 TensorRT 사용하기

Ultralytics에서 지원하는 모든 모델 내보내기 형식 중 TensorRT는 NVIDIA Jetson 장치에서 가장 높은 추론 성능을 제공하므로 Jetson 배포에 가장 권장하는 형식입니다. 설정 지침 및 고급 사용법은 전용 TensorRT 통합 가이드를 참조하십시오.

모델을 TensorRT로 변환하고 추론 실행

PyTorch 형식의 YOLO26n 모델을 TensorRT로 변환하여 내보낸 모델로 추론을 실행합니다.

예시
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
참고

모델을 다양한 형식으로 내보낼 때 추가 인수를 확인하려면 내보내기 페이지를 방문하십시오.

NVIDIA DLA(Deep Learning Accelerator) 사용하기

NVIDIA DLA(Deep Learning Accelerator)는 에너지 효율성과 성능을 위해 딥러닝 추론을 최적화하는 NVIDIA Jetson 장치 내장형 특수 하드웨어 구성 요소입니다. GPU의 작업을 분담하여 GPU가 더 집중적인 프로세스를 처리할 수 있도록 함으로써, DLA는 임베디드 시스템과 실시간 AI 애플리케이션에 이상적인 높은 처리량을 유지하면서 모델이 더 낮은 전력을 소비하도록 합니다.

다음 Jetson 장치에는 DLA 하드웨어가 장착되어 있습니다:

Jetson 장치DLA 코어DLA 최대 주파수
Jetson AGX Orin 시리즈21.6 GHz
Jetson Orin NX 16GB2614 MHz
Jetson Orin NX 8GB1614 MHz
Jetson AGX Xavier 시리즈21.4 GHz
Jetson Xavier NX 시리즈21.1 GHz
예시
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
참고

DLA 내보내기를 사용할 때 일부 레이어는 DLA 실행을 지원하지 않을 수 있으며 이 경우 GPU로 대체(fallback)되어 실행됩니다. 이러한 대체는 추가적인 지연 시간을 발생시켜 전반적인 추론 성능에 영향을 줄 수 있습니다. 따라서 DLA는 GPU에서 완전히 실행되는 TensorRT와 비교하여 주로 추론 지연 시간을 줄이기 위해 설계된 것이 아닙니다. 대신, DLA의 주요 목적은 처리량을 늘리고 에너지 효율성을 향상하는 것입니다.

NVIDIA Jetson YOLO11/ YOLO26 벤치마크

YOLO11/ YOLO26 벤치마크는 Ultralytics 팀이 11가지 모델 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch)에 대해 속도와 정확도를 측정하여 실행했습니다. 벤치마크는 NVIDIA Jetson AGX Thor 개발자 키트, NVIDIA Jetson AGX Orin 개발자 키트(64GB), NVIDIA Jetson Orin Nano 슈퍼 개발자 키트 및 Jetson Orin NX 16GB 장치로 구동되는 Seeed Studio reComputer J4012에서 기본 입력 이미지 크기 640을 사용하여 FP32 정밀도로 실행되었습니다.

비교 차트

모든 모델 내보내기가 NVIDIA Jetson에서 작동하지만, Jetson의 GPU를 활용하여 최상의 결과를 보장하는 PyTorch, TorchScript, TensorRT만을 아래 비교 차트에 포함했습니다. 다른 모든 내보내기는 CPU만 활용하며 성능이 위 세 가지만큼 좋지 않습니다. 이 차트 이후 섹션에서 모든 내보내기에 대한 벤치마크를 확인할 수 있습니다.

NVIDIA Jetson AGX Thor 개발자 키트

Jetson AGX Thor Benchmarks
Benchmarked with Ultralytics 8.3.226

NVIDIA Jetson AGX Orin 개발자 키트(64GB)

Jetson AGX Orin Benchmarks
Benchmarked with Ultralytics 8.4.32

NVIDIA Jetson Orin Nano 슈퍼 개발자 키트

Jetson Orin Nano Super Benchmarks
Benchmarked with Ultralytics 8.4.33

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GB Benchmarks
Benchmarked with Ultralytics 8.4.33

상세 비교 테이블

아래 표는 5가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)을 11가지 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch)으로 벤치마크한 결과로, 각 조합에 대한 상태, 크기, mAP50-95(B) 메트릭 및 추론 시간을 제공합니다.

NVIDIA Jetson AGX Thor 개발자 키트

성능
형식상태디스크 크기 (MB)mAP50-95(B)추론 시간 (ms/im)
PyTorch5.30.47987.39
TorchScript9.80.47894.21
ONNX9.50.47676.58
OpenVINO10.10.479417.50
TensorRT (FP32)13.90.47911.90
TensorRT (FP16)7.60.47971.39
TensorRT (INT8)6.50.42731.52
TF SavedModel25.70.476447.24
TF GraphDef9.50.476445.98
TF Lite9.90.4764182.04
MNN9.40.478421.83

Ultralytics 8.4.7 버전으로 벤치마킹되었습니다.

참고

추론 시간은 전처리 및 후처리를 포함하지 않습니다.

NVIDIA Jetson AGX Orin 개발자 키트(64GB)

성능
형식상태디스크 크기 (MB)mAP50-95(B)추론 시간 (ms/im)
PyTorch5.30.479011.58
TorchScript9.80.47704.60
ONNX9.50.47709.87
OpenVINO9.60.482028.80
TensorRT (FP32)11.50.04504.18
TensorRT (FP16)7.90.04502.62
TensorRT (INT8)5.40.46402.30
TF SavedModel24.60.476071.10
TF GraphDef9.50.476070.02
TF Lite9.90.4760227.94
MNN9.40.476032.46
NCNN9.30.481029.93

Ultralytics 8.4.32 버전으로 벤치마킹되었습니다.

참고

추론 시간은 전처리 및 후처리를 포함하지 않습니다.

NVIDIA Jetson Orin Nano 슈퍼 개발자 키트

성능
형식상태디스크 크기 (MB)mAP50-95(B)추론 시간 (ms/im)
PyTorch5.30.479015.60
TorchScript9.80.477012.60
ONNX9.50.476015.76
OpenVINO9.60.482056.23
TensorRT (FP32)11.30.47707.53
TensorRT (FP16)8.10.48004.57
TensorRT (INT8)5.30.44903.80
TF SavedModel24.60.4760118.33
TF GraphDef9.50.4760116.30
TF Lite9.90.4760286.00
MNN9.40.476068.77
NCNN9.30.481047.50

Ultralytics 8.4.33 버전으로 벤치마킹되었습니다

참고

추론 시간은 전처리 및 후처리를 포함하지 않습니다.

NVIDIA Jetson Orin NX 16GB

성능
형식상태디스크 크기 (MB)mAP50-95(B)추론 시간 (ms/im)
PyTorch5.30.479913.90
TorchScript9.80.478711.60
ONNX9.50.476314.18
OpenVINO9.60.481940.19
TensorRT (FP32)11.40.47707.01
TensorRT (FP16)8.00.47894.13
TensorRT (INT8)5.50.44893.49
TF SavedModel24.60.476492.34
TF GraphDef9.50.476492.06
TF Lite9.90.4764254.43
MNN9.40.476048.55
NCNN9.30.480534.31

Ultralytics 8.4.33 버전으로 벤치마킹되었습니다

참고

추론 시간은 전처리 및 후처리를 포함하지 않습니다.

다양한 NVIDIA Jetson 하드웨어에서 실행되는 Seeed Studio의 벤치마킹 작업 더 보기

결과 재현하기

모든 내보내기 형식에 대해 위 Ultralytics 벤치마크를 재현하려면 다음 코드를 실행하십시오:

예시
from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

벤치마킹 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크 실행 당시의 시스템 작업 부하에 따라 다를 수 있습니다. 가장 신뢰할 수 있는 결과를 얻으려면 data='coco.yaml'(5000개의 val 이미지)과 같이 이미지가 많은 데이터셋을 사용하십시오.

NVIDIA Jetson 사용 시 모범 사례

NVIDIA Jetson에서 YOLO26을 실행할 때 최대 성능을 구현하기 위해 따라야 할 몇 가지 모범 사례가 있습니다.

  1. 최대 전력 모드(MAX Power Mode) 활성화

    Jetson에서 최대 전력 모드를 활성화하면 모든 CPU 및 GPU 코어가 켜집니다.

    sudo nvpmodel -m 0
  2. Jetson 클럭 활성화

    Jetson 클럭을 활성화하면 모든 CPU 및 GPU 코어가 최대 주파수로 클럭 설정됩니다.

    sudo jetson_clocks
  3. Jetson Stats 애플리케이션 설치

    jetson stats 애플리케이션을 사용하여 시스템 구성 요소의 온도를 모니터링하고 CPU, GPU, RAM 사용률 확인, 전원 모드 변경, 최대 클럭 설정, JetPack 정보 확인 등 기타 시스템 세부 정보를 확인할 수 있습니다.

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
Jetson Stats

NVIDIA Jetson을 위한 메모리 최적화 팁

Jetson 기기, 특히 Jetson Orin Nano(8 GB) 또는 Orin NX 8 GB와 같이 메모리가 적은 모델에서는 사용 가능한 메모리가 종종 제한 요인이 됩니다. 아래 팁은 실용적이고 위험 부담이 낮은 변경 사항으로, 이를 종합하면 수백 메가바이트를 확보하여 더 큰 YOLO 모델을 실행하거나 추가적인 병행 워크로드를 지원할 수 있습니다. 자세한 내용은 Jetson에서 메모리 효율성을 극대화하여 더 큰 모델을 실행하는 방법에 대한 NVIDIA 블로그를 참조하십시오.

헤드리스(GUI 없음) 부팅으로 전환

Jetson이 SSH를 통해 연결되어 있거나 디스플레이 없이 프로덕션 장비로 실행 중인 경우, 데스크톱 환경과 디스플레이 서버를 제거하면 최대 865 MB의 RAM을 복구할 수 있습니다:

sudo systemctl set-default multi-user.target
sudo reboot

나중에 데스크톱을 복원하려면:

sudo systemctl set-default graphical.target
sudo reboot

사용하지 않는 시스템 서비스 비활성화

필수적이지 않은 백그라운드 서비스(Bluetooth, 연결 관리자, 사용하지 않는 하드웨어 데몬)는 합쳐서 약 32 MB를 소비합니다. 활성 서비스를 나열하고 배포에 필요하지 않은 것은 비활성화하십시오:

# List running services
systemctl list-units --type=service --state=running

# Disable a service
sudo systemctl disable <service-name>

메모리 사용량 프로파일링

최적화하기 전에 실제로 RAM을 소비하는 프로세스를 식별하십시오. procrank는 PSS(Proportional Set Size)별로 프로세스를 정렬하는데, 이는 RSS(Resident Set Size, 다른 프로세스와 공유되는 페이지를 포함하여 프로세스에 의해 매핑된 총 물리적 RAM 페이지)보다 프로세스별 실제 메모리 점유율을 더 정확하게 반영합니다:

git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrank

프로세스별 GPU 및 NvMap(CUDA/비디오 파이프라인) 할당량을 보려면:

sudo cat /sys/kernel/debug/nvmap/iovmm/clients

프로덕션 환경에서 디스플레이 없이 추론 실행

실시간 미리보기가 필요 없는 추론 파이프라인의 경우, 디스플레이 관련 구성 요소(Tiler, OSD, DisplaySink)를 비활성화하면 파이프라인만으로도 200 MB 이상을 절약할 수 있습니다. Ultralytics YOLO에서는 뷰어를 억제하고 결과를 대신 디스크에 기록하십시오:

예시
from ultralytics import YOLO

model = YOLO("yolo11n.engine")

# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)

누적 영향

최적화절약된 메모리(약)
데스크톱 GUI 비활성화~865 MB
사용하지 않는 OS 서비스 비활성화~32 MB
헤드리스 추론 파이프라인(디스플레이 없음)~200+ MB
합계 (쉽게 확보 가능)~1 GB 이상

이러한 변경 사항을 조합하는 것은 메모리가 제한된 장치에서 TensorRT INT8 모델을 타겟팅할 때 특히 유용합니다. 메모리에 더 큰 모델 변형을 맞출 수 있는지 여부를 결정짓는 차이가 될 수 있습니다.

다음 단계

추가 학습 및 지원은 Ultralytics YOLO26 문서를 참조하십시오.

FAQ

NVIDIA Jetson 기기에 Ultralytics YOLO26을 배포하려면 어떻게 해야 합니까?

NVIDIA Jetson 기기에 Ultralytics YOLO26을 배포하는 과정은 간단합니다. 먼저 NVIDIA JetPack SDK로 Jetson 기기를 플래시하십시오. 그런 다음, 빠른 설정을 위해 미리 빌드된 Docker 이미지를 사용하거나 필요한 패키지를 수동으로 설치하십시오. 각 접근 방식에 대한 자세한 단계는 Docker로 빠른 시작네이티브 설치로 시작 섹션에서 확인할 수 있습니다.

NVIDIA Jetson 기기에서 YOLO11 모델로 어떤 성능 벤치마크를 기대할 수 있습니까?

YOLO11 모델은 다양한 NVIDIA Jetson 기기에서 벤치마킹되었으며 상당한 성능 향상을 보여주었습니다. 예를 들어, TensorRT 형식은 최상의 추론 성능을 제공합니다. 상세 비교 표 섹션의 표는 mAP50-95 및 다양한 모델 형식에 걸친 추론 시간과 같은 성능 지표에 대한 포괄적인 정보를 제공합니다.

NVIDIA Jetson에 YOLO26을 배포할 때 왜 TensorRT를 사용해야 합니까?

TensorRT는 최적의 성능을 제공하므로 NVIDIA Jetson에 YOLO26 모델을 배포할 때 강력히 권장됩니다. Jetson의 GPU 기능을 활용하여 추론을 가속화함으로써 최대의 효율성과 속도를 보장합니다. TensorRT로 변환하고 추론을 실행하는 방법에 대한 자세한 내용은 NVIDIA Jetson에서 TensorRT 사용 섹션을 참조하십시오.

NVIDIA Jetson에 PyTorch와 Torchvision을 어떻게 설치합니까?

NVIDIA Jetson에 PyTorch와 Torchvision을 설치하려면 먼저 pip를 통해 설치되었을 수 있는 기존 버전을 모두 제거하십시오. 그런 다음 Jetson의 ARM64 아키텍처와 호환되는 PyTorch 및 Torchvision 버전을 수동으로 설치하십시오. 이 과정에 대한 자세한 지침은 PyTorch 및 Torchvision 설치 섹션에 나와 있습니다.

YOLO26을 사용할 때 NVIDIA Jetson에서 성능을 극대화하기 위한 모범 사례는 무엇입니까?

YOLO26으로 NVIDIA Jetson에서 성능을 극대화하려면 다음 모범 사례를 따르십시오:

  1. 모든 CPU 및 GPU 코어를 활용하려면 최대 전력 모드를 활성화하십시오.
  2. 모든 코어를 최대 주파수로 실행하려면 Jetson 클럭을 활성화하십시오.
  3. 시스템 지표 모니터링을 위해 Jetson Stats 애플리케이션을 설치하십시오.

명령어 및 추가 세부 정보는 NVIDIA Jetson 사용 시 모범 사례 섹션을 참조하십시오.

더 큰 YOLO 모델을 실행하기 위해 NVIDIA Jetson에서 메모리를 확보하려면 어떻게 해야 합니까?

사용 가능한 RAM은 메모리가 적은 Jetson 기기에서 종종 병목 현상이 발생합니다. 1GB 이상을 복구할 수 있는 세 가지 쉬운 방법은 다음과 같습니다:

  1. 헤드리스 부팅으로 전환(sudo systemctl set-default multi-user.target)하여 데스크톱 GUI 제거 (~865 MB 절약).
  2. Bluetooth 또는 연결 관리자와 같은 사용하지 않는 서비스 비활성화 (~32 MB 절약).
  3. Run inference without a display by setting show=False in your YOLO predict call, which avoids allocating display pipeline memory (~200+ MB saved).

procrank를 사용하여 프로세스별 RAM 사용량을 프로파일링하고 sudo cat /sys/kernel/debug/nvmap/iovmm/clients를 사용하여 GPU 할당량을 검사하십시오. 자세한 내용은 메모리 최적화 팁 섹션을 참조하십시오.

왜 JetPack 6에서 TensorRT INT8 내보내기가 end2end를 비활성화합니까?

JetPack 6와 함께 제공된 TensorRT 10.3.0에는 end2end=True가 활성화되어 있을 때 INT8 엔진 빌드를 방해하는 알려진 문제가 있습니다. Ultralytics가 이 조합을 감지하면 내보내기가 성공하도록 자동으로 end2end 브랜치를 비활성화합니다.

end2end INT8 내보내기를 복원하려면 TensorRT를 더 최신 버전(예: 10.7.0 이상)으로 업그레이드하십시오:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrt

업그레이드 후 내보내기를 다시 실행하십시오. 자세한 내용은 GitHub 이슈 #23841을 참조하십시오.

댓글