Link to this section빠른 시작 가이드: NVIDIA Jetson 및 Ultralytics YOLO26#
본 종합 가이드는 NVIDIA Jetson 장치에 Ultralytics YOLO26을 배포하기 위한 상세한 단계별 안내를 제공합니다. 또한, 이 작고 강력한 장치에서 YOLO26의 성능을 입증하기 위한 성능 벤치마크도 함께 소개합니다.
본 가이드는 최신 NVIDIA Jetson AGX Thor Developer Kit을 지원하도록 업데이트되었습니다. 이 키트는 최대 2070 FP4 TFLOPS의 AI 연산 성능과 128GB 메모리를 제공하며, 40W에서 130W 사이의 전력 구성이 가능합니다. 이는 NVIDIA Jetson AGX Orin 대비 7.5배 이상 높은 AI 연산 성능과 3.5배 더 나은 에너지 효율을 제공하여 가장 인기 있는 AI 모델들을 원활하게 실행합니다.
Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices

This guide has been tested with NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) running the latest stable JetPack release of JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) running JetPack release of JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit running JetPack release of JP6.1, Seeed Studio reComputer J4012 which is based on NVIDIA Jetson Orin NX 16GB running JetPack release of JP6.0/ JetPack release of JP5.1.3 and Seeed Studio reComputer J1020 v2 which is based on NVIDIA Jetson Nano 4GB running JetPack release of JP4.6.1. It is expected to work across all the NVIDIA Jetson hardware lineup, including the latest and legacy devices.
Link to this sectionNVIDIA Jetson이란 무엇인가요?#
NVIDIA Jetson is a series of embedded computing boards designed to bring accelerated AI (artificial intelligence) computing to edge devices. These compact and powerful devices are built around NVIDIA's GPU architecture and can run complex AI algorithms and deep learning models directly on the device, without relying on cloud computing resources. Jetson boards are often used in robotics, autonomous vehicles, industrial automation, and other applications where AI inference needs to be performed locally with low latency and high efficiency. Additionally, these boards are based on the ARM64 architecture and run at lower power compared to traditional GPU computing devices.
Link to this sectionNVIDIA Jetson 시리즈 비교#
NVIDIA Jetson AGX Thor는 NVIDIA Blackwell 아키텍처를 기반으로 한 NVIDIA Jetson 제품군의 최신 버전으로, 이전 세대와 비교하여 AI 성능이 획기적으로 개선되었습니다. 아래 표는 생태계 내 몇 가지 Jetson 장치를 비교합니다.
| Jetson AGX Thor(T5000) | Jetson AGX Orin 64GB | Jetson Orin NX 16GB | Jetson Orin Nano Super | Jetson AGX Xavier | Jetson Xavier NX | Jetson Nano | |
|---|---|---|---|---|---|---|---|
| AI 성능 | 2070 TFLOPS | 275 TOPS | 100 TOPS | 67 TOPS | 32 TOPS | 21 TOPS | 472 GFLOPS |
| GPU | 96 Tensor Core를 탑재한 2560코어 NVIDIA Blackwell 아키텍처 GPU | 64 Tensor Core를 탑재한 2048코어 NVIDIA Ampere 아키텍처 GPU | 32 Tensor Core를 탑재한 1024코어 NVIDIA Ampere 아키텍처 GPU | 32 Tensor Core를 탑재한 1024코어 NVIDIA Ampere 아키텍처 GPU | 64 Tensor Core를 탑재한 512코어 NVIDIA Volta 아키텍처 GPU | 48 Tensor Core를 탑재한 384코어 NVIDIA Volta™ 아키텍처 GPU | 128코어 NVIDIA Maxwell™ 아키텍처 GPU |
| GPU 최대 클럭 | 1.57 GHz | 1.3 GHz | 918 MHz | 1020 MHz | 1377 MHz | 1100 MHz | 921 MHz |
| CPU | 14코어 Arm® Neoverse®-V3AE 64비트 CPU 1MB L2 + 16MB L3 | 12코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 3MB L2 + 6MB L3 | 8코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 2MB L2 + 4MB L3 | 6코어 Arm® Cortex®-A78AE v8.2 64비트 CPU 1.5MB L2 + 4MB L3 | 8코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 8MB L2 + 4MB L3 | 6코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 6MB L2 + 4MB L3 | 쿼드 코어 Arm® Cortex®-A57 MPCore 프로세서 |
| CPU 최대 클럭 | 2.6 GHz | 2.2 GHz | 2.0 GHz | 1.7 GHz | 2.2 GHz | 1.9 GHz | 1.43 GHz |
| 메모리 | 128GB 256비트 LPDDR5X 273GB/s | 64GB 256비트 LPDDR5 204.8GB/s | 16GB 128비트 LPDDR5 102.4GB/s | 8GB 128비트 LPDDR5 102 GB/s | 32GB 256비트 LPDDR4x 136.5GB/s | 8GB 128비트 LPDDR4x 59.7GB/s | 4GB 64비트 LPDDR4 25.6GB/s |
더 자세한 비교 표는 공식 NVIDIA Jetson 페이지의 사양 비교 섹션을 방문해 주십시오.
Link to this sectionNVIDIA JetPack이란 무엇인가요?#
Jetson 모듈을 구동하는 NVIDIA JetPack SDK는 가장 종합적인 솔루션으로, 엔드 투 엔드 가속 AI 애플리케이션을 구축하기 위한 완전한 개발 환경을 제공하며 출시 시간을 단축시킵니다. JetPack에는 부트로더, Linux 커널, Ubuntu 데스크톱 환경을 포함한 Jetson Linux와 GPU 컴퓨팅, 멀티미디어, 그래픽 및 컴퓨터 비전 가속을 위한 완벽한 라이브러리 세트가 포함되어 있습니다. 또한 호스트 컴퓨터와 개발자 키트 모두를 위한 샘플, 문서 및 개발 도구가 포함되어 있으며 스트리밍 비디오 분석을 위한 DeepStream, 로봇 공학을 위한 Isaac, 대화형 AI를 위한 Riva와 같은 상위 수준 SDK를 지원합니다.
Link to this sectionNVIDIA Jetson에 JetPack 플래싱하기#
NVIDIA Jetson 장치를 확보한 후 첫 번째 단계는 장치에 NVIDIA JetPack을 플래싱하는 것입니다. NVIDIA Jetson 장치를 플래싱하는 방법은 여러 가지가 있습니다.
- Jetson AGX Thor Developer Kit과 같은 공식 NVIDIA 개발자 키트를 보유한 경우, 이미지를 다운로드하고 부팅 가능한 USB 스틱을 준비하여 포함된 SSD에 JetPack을 플래싱할 수 있습니다.
- Jetson Orin Nano Developer Kit과 같은 공식 NVIDIA 개발자 키트를 보유한 경우, 이미지를 다운로드하고 장치 부팅을 위해 JetPack이 포함된 SD 카드를 준비할 수 있습니다.
- 다른 NVIDIA 개발자 키트를 보유한 경우, SDK Manager를 사용하여 장치에 JetPack을 플래싱할 수 있습니다.
- Seeed Studio reComputer J4012 장치를 보유한 경우 포함된 SSD에 JetPack을 플래싱할 수 있으며, Seeed Studio reComputer J1020 v2 장치를 보유한 경우 eMMC/SSD에 JetPack을 플래싱할 수 있습니다.
- NVIDIA Jetson 모듈로 구동되는 다른 타사 장치를 보유한 경우, 명령줄 플래싱 방법을 따르는 것이 권장됩니다.
위의 1, 4, 5번 방법의 경우, 시스템을 플래싱하고 장치를 부팅한 후 장치 터미널에 "sudo apt update && sudo apt install nvidia-jetpack -y"를 입력하여 필요한 나머지 JetPack 구성 요소를 모두 설치하십시오.
Link to this sectionJetson 장치별 JetPack 지원#
아래 표는 각 NVIDIA Jetson 장치에서 지원하는 NVIDIA JetPack 버전을 보여줍니다.
| JetPack 4 | JetPack 5 | JetPack 6 | JetPack 7 | |
|---|---|---|---|---|
| Jetson Nano | ✅ | ❌ | ❌ | ❌ |
| Jetson TX2 | ✅ | ❌ | ❌ | ❌ |
| Jetson Xavier NX | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Xavier | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Orin | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin NX | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin Nano | ❌ | ✅ | ✅ | ❌ |
| Jetson AGX Thor | ❌ | ❌ | ❌ | ✅ |
Link to this sectionDocker를 사용한 빠른 시작#
NVIDIA Jetson에서 Ultralytics YOLO26을 시작하는 가장 빠른 방법은 Jetson용 사전 빌드된 도커 이미지를 실행하는 것입니다. 위 표를 참조하여 보유한 Jetson 장치에 맞는 JetPack 버전을 선택하십시오.
t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t완료 후, NVIDIA Jetson에서 TensorRT 사용 섹션으로 건너뛰십시오.
Link to this section네이티브 설치로 시작하기#
Docker를 사용하지 않는 네이티브 설치를 원하시면 아래 단계를 참조하십시오.
Link to this sectionJetPack 7.0에서 실행#
Link to this sectionUltralytics 패키지 설치#
여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 옵션 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하겠습니다. TensorRT를 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있으므로 주로 NVIDIA TensorRT 내보내기에 집중할 것입니다.
-
패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드
sudo apt update sudo apt install python3-pip -y pip install -U pip -
선택적 종속성을 포함하여
ultralyticspip 패키지 설치pip install ultralytics[export] -
장치 재부팅
sudo reboot
Link to this sectionPyTorch 및 Torchvision 설치#
위의 ultralytics 설치 과정에서 Torch와 Torchvision이 설치됩니다. 그러나 pip을 통해 설치된 이 두 패키지는 JetPack 7.0 및 CUDA 13이 탑재된 Jetson AGX Thor에서 실행하기에는 호환되지 않습니다. 따라서 수동으로 설치해야 합니다.
JP7.0에 맞춰 torch 및 torchvision 설치
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130Link to this sectiononnxruntime-gpu 설치#
PyPI에서 호스팅되는 onnxruntime-gpu 패키지에는 Jetson용 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기 작업에 필요합니다.
Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whlLink to this sectionJetPack 6.1에서 실행#
Link to this sectionUltralytics 패키지 설치#
여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 옵션 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하겠습니다. TensorRT를 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있으므로 주로 NVIDIA TensorRT 내보내기에 집중할 것입니다.
-
패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드
sudo apt update sudo apt install python3-pip -y pip install -U pip -
선택적 종속성을 포함하여
ultralyticspip 패키지 설치pip install ultralytics[export] -
장치 재부팅
sudo reboot
Link to this sectionPyTorch 및 Torchvision 설치#
위의 Ultralytics 설치 과정에서 Torch와 Torchvision이 설치됩니다. 하지만 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반의 Jetson 플랫폼과 호환되지 않습니다. 따라서 사전 빌드된 PyTorch pip 휠을 수동으로 설치하고, Torchvision은 소스에서 직접 컴파일하거나 설치해야 합니다.
JP6.1에 따라 torch 2.10.0 및 torchvision 0.25.0을 설치합니다.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl다양한 JetPack 버전에 맞는 모든 PyTorch 버전을 확인하려면 PyTorch for Jetson 페이지를 방문하십시오. PyTorch와 Torchvision의 호환성에 대한 자세한 목록은 PyTorch 및 Torchvision 호환성 페이지를 참조하십시오.
Install cuDSS to fix a dependency issue with torch 2.10.0
wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudssLink to this sectiononnxruntime-gpu 설치#
PyPI에서 호스팅되는 onnxruntime-gpu 패키지에는 Jetson용 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기 작업에 필요합니다.
JetPack 버전, Python 버전 및 기타 호환성 세부 정보별로 정리된 모든 사용 가능한 onnxruntime-gpu 패키지는 Jetson Zoo ONNX Runtime 호환성 매트릭스에서 확인할 수 있습니다.
Python 3.10을 지원하는 JetPack 6의 경우, onnxruntime-gpu 1.23.0을 설치할 수 있습니다:
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whl또는 onnxruntime-gpu 1.20.0의 경우:
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whlLink to this sectionJetPack 5.1.2에서 실행#
Link to this sectionUltralytics 패키지 설치#
여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 선택적 의존성과 함께 Jetson에 Ultralytics 패키지를 설치하겠습니다. TensorRT는 Jetson 장치에서 최대 성능을 보장하므로 NVIDIA TensorRT 내보내기에 중점을 둘 것입니다.
-
패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드
sudo apt update sudo apt install python3-pip -y pip install -U pip -
선택적 종속성을 포함하여
ultralyticspip 패키지 설치pip install ultralytics[export] -
장치 재부팅
sudo reboot
Link to this sectionPyTorch 및 Torchvision 설치#
위의 Ultralytics 설치 과정에서 Torch와 Torchvision이 설치됩니다. 하지만 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반의 Jetson 플랫폼과 호환되지 않습니다. 따라서 사전 빌드된 PyTorch pip 휠을 수동으로 설치하고, Torchvision은 소스에서 직접 컴파일하거나 설치해야 합니다.
-
현재 설치된 PyTorch 및 Torchvision 삭제
pip uninstall torch torchvision -
JP5.1.2에 따라
torch 2.1.0및torchvision 0.16.2를 설치합니다.pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
다양한 JetPack 버전에 맞는 모든 PyTorch 버전을 확인하려면 PyTorch for Jetson 페이지를 방문하십시오. PyTorch와 Torchvision의 호환성에 대한 자세한 목록은 PyTorch 및 Torchvision 호환성 페이지를 참조하십시오.
Link to this sectiononnxruntime-gpu 설치#
PyPI에서 호스팅되는 onnxruntime-gpu 패키지에는 Jetson용 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기 작업에 필요합니다.
You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix. Here we will download and install onnxruntime-gpu 1.17.0 with Python3.8 support.
wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whlonnxruntime-gpu는 자동으로 NumPy 버전을 최신 버전으로 되돌립니다. 따라서 다음을 실행하여 NumPy를 1.23.5로 재설치하여 문제를 해결해야 합니다:
pip install numpy==1.23.5
Link to this sectionNVIDIA Jetson에서 TensorRT 사용#
Ultralytics에서 지원하는 모든 모델 내보내기 형식 중, TensorRT는 NVIDIA Jetson 장치에서 가장 높은 추론 성능을 제공하며 Jetson 배포에 가장 권장되는 형식입니다. 설정 지침 및 고급 사용법은 전용 TensorRT 통합 가이드를 참조하십시오.
Link to this section모델을 TensorRT로 변환 및 추론 실행#
PyTorch 형식의 YOLO26n 모델이 TensorRT로 변환되어 내보낸 모델로 추론을 실행합니다.
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo26n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")모델을 다른 형식으로 내보낼 때 추가 인수를 확인하려면 내보내기 페이지를 방문하십시오.
Link to this sectionNVIDIA Deep Learning Accelerator (DLA) 사용#
NVIDIA Deep Learning Accelerator (DLA)는 NVIDIA Jetson 장치에 내장된 특수 하드웨어 구성 요소로, 에너지 효율성과 성능을 위해 딥러닝 추론을 최적화합니다. GPU에서 작업을 오프로딩함으로써(더 집중적인 프로세스를 위해 GPU 여유 확보), DLA는 높은 처리량을 유지하면서 전력 소비를 낮춰 임베디드 시스템 및 실시간 AI 애플리케이션에 이상적입니다.
DLA는 TensorRT 11.0에서 지원되지 않으며 이후 릴리스에서 다시 지원될 예정이므로, DLA 내보내기에는 TensorRT 10.x가 필요합니다. JetPack 6.x/7.x에서는 DLA를 사용하려면 TensorRT 10.x 빌드로 내보내거나, TensorRT 11.0 엔진에 GPU를 사용하십시오.
다음 Jetson 장치에는 DLA 하드웨어가 장착되어 있습니다:
| Jetson 장치 | DLA 코어 | DLA 최대 주파수 |
|---|---|---|
| Jetson AGX Orin 시리즈 | 2 | 1.6 GHz |
| Jetson Orin NX 16GB | 2 | 614 MHz |
| Jetson Orin NX 8GB | 1 | 614 MHz |
| Jetson AGX Xavier 시리즈 | 2 | 1.4 GHz |
| Jetson Xavier NX 시리즈 | 2 | 1.1 GHz |
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True) # dla:0 or dla:1 corresponds to the DLA cores
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")DLA 내보내기를 사용할 때, 일부 레이어는 DLA 실행을 지원하지 않아 GPU로 대체(fallback)될 수 있습니다. 이 대체 과정에서 추가적인 지연 시간이 발생하여 전체 추론 성능에 영향을 줄 수 있습니다. 따라서 DLA는 전체적으로 GPU에서 실행되는 TensorRT와 비교하여 추론 지연 시간을 줄이기 위해 설계된 것이 아닙니다. 오히려 처리량을 증가시키고 에너지 효율성을 높이는 것이 주된 목적입니다.
Link to this sectionNVIDIA Jetson YOLO11/ YOLO26 벤치마크#
YOLO11/ YOLO26 벤치마크는 Ultralytics 팀이 11가지 모델 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch)에서 속도와 정확도를 측정했습니다. 벤치마크는 NVIDIA Jetson AGX Thor Developer Kit, NVIDIA Jetson AGX Orin Developer Kit (64GB), NVIDIA Jetson Orin Nano Super Developer Kit 및 Jetson Orin NX 16GB 장치로 구동되는 Seeed Studio reComputer J4012에서 기본 입력 이미지 크기 640을 사용하여 FP32 정밀도로 실행되었습니다.
Link to this section비교 차트#
모든 모델 내보내기가 NVIDIA Jetson에서 작동하지만, 아래 비교 차트에는 PyTorch, TorchScript, TensorRT만 포함했습니다. 이들은 Jetson의 GPU를 활용하여 최상의 결과를 보장하기 때문입니다. 다른 모든 내보내기 형식은 CPU만 활용하며 성능이 위 세 가지보다 우수하지 않습니다. 이 차트 이후 섹션에서 모든 내보내기에 대한 벤치마크를 확인할 수 있습니다.
Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#
Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#
Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#
Link to this sectionNVIDIA Jetson Orin NX 16GB#
Link to this section상세 비교 테이블#
아래 표는 11가지 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch)에 걸친 5가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)에 대한 벤치마크 결과를 나타내며, 각 조합에 대한 상태, 크기, mAP50-95(B) 메트릭 및 추론 시간을 제공합니다.
Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#
| 형식 | 상태 | 디스크 크기 (MB) | mAP50-95(B) | 추론 시간(ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4798 | 7.39 |
| TorchScript | ✅ | 9.8 | 0.4789 | 4.21 |
| ONNX | ✅ | 9.5 | 0.4767 | 6.58 |
| OpenVINO | ✅ | 10.1 | 0.4794 | 17.50 |
| TensorRT (FP32) | ✅ | 13.9 | 0.4791 | 1.90 |
| TensorRT (FP16) | ✅ | 7.6 | 0.4797 | 1.39 |
| TensorRT (INT8) | ✅ | 6.5 | 0.4273 | 1.52 |
| TF SavedModel | ✅ | 25.7 | 0.4764 | 47.24 |
| TF GraphDef | ✅ | 9.5 | 0.4764 | 45.98 |
| TF Lite | ✅ | 9.9 | 0.4764 | 182.04 |
| MNN | ✅ | 9.4 | 0.4784 | 21.83 |
Ultralytics 8.4.7을 사용하여 벤치마킹했습니다.
추론 시간은 전처리/후처리 과정을 포함하지 않습니다.
Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#
| 형식 | 상태 | 디스크 크기 (MB) | mAP50-95(B) | 추론 시간(ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4790 | 11.58 |
| TorchScript | ✅ | 9.8 | 0.4770 | 4.60 |
| ONNX | ✅ | 9.5 | 0.4770 | 9.87 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 28.80 |
| TensorRT (FP32) | ✅ | 11.5 | 0.0450 | 4.18 |
| TensorRT (FP16) | ✅ | 7.9 | 0.0450 | 2.62 |
| TensorRT (INT8) | ✅ | 5.4 | 0.4640 | 2.30 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 71.10 |
| TF GraphDef | ✅ | 9.5 | 0.4760 | 70.02 |
| TF Lite | ✅ | 9.9 | 0.4760 | 227.94 |
| MNN | ✅ | 9.4 | 0.4760 | 32.46 |
| NCNN | ✅ | 9.3 | 0.4810 | 29.93 |
Ultralytics 8.4.32 버전으로 벤치마킹되었습니다
추론 시간은 전처리/후처리 과정을 포함하지 않습니다.
Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#
| 형식 | 상태 | 디스크 크기 (MB) | mAP50-95(B) | 추론 시간(ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4790 | 15.60 |
| TorchScript | ✅ | 9.8 | 0.4770 | 12.60 |
| ONNX | ✅ | 9.5 | 0.4760 | 15.76 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 56.23 |
| TensorRT (FP32) | ✅ | 11.3 | 0.4770 | 7.53 |
| TensorRT (FP16) | ✅ | 8.1 | 0.4800 | 4.57 |
| TensorRT (INT8) | ✅ | 5.3 | 0.4490 | 3.80 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 118.33 |
| TF GraphDef | ✅ | 9.5 | 0.4760 | 116.30 |
| TF Lite | ✅ | 9.9 | 0.4760 | 286.00 |
| MNN | ✅ | 9.4 | 0.4760 | 68.77 |
| NCNN | ✅ | 9.3 | 0.4810 | 47.50 |
Ultralytics 8.4.33 버전으로 벤치마킹함
추론 시간은 전처리/후처리 과정을 포함하지 않습니다.
Link to this sectionNVIDIA Jetson Orin NX 16GB#
| 형식 | 상태 | 디스크 크기 (MB) | mAP50-95(B) | 추론 시간(ms/im) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.3 | 0.4799 | 13.90 |
| TorchScript | ✅ | 9.8 | 0.4787 | 11.60 |
| ONNX | ✅ | 9.5 | 0.4763 | 14.18 |
| OpenVINO | ✅ | 9.6 | 0.4819 | 40.19 |
| TensorRT (FP32) | ✅ | 11.4 | 0.4770 | 7.01 |
| TensorRT (FP16) | ✅ | 8.0 | 0.4789 | 4.13 |
| TensorRT (INT8) | ✅ | 5.5 | 0.4489 | 3.49 |
| TF SavedModel | ✅ | 24.6 | 0.4764 | 92.34 |
| TF GraphDef | ✅ | 9.5 | 0.4764 | 92.06 |
| TF Lite | ✅ | 9.9 | 0.4764 | 254.43 |
| MNN | ✅ | 9.4 | 0.4760 | 48.55 |
| NCNN | ✅ | 9.3 | 0.4805 | 34.31 |
Ultralytics 8.4.33 버전으로 벤치마킹함
추론 시간은 전처리/후처리 과정을 포함하지 않습니다.
다양한 버전의 NVIDIA Jetson 하드웨어에서 실행되는 Seeed Studio의 추가 벤치마킹 작업을 확인해 보십시오.
Link to this section결과 재현하기#
모든 내보내기 형식에서 위 Ultralytics 벤치마크 결과를 재현하려면 다음 코드를 실행하십시오:
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)벤치마크 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크 실행 시점의 시스템 부하에 따라 달라질 수 있습니다. 가장 신뢰할 수 있는 결과를 얻으려면 data='coco.yaml'(5000개의 검증 이미지)과 같이 이미지가 많은 데이터셋을 사용하십시오.
Link to this sectionNVIDIA Jetson 사용 시 모범 사례#
NVIDIA Jetson을 사용할 때 YOLO26을 실행하는 NVIDIA Jetson에서 최고의 성능을 구현하기 위해 따라야 할 몇 가지 모범 사례가 있습니다.
-
최대 전원 모드 활성화
Jetson에서 최대 전원 모드를 활성화하면 모든 CPU 및 GPU 코어가 켜져 있는지 확인할 수 있습니다.
sudo nvpmodel -m 0 -
Jetson 클록 활성화
Jetson 클록을 활성화하면 모든 CPU 및 GPU 코어가 최대 주파수로 작동합니다.
sudo jetson_clocks -
Jetson 통계 애플리케이션 설치
jetson stats 애플리케이션을 사용하여 시스템 구성 요소의 온도를 모니터링하고 CPU, GPU, RAM 사용량 확인, 전원 모드 변경, 최대 클록 설정, JetPack 정보 확인 등 기타 시스템 세부 정보를 확인할 수 있습니다.
sudo apt update sudo pip install jetson-stats sudo reboot jtop
Link to this sectionNVIDIA Jetson을 위한 메모리 최적화 팁#
사용 가능한 메모리는 종종 Jetson 장치, 특히 Jetson Orin Nano (8 GB) 또는 Orin NX 8 GB와 같은 메모리가 낮은 변형 모델에서 제한 요소가 됩니다. 아래 팁은 수백 메가바이트를 절약하고 더 큰 YOLO 모델을 실행하거나 추가 병렬 워크로드를 지원할 수 있게 해주는 실용적이고 위험 부담이 낮은 변경 사항입니다. 종합적인 내용은 NVIDIA의 Jetson 메모리 효율성 극대화 블로그를 참조하십시오.
Link to this section헤드리스(GUI 없음) 부팅으로 전환#
Jetson이 SSH를 통해 연결되어 있거나 디스플레이가 연결되지 않은 상태로 운영 환경에서 실행 중인 경우, 데스크톱 환경과 디스플레이 서버를 제거하면 최대 865 MB의 RAM을 복구할 수 있습니다:
sudo systemctl set-default multi-user.target
sudo reboot나중에 데스크톱을 복원하려면:
sudo systemctl set-default graphical.target
sudo rebootLink to this section사용하지 않는 시스템 서비스 비활성화#
필수적이지 않은 백그라운드 서비스(Bluetooth, 연결 관리자, 사용하지 않는 하드웨어 데몬)는 합쳐서 약 32 MB를 소비합니다. 활성 서비스를 나열하고 배포에 필요하지 않은 서비스를 비활성화하십시오:
# List running services
systemctl list-units --type=service --state=running
# Disable a service
sudo systemctl disable SERVICE_NAMELink to this section메모리 사용량 프로파일링#
최적화하기 전에 실제로 RAM을 소비하는 프로세스를 식별하십시오. procrank는 PSS(Proportional Set Size)별로 프로세스를 정렬하며, 이는 RSS(Resident Set Size, 프로세스가 매핑한 총 물리적 RAM 페이지(다른 프로세스와 공유된 페이지 포함))보다 프로세스당 실제 메모리 점유율을 더 정확하게 반영합니다:
git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrank프로세스별 GPU 및 NvMap(CUDA/비디오 파이프라인) 할당을 보려면 다음을 실행하십시오:
sudo cat /sys/kernel/debug/nvmap/iovmm/clientsLink to this section프로덕션 환경에서 디스플레이 없이 추론 실행#
실시간 미리보기가 필요 없는 추론 파이프라인의 경우 디스플레이 관련 구성 요소(Tiler, OSD, DisplaySink)를 비활성화하면 파이프라인만으로 200 MB 이상을 절약할 수 있습니다. Ultralytics YOLO에서는 뷰어를 억제하고 결과를 대신 디스크에 기록하십시오:
from ultralytics import YOLO
model = YOLO("yolo11n.engine")
# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)Link to this section누적 효과#
| 최적화 | 절약된 예상 메모리 |
|---|---|
| 데스크톱 GUI 비활성화 | ~865 MB |
| 사용하지 않는 OS 서비스 비활성화 | ~32 MB |
| 헤드리스 추론 파이프라인(디스플레이 없음) | ~200+ MB |
| 합계 (쉽게 얻을 수 있는 이득) | ~1 GB+ |
이러한 변경 사항을 결합하는 것은 메모리 제약이 있는 장치에서 TensorRT INT8 모델을 타겟팅할 때 특히 유용하며, 더 큰 모델 변형을 메모리에 맞출 수 있는지 여부를 결정짓는 차이가 될 수 있습니다.
Link to this section다음 단계#
추가적인 학습 및 지원이 필요하시면 Ultralytics YOLO26 Docs를 참조하십시오.
Link to this sectionFAQ#
Link to this sectionNVIDIA Jetson 장치에 Ultralytics YOLO26을 어떻게 배포합니까?#
NVIDIA Jetson 장치에 Ultralytics YOLO26을 배포하는 과정은 간단합니다. 먼저 NVIDIA JetPack SDK로 Jetson 장치를 플래싱하십시오. 그런 다음 사전 빌드된 Docker 이미지를 사용하여 빠르게 설정하거나 필요한 패키지를 수동으로 설치하십시오. 각 접근 방식에 대한 자세한 단계는 Quick Start with Docker 및 Start with Native Installation 섹션에서 확인할 수 있습니다.
Link to this sectionNVIDIA Jetson 장치에서 YOLO11 모델의 성능 벤치마크는 어떻게 됩니까?#
YOLO11 모델은 다양한 NVIDIA Jetson 장치에서 벤치마크되었으며 성능이 크게 향상되었습니다. 예를 들어, TensorRT 형식은 최고의 추론 성능을 제공합니다. Detailed Comparison Tables 섹션의 표는 다양한 모델 형식 전반에 걸친 mAP50-95 및 추론 시간과 같은 성능 지표에 대한 포괄적인 정보를 제공합니다.
Link to this sectionNVIDIA Jetson에 YOLO26을 배포할 때 왜 TensorRT를 사용해야 합니까?#
TensorRT는 최적의 성능을 제공하므로 NVIDIA Jetson에 YOLO26 모델을 배포할 때 강력히 권장됩니다. Jetson의 GPU 기능을 활용하여 추론 속도를 가속화함으로써 최대의 효율성과 속도를 보장합니다. TensorRT로 변환하고 추론을 실행하는 방법에 대한 자세한 내용은 Use TensorRT on NVIDIA Jetson 섹션을 참조하십시오.
Link to this sectionNVIDIA Jetson에 PyTorch와 Torchvision을 어떻게 설치합니까?#
NVIDIA Jetson에 PyTorch와 Torchvision을 설치하려면 먼저 pip를 통해 설치되었을 수 있는 기존 버전을 삭제하십시오. 그 다음, Jetson의 ARM64 아키텍처와 호환되는 PyTorch 및 Torchvision 버전을 수동으로 설치하십시오. 이 과정에 대한 자세한 지침은 Install PyTorch and Torchvision 섹션에 제공되어 있습니다.
Link to this sectionYOLO26을 사용할 때 NVIDIA Jetson에서 성능을 극대화하기 위한 모범 사례는 무엇입니까?#
NVIDIA Jetson에서 YOLO26의 성능을 극대화하려면 다음 모범 사례를 따르십시오:
- 모든 CPU 및 GPU 코어를 활용하려면 MAX Power Mode를 활성화하십시오.
- 모든 코어를 최대 주파수로 실행하려면 Jetson Clocks를 활성화하십시오.
- 시스템 지표를 모니터링하려면 Jetson Stats 애플리케이션을 설치하십시오.
명령어 및 추가 정보는 Best Practices when using NVIDIA Jetson 섹션을 참조하십시오.
Link to this section더 큰 YOLO 모델을 실행하기 위해 NVIDIA Jetson에서 메모리를 확보하려면 어떻게 해야 합니까?#
가용 RAM은 메모리가 적은 Jetson 장치에서 종종 병목 현상의 원인이 됩니다. 총 1GB 이상을 확보할 수 있는 세 가지 간단한 방법은 다음과 같습니다:
- 헤드리스 부팅으로 전환 (
sudo systemctl set-default multi-user.target)하여 데스크톱 GUI를 제거하십시오 (~865 MB 확보). - Bluetooth나 연결 관리자와 같이 사용하지 않는 서비스를 비활성화하십시오 (~32 MB 확보).
- Run inference without a display by setting
show=Falsein your YOLOpredictcall, which avoids allocating display pipeline memory (~200+ MB saved).
procrank를 사용하여 프로세스별 RAM 사용량을 프로파일링하고 sudo cat /sys/kernel/debug/nvmap/iovmm/clients를 사용하여 GPU 할당을 조사하십시오. 자세한 내용은 Memory Optimization Tips 섹션을 참조하십시오.
Link to this section왜 JetPack 6에서 TensorRT INT8 내보내기가 end2end를 비활성화합니까?#
JetPack 6와 함께 제공된 TensorRT 10.3.0에는 end2end=True가 활성화되었을 때 INT8 엔진 빌드를 방해하는 알려진 문제가 있습니다. Ultralytics는 이 조합을 감지하면 내보내기가 성공하도록 자동으로 end2end 브랜치를 비활성화합니다.
end2end INT8 내보내기를 복구하려면 TensorRT를 최신 버전(예: 10.7.0 이상)으로 업그레이드하십시오:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrt업그레이드 후 내보내기를 다시 실행하십시오. 자세한 내용은 GitHub issue #23841을 참조하십시오.