빠른 시작 가이드: NVIDIA Jetson Ultralytics YOLO11

Q: What are the best practices for maximizing performance on NVIDIA Jetson when using YOLO11?

YOLO11 을 사용하여 NVIDIA Jetson의 성능을 극대화하려면 다음 모범 사례를 따르십시오: 명령 및 추가 세부 정보는 NVIDIA Jetson 사용 시 모범 사례 섹션을 참조하십시오.

이 포괄적인 가이드는 NVIDIA Jetson 장치에 Ultralytics YOLO11 배포에 대한 자세한 안내를 제공합니다. 또한 작고 강력한 장치에서 YOLO11 의 기능을 입증하기 위한 성능 벤치마크도 소개합니다.

신제품 지원

이 가이드는 가장 인기 있는 AI 모델을 원활하게 실행할 수 있도록 이전 버전보다 1.7배 향상된 최대 67 TOPS의 AI 성능을 제공하는 최신 NVIDIA Jetson Orin Nano 슈퍼 개발자 키트로 업데이트되었습니다.

Watch: NVIDIA JETSON 장치에서 Ultralytics YOLO11 사용하는 방법

NVIDIA Jetson 에코시스템

참고

이 가이드는 안정적인 최신 JetPack 릴리스 JP6.1을 실행하는 NVIDIA Jetson Orin Nano 슈퍼 개발자 키트, JetPack 릴리스 JP6.0을 실행하는 NVIDIA Jetson Orin NX 16GB 기반 Seeed Studio 재컴퓨터 J4012, JetPack 릴리스 JP5.1.3 기반 Seeed Studio 재컴퓨터 J1020 v2, JetPack 릴리스 JP4.6.1 기반 NVIDIA Jetson Nano 4GB로 테스트되었습니다. 최신 및 레거시를 포함한 모든 NVIDIA Jetson 하드웨어 라인업에서 작동할 것으로 예상됩니다.

NVIDIA Jetson이란?

NVIDIA Jetson은 엣지 디바이스에 가속화된 AI(인공 지능) 컴퓨팅을 제공하도록 설계된 임베디드 컴퓨팅 보드 시리즈입니다. 이 작고 강력한 장치는 NVIDIA 의 GPU 아키텍처를 기반으로 구축되었으며 클라우드 컴퓨팅 리소스에 의존할 필요 없이 장치에서 직접 복잡한 AI 알고리즘과 딥 러닝 모델을 실행할 수 있습니다. Jetson 보드는 로봇 공학, 자율 주행 차량, 산업 자동화 및 짧은 지연 시간과 높은 효율성으로 로컬에서 AI 추론을 수행해야 하는 기타 애플리케이션에서 자주 사용됩니다. 또한 이러한 보드는 ARM64 아키텍처를 기반으로 하며 기존 GPU 컴퓨팅 장치에 비해 저전력으로 실행됩니다.

NVIDIA Jetson 시리즈 비교

Jetson Orin은 이전 세대에 비해 대폭 향상된 AI 성능을 제공하는 NVIDIA 암페어 아키텍처를 기반으로 하는 NVIDIA Jetson 제품군의 최신 버전입니다. 아래 표는 에코시스템에 있는 몇 가지 Jetson 디바이스를 비교한 것입니다.

	Jetson AGX Orin 64GB	젯슨 오린 NX 16GB	젯슨 오린 나노 슈퍼	Jetson AGX Xavier	젯슨 자비에 NX	젯슨 나노
AI 성능	275 TOPS	100 TOPS	67 TOP	32 TOPS	21 TOPS	472 GFLOPS
GPU	2048코어 NVIDIA 암페어 아키텍처 GPU (64 Tensor 코어)	1024코어 NVIDIA 암페어 아키텍처 GPU (32 Tensor 코어)	1024코어 NVIDIA 암페어 아키텍처 GPU (32 Tensor 코어)	512코어 NVIDIA 볼타 아키텍처 GPU (64 Tensor 코어)	384코어 NVIDIA Volta™ 아키텍처 GPU , 48개의 Tensor 코어 탑재	128코어 NVIDIA 맥스웰™ 아키텍처 GPU
GPU 최대 주파수	1.3GHz	918MHz	1020MHz	1377 MHz	1100 MHz	921MHz
CPU	12코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 3MB L2 + 6MB L3	8코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 2MB L2 + 4MB L3	6코어 Arm® Cortex®-A78AE v8.2 64비트 CPU 1.5MB L2 + 4MB L3	8코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 8MB L2 + 4MB L3	6코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 6MB L2 + 4MB L3	쿼드 코어 Arm® Cortex®-A57 MPCore 프로세서
CPU 최대 주파수	2.2 GHz	2.0 GHz	1.7 GHz	2.2 GHz	1.9GHz	1.43GHz
메모리	64GB 256비트 LPDDR5 204.8GB/s	16GB 128비트 LPDDR5 102.4GB/s	8GB 128비트 LPDDR5 102GB/s	32GB 256비트 LPDDR4x 136.5GB/s	8GB 128비트 LPDDR4x 59.7GB/s	4GB 64비트 LPDDR4 25.6GB/s"

자세한 비교 표는 공식 NVIDIA Jetson 페이지의 기술 사양 섹션에서 확인할 수 있습니다.

NVIDIA 제트팩이란 무엇인가요?

Jetson 모듈을 구동하는 NVIDIA JetPack SDK는 가장 포괄적인 솔루션으로, 엔드투엔드 가속화된 AI 애플리케이션 구축을 위한 완벽한 개발 환경을 제공하고 출시 시간을 단축합니다. JetPack에는 부트로더, Linux 커널, 우분투 데스크톱 환경 및 GPU 컴퓨팅, 멀티미디어, 그래픽 및 컴퓨터 비전 가속화를 위한 전체 라이브러리 세트가 포함된 Jetson Linux가 포함되어 있습니다. 또한 호스트 컴퓨터와 개발자 키트 모두를 위한 샘플, 설명서, 개발자 도구가 포함되어 있으며 스트리밍 비디오 분석을 위한 DeepStream, 로보틱스를 위한 Isaac, 대화형 AI를 위한 Riva와 같은 상위 수준의 SDK를 지원합니다.

플래시 제트팩 NVIDIA Jetson

NVIDIA Jetson 장치를 구입한 후 첫 번째 단계는 NVIDIA JetPack을 장치에 플래시하는 것입니다. NVIDIA Jetson 장치를 플래시하는 방법에는 여러 가지가 있습니다.

공식 개발 키트( NVIDIA )를 소유하고 있는 경우, Jetson Orin Nano 개발자 키트와 같은 이미지를 다운로드하고 장치 부팅을 위해 JetPack이 포함된 SD 카드를 준비할 수 있습니다.
다른 NVIDIA 개발 키트를 소유하고 있는 경우 SDK 관리자를 사용하여 JetPack을 장치에 플래시할 수 있습니다.
씨드 스튜디오 재컴퓨터 J4012 장치를 소유하고 있는 경우 JetPack을 포함된 SSD에 플래시할 수 있으며, 씨드 스튜디오 재컴퓨터 J1020 v2 장치를 소유하고 있는 경우 JetPack을 eMMC/ SSD에 플래시할 수 있습니다.
NVIDIA Jetson 모듈로 구동되는 다른 타사 장치를 소유하고 있는 경우, 명령줄 플래싱을 따르는 것이 좋습니다.

참고

위의 방법 3과 4의 경우, 시스템을 플래시하고 디바이스를 부팅한 후 디바이스 터미널에서 "sudo apt update && sudo apt install nvidia-jetpack -y"를 입력하여 필요한 나머지 JetPack 구성 요소를 모두 설치하세요.

젯슨 디바이스 기반의 젯팩 지원

아래 표에는 다양한 NVIDIA Jetson 장치에서 지원되는 NVIDIA JetPack 버전이 나와 있습니다.

	제트팩 4	제트팩 5	제트팩 6
젯슨 나노	✅	❌	❌
Jetson TX2	✅	❌	❌
젯슨 자비에 NX	✅	✅	❌
Jetson AGX Xavier	✅	✅	❌
Jetson AGX Orin	❌	✅	✅
젯슨 오린 NX	❌	✅	✅
젯슨 오린 나노	❌	✅	✅

Docker로 빠르게 시작하기

Ultralytics YOLO11 NVIDIA Jetson을 시작하는 가장 빠른 방법은 미리 빌드된 Jetson용 도커 이미지로 실행하는 것입니다. 위의 표를 참조하여 소유하고 있는 Jetson 장치에 따라 JetPack 버전을 선택하세요.

제트팩 4제트팩 5제트팩 6

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

이 작업이 완료되면 NVIDIA Jetson 섹션의 TensorRT 사용으로 건너뜁니다.

기본 설치로 시작하기

Docker를 사용하지 않고 기본 설치하려면 아래 단계를 참조하세요.

JetPack 6.1에서 실행

Ultralytics 패키지 설치

여기서는 선택적 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하여 모델을 다른 형식으로 내보내기 위해 PyTorch 모델을 다른 형식으로 내보낼 수 있습니다. NVIDIA TensorRT 내보내기에 주로 초점을 맞출 것입니다. TensorRT 을 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드
```
sudo apt update
sudo apt install python3-pip -y
pip install -U pip
```
설치 ultralytics 선택적 종속성이 있는 pip 패키지
```
pip install ultralytics[export]
```
디바이스 재부팅
```
sudo reboot
```

PyTorch 및 토치비전 설치

위의 ultralytics 설치는 Torch 및 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반인 Jetson 플랫폼에서 실행하기에는 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip 휠을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

설치 torch 2.5.0 그리고 torchvision 0.20 JP6.1에 따르면

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

참고

다른 JetPack 버전에 대한 모든 다른 버전에 액세스하려면 PyTorch 의 Jetson용 페이지 ( PyTorch )를 방문하세요. 자세한 목록은 PyTorch, Torchvision 호환성 페이지에서PyTorch 및 Torchvision 호환성 페이지를 참조하세요.

설치 cuSPARSELt 의 종속성 문제를 해결하려면 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

설치 `onnxruntime-gpu`

그리고 onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

모두 다른 onnxruntime-gpu 다른 JetPack 및 Python 버전에 해당하는 패키지가 나열됩니다. 여기. 하지만 여기서는 다운로드하여 설치합니다. onnxruntime-gpu 1.20.0 와 함께 Python3.10 지원.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

참고

onnxruntime-gpu 를 실행하면 numpy 버전이 자동으로 최신 버전으로 되돌아갑니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 를 실행하여 문제를 해결합니다:

pip install numpy==1.23.5

JetPack 5.1.2에서 실행

Ultralytics 패키지 설치

여기서는 PyTorch 모델을 다른 다른 형식으로 내보낼 수 있도록 선택적 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하겠습니다. NVIDIA TensorRT 내보내기에 주로 초점을 맞출 것입니다. TensorRT 을 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드
```
sudo apt update
sudo apt install python3-pip -y
pip install -U pip
```
설치 ultralytics 선택적 종속성이 있는 pip 패키지
```
pip install ultralytics[export]
```
디바이스 재부팅
```
sudo reboot
```

PyTorch 및 토치비전 설치

위의 ultralytics 설치는 Torch 및 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반인 Jetson 플랫폼에서 실행하기에는 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip 휠을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

현재 설치된 PyTorch 및 Torchvision 제거
```
pip uninstall torch torchvision
```

설치 torch 2.2.0 그리고 torchvision 0.17.2 JP5.1.2에 따라

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl

참고

다른 JetPack 버전에 대한 모든 다른 버전에 액세스하려면 PyTorch 의 Jetson용 페이지 ( PyTorch )를 방문하세요. 자세한 목록은 PyTorch, Torchvision 호환성 페이지에서PyTorch 및 Torchvision 호환성 페이지를 참조하세요.

설치 `onnxruntime-gpu`

그리고 onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

모두 다른 onnxruntime-gpu 다른 JetPack 및 Python 버전에 해당하는 패키지가 나열됩니다. 여기. 하지만 여기서는 다운로드하여 설치합니다. onnxruntime-gpu 1.17.0 와 함께 Python3.8 지원.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

참고

onnxruntime-gpu 를 실행하면 numpy 버전이 자동으로 최신 버전으로 되돌아갑니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 를 실행하여 문제를 해결합니다:

pip install numpy==1.23.5

NVIDIA Jetson에서 TensorRT 사용

Ultralytics 에서 지원하는 모든 모델 내보내기 형식 중 TensorRT 은 NVIDIA Jetson 장치와 함께 작업할 때 최고의 추론 성능을 제공하며, Jetson과 함께 TensorRT 을 사용하는 것이 좋습니다. 자세한 내용은 TensorRT 에서 확인할 수 있습니다.

모델을 TensorRT 로 변환하고 추론 실행

내보낸 모델로 추론을 실행하기 위해 PyTorch 형식의 YOLO11n 모델을 TensorRT 으로 변환합니다.

예

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

다른 모델 형식으로 모델을 내보낼 때 추가 인수를 사용하려면 내보내기 페이지를 방문하세요.

NVIDIA 딥러닝 액셀러레이터(DLA) 사용

NVIDIA 딥 러닝 액셀러레이터(DLA) 는 에너지 효율과 성능을 위해 딥 러닝 추론을 최적화하는 NVIDIA Jetson 장치에 내장된 특수 하드웨어 구성 요소입니다. GPU 에서 작업을 오프로드(보다 집중적인 프로세스를 위해 여유 공간을 확보)함으로써 DLA는 높은 처리량을 유지하면서 낮은 전력 소비로 모델을 실행할 수 있어 임베디드 시스템 및 실시간 AI 애플리케이션에 이상적입니다.

다음 Jetson 장치에는 DLA 하드웨어가 장착되어 있습니다:

Jetson 장치	DLA 코어	DLA 최대 주파수
젯슨 AGX 오린 시리즈	2	1.6 GHz
젯슨 오린 NX 16GB	2	614MHz
젯슨 오린 NX 8GB	1	614MHz
젯슨 AGX 자비에 시리즈	2	1.4GHz
젯슨 자비에 NX 시리즈	2	1.1 GHz

예

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

DLA 내보내기를 사용할 때 일부 계층은 DLA에서 실행이 지원되지 않을 수 있으며 GPU 로 폴백되어 실행됩니다. 이 폴백은 추가적인 지연 시간을 발생시키고 전반적인 추론 성능에 영향을 미칠 수 있습니다. 따라서 DLA는 GPU 에서 전적으로 실행되는 TensorRT 에 비해 추론 지연 시간을 줄이기 위한 목적으로 설계되지 않았습니다. 대신 처리량을 늘리고 에너지 효율성을 개선하는 것이 주된 목적입니다.

NVIDIA 젯슨 오린 YOLO11 벤치마크

YOLO11 Ultralytics 벤치마크는 PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel , TF GraphDef , TF Lite, PaddlePaddle, NCNN 에서 속도와 정확도를 측정하는 10가지 모델 포맷으로 실행되었습니다. 벤치마크는 기본 입력 이미지 크기가 640인 FP32 정밀도의 Jetson Orin NX 16GB 장치로 구동되는 NVIDIA Jetson Orin 나노 슈퍼 개발자 키트와 Seeed Studio 재컴퓨터 J4012에서 모두 실행되었습니다.

비교 차트

모든 모델 내보내기가 NVIDIA Jetson에서 작동하지만 아래 비교 차트에는 PyTorch, TorchScript, TensorRT 만 포함했는데, 이는 Jetson에서 GPU 을 사용하며 최상의 결과를 보장하기 때문입니다. 다른 모든 내보내기는 CPU 만 사용하며 성능이 위의 세 가지보다 좋지 않습니다. 이 차트 뒤의 섹션에서 모든 내보내기에 대한 벤치마크를 찾을 수 있습니다.

NVIDIA 젯슨 오린 나노 슈퍼 개발자 키트

젯슨 오린 나노 슈퍼 벤치마크 — Ultralytics 8.3.51로 벤치마킹했습니다.

NVIDIA 젯슨 오린 NX 16GB

젯슨 오린 NX 16GB 벤치마크 — Ultralytics 8.3.51로 벤치마킹했습니다.

자세한 비교 표

아래 표는 10가지 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel , TF GraphDef , TF Lite, PaddlePaddle, NCNN)에 대한 5가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)의 벤치마크 결과로, 각 조합의 상태, 크기, mAP50-95(B) 메트릭 및 추론 시간을 제공합니다.

NVIDIA 젯슨 오린 나노 슈퍼 개발자 키트

성능

YOLO11nYOLO11sYOLO11mYOLO11lYOLO11x

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	5.4	0.6176	21.3
TorchScript	✅	10.5	0.6100	13.40
ONNX	✅	10.2	0.6100	7.94
OpenVINO	✅	10.4	0.6091	57.36
TensorRT (FP32)	✅	11.9	0.6082	7.60
TensorRT (FP16)	✅	8.3	0.6096	4.91
TensorRT (INT8)	✅	5.6	0.3180	3.91
TF SavedModel	✅	25.8	0.6082	223.98
TF GraphDef	✅	10.3	0.6082	289.95
TF Lite	✅	10.3	0.6082	328.29
PaddlePaddle	✅	20.4	0.6082	530.46
MNN	✅	10.1	0.6120	74.75
NCNN	✅	10.2	0.6106	46.12

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	18.4	0.7526	22.00
TorchScript	✅	36.5	0.7400	21.35
ONNX	✅	36.3	0.7400	13.91
OpenVINO	✅	36.4	0.7391	126.95
TensorRT (FP32)	✅	38.0	0.7400	13.29
TensorRT (FP16)	✅	21.3	0.7431	7.30
TensorRT (INT8)	✅	12.2	0.3243	5.25
TF SavedModel	✅	91.1	0.7400	406.73
TF GraphDef	✅	36.4	0.7400	629.80
TF Lite	✅	36.4	0.7400	953.98
PaddlePaddle	✅	72.5	0.7400	1311.67
MNN	✅	36.2	0.7392	187.66
NCNN	✅	36.2	0.7403	122.02

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	38.8	0.7598	33.00
TorchScript	✅	77.3	0.7643	48.17
ONNX	✅	76.9	0.7641	29.31
OpenVINO	✅	77.1	0.7642	313.49
TensorRT (FP32)	✅	78.7	0.7641	28.21
TensorRT (FP16)	✅	41.8	0.7653	13.99
TensorRT (INT8)	✅	23.2	0.4194	9.58
TF SavedModel	✅	192.7	0.7643	802.30
TF GraphDef	✅	77.0	0.7643	1335.42
TF Lite	✅	77.0	0.7643	2842.42
PaddlePaddle	✅	153.8	0.7643	3644.29
MNN	✅	76.8	0.7648	503.90
NCNN	✅	76.8	0.7674	298.78

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	49.0	0.7475	43.00
TorchScript	✅	97.6	0.7250	62.94
ONNX	✅	97.0	0.7250	36.33
OpenVINO	✅	97.3	0.7226	387.72
TensorRT (FP32)	✅	99.1	0.7250	35.59
TensorRT (FP16)	✅	52.0	0.7265	17.57
TensorRT (INT8)	✅	31.0	0.4033	12.37
TF SavedModel	✅	243.3	0.7250	1116.20
TF GraphDef	✅	97.2	0.7250	1603.32
TF Lite	✅	97.2	0.7250	3607.51
PaddlePaddle	✅	193.9	0.7250	4890.90
MNN	✅	96.9	0.7222	619.04
NCNN	✅	96.9	0.7252	352.85

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	109.3	0.8288	81.00
TorchScript	✅	218.1	0.8308	113.49
ONNX	✅	217.5	0.8308	75.20
OpenVINO	✅	217.8	0.8285	508.12
TensorRT (FP32)	✅	219.5	0.8307	67.32
TensorRT (FP16)	✅	112.2	0.8248	32.94
TensorRT (INT8)	✅	61.7	0.4854	20.72
TF SavedModel	✅	545.0	0.8308	1048.8
TF GraphDef	✅	217.8	0.8308	2961.8
TF Lite	✅	217.8	0.8308	7898.8
PaddlePaddle	✅	434.8	0.8308	9903.68
MNN	✅	217.3	0.8308	1242.97
NCNN	✅	217.3	0.8304	850.05

Ultralytics 8.3.51로 벤치마킹했습니다.

NVIDIA 젯슨 오린 NX 16GB

성능

YOLO11nYOLO11sYOLO11mYOLO11lYOLO11x

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	5.4	0.6176	19.50
TorchScript	✅	10.5	0.6100	13.03
ONNX	✅	10.2	0.6100	8.44
OpenVINO	✅	10.4	0.6091	40.83
TensorRT (FP32)	✅	11.9	0.6100	8.05
TensorRT (FP16)	✅	8.2	0.6096	4.85
TensorRT (INT8)	✅	5.5	0.3180	4.37
TF SavedModel	✅	25.8	0.6082	185.39
TF GraphDef	✅	10.3	0.6082	244.85
TF Lite	✅	10.3	0.6082	289.77
PaddlePaddle	✅	20.4	0.6082	476.52
MNN	✅	10.1	0.6120	53.37
NCNN	✅	10.2	0.6106	33.55

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	18.4	0.7526	19.00
TorchScript	✅	36.5	0.7400	22.90
ONNX	✅	36.3	0.7400	14.44
OpenVINO	✅	36.4	0.7391	88.70
TensorRT (FP32)	✅	37.9	0.7400	14.13
TensorRT (FP16)	✅	21.6	0.7406	7.55
TensorRT (INT8)	✅	12.2	0.3243	5.63
TF SavedModel	✅	91.1	0.7400	317.61
TF GraphDef	✅	36.4	0.7400	515.99
TF Lite	✅	36.4	0.7400	838.85
PaddlePaddle	✅	72.5	0.7400	1170.07
MNN	✅	36.2	0.7413	125.23
NCNN	✅	36.2	0.7403	68.13

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	38.8	0.7598	36.50
TorchScript	✅	77.3	0.7643	52.55
ONNX	✅	76.9	0.7640	31.16
OpenVINO	✅	77.1	0.7642	208.57
TensorRT (FP32)	✅	78.7	0.7640	30.72
TensorRT (FP16)	✅	41.5	0.7651	14.45
TensorRT (INT8)	✅	23.3	0.4194	10.19
TF SavedModel	✅	192.7	0.7643	590.11
TF GraphDef	✅	77.0	0.7643	998.57
TF Lite	✅	77.0	0.7643	2486.11
PaddlePaddle	✅	153.8	0.7643	3236.09
MNN	✅	76.8	0.7661	335.78
NCNN	✅	76.8	0.7674	188.43

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	49.0	0.7475	46.6
TorchScript	✅	97.6	0.7250	66.54
ONNX	✅	97.0	0.7250	39.55
OpenVINO	✅	97.3	0.7226	262.44
TensorRT (FP32)	✅	99.2	0.7250	38.68
TensorRT (FP16)	✅	51.9	0.7265	18.53
TensorRT (INT8)	✅	30.9	0.4033	13.36
TF SavedModel	✅	243.3	0.7250	850.25
TF GraphDef	✅	97.2	0.7250	1324.60
TF Lite	✅	97.2	0.7250	3191.24
PaddlePaddle	✅	193.9	0.7250	4204.97
MNN	✅	96.9	0.7225	414.41
NCNN	✅	96.9	0.7252	237.74

형식	상태	디스크 크기(MB)	mAP50-95(B)	추론 시간(ms/im)
PyTorch	✅	109.3	0.8288	86.00
TorchScript	✅	218.1	0.8308	122.43
ONNX	✅	217.5	0.8307	77.50
OpenVINO	✅	217.8	0.8285	508.12
TensorRT (FP32)	✅	219.5	0.8307	76.44
TensorRT (FP16)	✅	112.0	0.8309	35.99
TensorRT (INT8)	✅	61.6	0.4854	22.32
TF SavedModel	✅	545.0	0.8308	1470.06
TF GraphDef	✅	217.8	0.8308	2549.78
TF Lite	✅	217.8	0.8308	7025.44
PaddlePaddle	✅	434.8	0.8308	8364.89
MNN	✅	217.3	0.8289	827.13
NCNN	✅	217.3	0.8304	490.29

Ultralytics 8.3.51로 벤치마킹했습니다.

다양한 버전의 NVIDIA Jetson 하드웨어에서 실행되는 Seeed Studio를 통해 더 많은 벤치마킹 결과를 살펴보세요.

결과 재현

모든 내보내기 형식에서 위의 Ultralytics 벤치마크를 재현하려면 다음 코드를 실행하세요:

예

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
results = model.benchmark(data="coco8.yaml", imgsz=640)

# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco8.yaml imgsz=640

벤치마킹 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크를 실행할 당시 시스템의 현재 작업량에 따라 달라질 수 있다는 점에 유의하세요. 가장 신뢰할 수 있는 결과를 얻으려면 많은 수의 이미지가 포함된 데이터 세트를 사용하세요. data='coco8.yaml' (밸 이미지 4개) 또는 data='coco.yaml' (5000 VAL 이미지).

NVIDIA Jetson 사용 시 모범 사례

NVIDIA Jetson을 사용하는 경우, NVIDIA Jetson을 실행하는 YOLO11 에서 성능을 극대화하기 위해 따라야 할 몇 가지 모범 사례가 있습니다.

최대 전력 모드 활성화

Jetson에서 최대 전력 모드를 활성화하면 CPU, GPU 코어가 모두 켜져 있는지 확인합니다.
```
sudo nvpmodel -m 0
```
Jetson 클록 사용

Jetson 클럭을 활성화하면 모든 CPU, GPU 코어가 최대 주파수로 클럭됩니다.
```
sudo jetson_clocks
```
Jetson 통계 애플리케이션 설치

젯슨 통계 애플리케이션을 사용하여 시스템 구성 요소의 온도를 모니터링하고 CPU, GPU, RAM 사용률, 전원 모드 변경, 최대 클럭으로 설정, 젯팩 정보 확인과 같은 기타 시스템 세부 정보를 확인할 수 있습니다.
```
sudo apt update
sudo pip install jetson-stats
sudo reboot
jtop
```

Jetson 통계

다음 단계

NVIDIA Jetson에 YOLO11 을 성공적으로 설정하신 것을 축하드립니다! 추가 학습 및 지원은 Ultralytics YOLO11 문서에서 더 많은 가이드를 확인하세요!

자주 묻는 질문

NVIDIA Jetson 장치에 Ultralytics YOLO11 배포하려면 어떻게 합니까?

NVIDIA Jetson 장치에 Ultralytics YOLO11 배포하는 과정은 간단합니다. 먼저 NVIDIA JetPack SDK로 Jetson 장치를 플래시합니다. 그런 다음 빠른 설정을 위해 사전 빌드된 Docker 이미지를 사용하거나 필요한 패키지를 수동으로 설치합니다. 각 접근 방식에 대한 자세한 단계는 Docker로 빠른 시작 및 기본 설치로 시작 섹션에서 확인할 수 있습니다.

NVIDIA Jetson 장치에서 YOLO11 모델에서 어떤 성능 벤치마크를 기대할 수 있습니까?

YOLO11 모델을 다양한 NVIDIA Jetson 장치에서 벤치마킹한 결과 상당한 성능 향상을 보였습니다. 예를 들어, TensorRT 형식이 최고의 추론 성능을 제공합니다. 세부 비교 표 섹션의 표는 다양한 모델 형식에 걸쳐 mAP50-95 및 추론 시간과 같은 성능 메트릭에 대한 포괄적인 보기를 제공합니다.

NVIDIA Jetson에 YOLO11 배포 시 TensorRT 을 사용해야 하는 이유는 무엇인가요?

TensorRT 은 최적의 성능으로 인해 NVIDIA Jetson에 YOLO11 모델을 배포하는 데 적극 권장됩니다. Jetson의 GPU 기능을 활용하여 추론을 가속화하여 최대의 효율성과 속도를 보장합니다. TensorRT 로 변환하고 추론을 실행하는 방법에 대한 자세한 내용은 NVIDIA Jetson의 TensorRT 사용 섹션에서 확인할 수 있습니다.

NVIDIA Jetson에 PyTorch 및 Torchvision을 설치하려면 어떻게 해야 하나요?

NVIDIA Jetson에 PyTorch 및 Torchvision을 설치하려면 먼저 pip를 통해 설치되었을 수 있는 기존 버전을 모두 제거합니다. 그런 다음 Jetson의 ARM64 아키텍처에 호환되는 PyTorch 및 Torchvision 버전을 수동으로 설치합니다. 이 프로세스에 대한 자세한 지침은 PyTorch 및 Torchvision 설치 섹션에 나와 있습니다.