콘텐츠로 건너뛰기

빠른 시작 가이드: Ultralytics YOLO11과 함께하는 NVIDIA Jetson

이 종합 가이드는 Ultralytics YOLO11을 NVIDIA Jetson 장치에 배포하기 위한 자세한 안내를 제공합니다. 또한 이러한 소형의 강력한 장치에서 YOLO11의 성능을 보여주는 성능 벤치마크를 소개합니다.

신제품 지원

최대 67TOPS의 AI 성능을 제공하는 최신 NVIDIA Jetson Orin Nano Super Developer Kit로 이 가이드를 업데이트했습니다. 이는 이전 제품보다 1.7배 향상된 성능으로 가장 인기 있는 AI 모델을 원활하게 실행할 수 있습니다.



참고: NVIDIA JETSON 장치에서 Ultralytics YOLO11을 사용하는 방법

NVIDIA Jetson 생태계

참고

이 가이드는 최신 안정적인 JetPack 릴리스인 JP6.2를 실행하는 NVIDIA Jetson AGX Orin Developer Kit (64GB), JetPack 릴리스 JP6.1을 실행하는 NVIDIA Jetson Orin Nano Super Developer Kit, JetPack 릴리스 JP6.0/JetPack 릴리스 JP5.1.3을 실행하는 NVIDIA Jetson Orin NX 16GB 기반의 Seeed Studio reComputer J4012 및 JetPack 릴리스 JP4.6.1을 실행하는 NVIDIA Jetson Nano 4GB 기반의 Seeed Studio reComputer J1020 v2에서 테스트되었습니다. 최신 및 레거시를 포함한 모든 NVIDIA Jetson 하드웨어 라인업에서 작동할 것으로 예상됩니다.

NVIDIA Jetson이란 무엇입니까?

NVIDIA Jetson은 가속화된 AI(인공 지능) 컴퓨팅을 엣지 장치에 제공하도록 설계된 임베디드 컴퓨팅 보드 시리즈입니다. 이러한 작고 강력한 장치는 NVIDIA의 GPU 아키텍처를 기반으로 구축되었으며 클라우드 컴퓨팅 리소스에 의존할 필요 없이 복잡한 AI 알고리즘과 딥 러닝 모델을 장치에서 직접 실행할 수 있습니다. Jetson 보드는 로봇 공학, 자율 주행 차량, 산업 자동화 및 낮은 지연 시간과 높은 효율성으로 AI 추론을 로컬에서 수행해야 하는 기타 애플리케이션에 자주 사용됩니다. 또한 이러한 보드는 ARM64 아키텍처를 기반으로 하며 기존 GPU 컴퓨팅 장치에 비해 더 낮은 전력으로 실행됩니다.

NVIDIA Jetson 시리즈 비교

Jetson Orin은 이전 세대에 비해 AI 성능이 크게 향상된 NVIDIA Ampere 아키텍처를 기반으로 하는 NVIDIA Jetson 제품군의 최신 버전입니다. 아래 표는 에코시스템에 있는 몇 가지 Jetson 장치를 비교한 것입니다.

Jetson AGX Orin 64GB Jetson Orin NX 16GB Jetson Orin Nano Super Jetson AGX Xavier Jetson Xavier NX Jetson Nano
AI 성능 275 TOPS 100 TOPS 67 TOPs 32 TOPS 21 TOPS 472 GFLOPS
GPU 64개의 Tensor 코어가 있는 2048코어 NVIDIA Ampere 아키텍처 GPU 32개의 Tensor 코어가 있는 1024코어 NVIDIA Ampere 아키텍처 GPU 32개의 Tensor 코어가 있는 1024코어 NVIDIA Ampere 아키텍처 GPU 64개의 Tensor 코어가 있는 512코어 NVIDIA Volta 아키텍처 GPU 48개의 Tensor 코어가 있는 384코어 NVIDIA Volta™ 아키텍처 GPU 128코어 NVIDIA Maxwell™ 아키텍처 GPU
GPU 최대 주파수 1.3 GHz 918 MHz 1020 MHz 1377 MHz 1100 MHz 921MHz
CPU 12코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 3MB L2 + 6MB L3 8코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 2MB L2 + 4MB L3 6코어 Arm® Cortex®-A78AE v8.2 64비트 CPU 1.5MB L2 + 4MB L3 8코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 8MB L2 + 4MB L3 6코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 6MB L2 + 4MB L3 쿼드 코어 Arm® Cortex®-A57 MPCore 프로세서
CPU 최대 주파수 2.2 GHz 2.0 GHz 1.7 GHz 2.2 GHz 1.9 GHz 1.43GHz
메모리 64GB 256비트 LPDDR5 204.8GB/s 16GB 128비트 LPDDR5 102.4GB/s 8GB 128-bit LPDDR5 102 GB/s 32GB 256비트 LPDDR4x 136.5GB/s 8GB 128비트 LPDDR4x 59.7GB/s 4GB 64비트 LPDDR4 25.6GB/s"

더 자세한 비교표는 기술 사양 섹션의 공식 NVIDIA Jetson 페이지를 참조하십시오.

NVIDIA JetPack이란 무엇입니까?

Jetson 모듈에 전원을 공급하는 NVIDIA JetPack SDK는 엔드 투 엔드 가속화된 AI 애플리케이션 구축을 위한 가장 포괄적인 솔루션이며 시장 출시 시간을 단축합니다. JetPack에는 부트 로더, Linux 커널, Ubuntu 데스크톱 환경 및 GPU 컴퓨팅, 멀티미디어, 그래픽 및 컴퓨터 비전 가속화를 위한 완벽한 라이브러리 세트가 포함된 Jetson Linux가 포함되어 있습니다. 또한 호스트 컴퓨터 및 개발자 키트 모두를 위한 샘플, 문서 및 개발자 도구가 포함되어 있으며 스트리밍 비디오 분석을 위한 DeepStream, 로보틱스를 위한 Isaac, 대화형 AI를 위한 Riva와 같은 더 높은 수준의 SDK를 지원합니다.

NVIDIA Jetson에 JetPack 플래싱

NVIDIA Jetson 장치를 처음 접한 후 가장 먼저 해야 할 일은 NVIDIA JetPack을 장치에 플래싱하는 것입니다. NVIDIA Jetson 장치를 플래싱하는 방법에는 여러 가지가 있습니다.

  1. Jetson Orin Nano 개발자 키트와 같은 공식 NVIDIA 개발 키트를 소유하고 있다면, 이미지를 다운로드하고 JetPack으로 SD 카드를 준비하여 장치를 부팅할 수 있습니다.
  2. 다른 NVIDIA 개발 키트를 소유하고 있다면, SDK Manager를 사용하여 JetPack을 장치에 플래시할 수 있습니다.
  3. Seeed Studio reComputer J4012 장치를 소유하고 있다면, JetPack을 포함된 SSD에 플래시할 수 있습니다. Seeed Studio reComputer J1020 v2 장치를 소유하고 있다면, JetPack을 eMMC/SSD에 플래시할 수 있습니다.
  4. NVIDIA Jetson 모듈로 구동되는 다른 타사 장치를 소유하고 있다면, 명령줄 플래싱을 따르는 것이 좋습니다.

참고

위의 방법 3과 4의 경우, 시스템을 플래시하고 장치를 부팅한 후 장치 터미널에 "sudo apt update && sudo apt install nvidia-jetpack -y"를 입력하여 필요한 모든 나머지 JetPack 구성 요소를 설치하십시오.

Jetson 장치 기반 JetPack 지원

아래 표는 다양한 NVIDIA Jetson 장치에서 지원하는 NVIDIA JetPack 버전을 강조 표시합니다.

JetPack 4 JetPack 5 JetPack 6
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano

Docker로 빠른 시작

NVIDIA Jetson에서 Ultralytics YOLO11을 시작하는 가장 빠른 방법은 Jetson용으로 미리 빌드된 Docker 이미지를 사용하여 실행하는 것입니다. 위의 표를 참조하여 소유한 Jetson 장치에 따라 JetPack 버전을 선택하십시오.

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

이 작업이 완료되면 NVIDIA Jetson에서 TensorRT 사용 섹션으로 건너뜁니다.

네이티브 설치로 시작하기

Docker 없이 기본 설치를 하려면 아래 단계를 참조하십시오.

JetPack 6.1에서 실행

Ultralytics 패키지 설치

여기서는 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 선택적 종속성과 함께 Jetson에 Ultralytics 패키지를 설치합니다. 우리는 주로 NVIDIA TensorRT 내보내기에 중점을 둘 것입니다. TensorRT를 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

  1. 패키지 목록을 업데이트하고, pip를 설치하고, 최신 버전으로 업그레이드합니다.

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. 설치 ultralytics 선택적 종속성이 있는 pip 패키지

    pip install ultralytics[export]
    
  3. 장치를 재부팅합니다.

    sudo reboot
    

PyTorch 및 Torchvision 설치

위의 Ultralytics 설치는 Torch와 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처를 기반으로 하는 Jetson 플랫폼에서 실행하는 데 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip wheel을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

설치 torch 2.5.0torchvision 0.20 JP6.1에 따름

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

참고

Jetson용 PyTorch 페이지를 방문하여 다양한 JetPack 버전에 대한 모든 다른 버전의 PyTorch에 액세스하십시오. PyTorch, Torchvision 호환성에 대한 자세한 목록은 PyTorch 및 Torchvision 호환성 페이지를 방문하십시오.

설치 cuSPARSELt 다음과 관련된 종속성 문제를 해결하려면 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

설치 onnxruntime-gpu

에 지정되어 있습니다. onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 Jetson용 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

사용 가능한 모든 항목을 찾을 수 있습니다. onnxruntime-gpu JetPack 버전, Python 버전 및 기타 호환성 세부 정보별로 구성된 패키지는 Jetson Zoo ONNX 런타임 호환성 매트릭스. 여기서는 다운로드하여 설치합니다. onnxruntime-gpu 1.20.0 와 함께 Python3.10 지원합니다.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

참고

onnxruntime-gpu numpy 버전을 자동으로 최신 버전으로 되돌립니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 다음을 실행하여 문제를 해결합니다.

pip install numpy==1.23.5

JetPack 5.1.2에서 실행

Ultralytics 패키지 설치

여기서는 Ultralytics 패키지를 Jetson에 선택적 종속성과 함께 설치하여 PyTorch 모델을 다른 형식으로 내보낼 수 있도록 합니다. 주로 NVIDIA TensorRT 내보내기에 중점을 둘 것입니다. TensorRT를 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

  1. 패키지 목록을 업데이트하고, pip를 설치하고, 최신 버전으로 업그레이드합니다.

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. 설치 ultralytics 선택적 종속성이 있는 pip 패키지

    pip install ultralytics[export]
    
  3. 장치를 재부팅합니다.

    sudo reboot
    

PyTorch 및 Torchvision 설치

위의 Ultralytics 설치는 Torch와 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처를 기반으로 하는 Jetson 플랫폼에서 실행하는 데 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip wheel을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

  1. 현재 설치된 PyTorch 및 Torchvision 제거

    pip uninstall torch torchvision
    
  2. 설치 torch 2.2.0torchvision 0.17.2 JP5.1.2에 따름

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
    

참고

Jetson용 PyTorch 페이지를 방문하여 다양한 JetPack 버전에 대한 모든 다른 버전의 PyTorch에 액세스하십시오. PyTorch, Torchvision 호환성에 대한 자세한 목록은 PyTorch 및 Torchvision 호환성 페이지를 방문하십시오.

설치 onnxruntime-gpu

에 지정되어 있습니다. onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 Jetson용 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

사용 가능한 모든 항목을 찾을 수 있습니다. onnxruntime-gpu JetPack 버전, Python 버전 및 기타 호환성 세부 정보별로 구성된 패키지는 Jetson Zoo ONNX 런타임 호환성 매트릭스. 여기서는 다운로드하여 설치합니다. onnxruntime-gpu 1.17.0 와 함께 Python3.8 지원합니다.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

참고

onnxruntime-gpu numpy 버전을 자동으로 최신 버전으로 되돌립니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 다음을 실행하여 문제를 해결합니다.

pip install numpy==1.23.5

NVIDIA Jetson에서 TensorRT 사용

Ultralytics에서 지원하는 모든 모델 내보내기 형식 중에서 TensorRT는 NVIDIA Jetson 장치에서 가장 높은 추론 성능을 제공하므로 Jetson 배포에 가장 적합한 권장 사항입니다. 설정 지침 및 고급 사용법은 전용 TensorRT 통합 가이드를 참조하십시오.

모델을 TensorRT로 변환하고 추론 실행

PyTorch 형식의 YOLO11n 모델이 TensorRT로 변환되어 내보낸 모델로 추론을 실행합니다.

예시

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

모델을 다른 모델 형식으로 내보낼 때 추가 인수에 액세스하려면 내보내기 페이지를 방문하십시오.

NVIDIA DLA(Deep Learning Accelerator) 사용

NVIDIA Deep Learning Accelerator (DLA)는 에너지 효율성과 성능을 위해 딥 러닝 추론을 최적화하는 NVIDIA Jetson 장치에 내장된 특수 하드웨어 구성 요소입니다. GPU에서 작업을 오프로드하여(더 집중적인 프로세스를 위해 GPU를 확보) DLA를 통해 모델은 낮은 전력 소비로 높은 처리량을 유지하면서 실행할 수 있으므로 임베디드 시스템 및 실시간 AI 애플리케이션에 이상적입니다.

다음 Jetson 장치에는 DLA 하드웨어가 장착되어 있습니다.

Jetson 장치 DLA 코어 DLA 최대 주파수
Jetson AGX Orin 시리즈 2 1.6 GHz
Jetson Orin NX 16GB 2 614 MHz
Jetson Orin NX 8GB 1 614 MHz
Jetson AGX Xavier 시리즈 2 1.4 GHz
Jetson Xavier NX 시리즈 2 1.1 GHz

예시

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

DLA 내보내기를 사용할 때 일부 레이어는 DLA에서 실행되도록 지원되지 않을 수 있으며 GPU로 대체됩니다. 이러한 대체는 추가 대기 시간을 발생시키고 전체 추론 성능에 영향을 미칠 수 있습니다. 따라서 DLA는 주로 GPU에서 완전히 실행되는 TensorRT에 비해 추론 대기 시간을 줄이도록 설계되지 않았습니다. 대신 주요 목적은 처리량을 늘리고 에너지 효율성을 향상시키는 것입니다.

NVIDIA Jetson Orin YOLO11 벤치마크

YOLO11 벤치마크는 속도와 정확도를 측정하는 10가지 모델 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN)에서 Ultralytics 팀에서 실행했습니다. 벤치마크는 NVIDIA Jetson AGX Orin 개발자 키트(64GB), NVIDIA Jetson Orin Nano Super 개발자 키트 및 Jetson Orin NX 16GB 장치로 구동되는 Seeed Studio reComputer J4012에서 기본 입력 이미지 크기 640으로 FP32 정밀도로 실행되었습니다.

비교 차트

모든 모델 내보내기가 NVIDIA Jetson에서 작동하더라도 아래 비교 차트에는 PyTorch, TorchScript, TensorRT만 포함했습니다. Jetson의 GPU를 사용하고 최상의 결과를 보장하기 때문입니다. 다른 모든 내보내기는 CPU만 활용하며 성능이 위 세 가지만큼 좋지 않습니다. 이 차트 다음 섹션에서 모든 내보내기에 대한 벤치마크를 찾을 수 있습니다.

NVIDIA Jetson AGX Orin 개발자 키트(64GB)

Jetson AGX Orin 벤치마크
Ultralytics 8.3.157로 벤치마크됨

NVIDIA Jetson Orin Nano Super 개발자 키트

Jetson Orin Nano Super 벤치마크
Ultralytics 8.3.157로 벤치마크됨

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GB 벤치마크
Ultralytics 8.3.157로 벤치마크됨

자세한 비교 테이블

아래 표는 10가지 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN)에서 5가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)에 대한 벤치마크 결과를 나타내며, 각 조합에 대한 상태, 크기, mAP50-95(B) 메트릭 및 추론 시간을 제공합니다.

NVIDIA Jetson AGX Orin 개발자 키트(64GB)

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 5.4 0.5101 9.40
TorchScript 10.5 0.5083 11.00
ONNX 10.2 0.5077 48.32
OpenVINO 10.4 0.5058 27.24
TensorRT (FP32) 12.1 0.5085 3.93
TensorRT (FP16) 8.3 0.5063 2.55
TensorRT (INT8) 5.4 0.4719 2.18
TF SavedModel 25.9 0.5077 66.87
TF GraphDef 10.3 0.5077 65.68
TF Lite 10.3 0.5077 272.92
MNN 10.1 0.5059 36.33
NCNN 10.2 0.5031 28.51
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 18.4 0.5783 12.10
TorchScript 36.5 0.5782 11.01
ONNX 36.3 0.5782 107.54
OpenVINO 36.4 0.5810 55.03
TensorRT (FP32) 38.1 0.5781 6.52
TensorRT (FP16) 21.4 0.5803 3.65
TensorRT (INT8) 12.1 0.5735 2.81
TF SavedModel 91.0 0.5782 132.73
TF GraphDef 36.4 0.5782 134.96
TF Lite 36.3 0.5782 798.21
MNN 36.2 0.5777 82.35
NCNN 36.2 0.5784 56.07
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 38.8 0.6265 22.20
TorchScript 77.3 0.6307 21.47
ONNX 76.9 0.6307 270.89
OpenVINO 77.1 0.6284 129.10
TensorRT (FP32) 78.8 0.6306 12.53
TensorRT (FP16) 41.9 0.6305 6.25
TensorRT (INT8) 23.2 0.6291 4.69
TF SavedModel 192.7 0.6307 299.95
TF GraphDef 77.1 0.6307 310.58
TF Lite 77.0 0.6307 2400.54
MNN 76.8 0.6308 213.56
NCNN 76.8 0.6284 141.18
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 49.0 0.6364 27.70
TorchScript 97.6 0.6399 27.94
ONNX 97.0 0.6409 345.47
OpenVINO 97.3 0.6378 161.93
TensorRT (FP32) 99.1 0.6406 16.11
TensorRT (FP16) 52.6 0.6376 8.08
TensorRT (INT8) 30.8 0.6208 6.12
TF SavedModel 243.1 0.6409 390.78
TF GraphDef 97.2 0.6409 398.76
TF Lite 97.1 0.6409 3037.05
MNN 96.9 0.6372 265.46
NCNN 96.9 0.6364 179.68
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 109.3 0.7005 44.40
TorchScript 218.1 0.6898 47.49
ONNX 217.5 0.6900 682.98
OpenVINO 217.8 0.6876 298.15
TensorRT (FP32) 219.6 0.6904 28.50
TensorRT (FP16) 112.2 0.6887 13.55
TensorRT (INT8) 60.0 0.6574 9.40
TF SavedModel 544.3 0.6900 749.85
TF GraphDef 217.7 0.6900 753.86
TF Lite 217.6 0.6900 6603.27
MNN 217.3 0.6868 519.77
NCNN 217.3 0.6849 298.58

Ultralytics 8.3.157로 벤치마크됨

참고

추론 시간은 전/후 처리 시간을 포함하지 않습니다.

NVIDIA Jetson Orin Nano Super 개발자 키트

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 5.4 0.5101 13.70
TorchScript 10.5 0.5082 13.69
ONNX 10.2 0.5081 14.47
OpenVINO 10.4 0.5058 56.66
TensorRT (FP32) 12.0 0.5081 7.44
TensorRT (FP16) 8.2 0.5061 4.53
TensorRT (INT8) 5.4 0.4825 3.70
TF SavedModel 25.9 0.5077 116.23
TF GraphDef 10.3 0.5077 114.92
TF Lite 10.3 0.5077 340.75
MNN 10.1 0.5059 76.26
NCNN 10.2 0.5031 45.03
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 18.4 0.5790 20.90
TorchScript 36.5 0.5781 21.22
ONNX 36.3 0.5781 25.07
OpenVINO 36.4 0.5810 122.98
TensorRT (FP32) 37.9 0.5783 13.02
TensorRT (FP16) 21.8 0.5779 6.93
TensorRT (INT8) 12.2 0.5735 5.08
TF SavedModel 91.0 0.5782 250.65
TF GraphDef 36.4 0.5782 252.69
TF Lite 36.3 0.5782 998.68
MNN 36.2 0.5781 188.01
NCNN 36.2 0.5784 101.37
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 38.8 0.6266 46.50
TorchScript 77.3 0.6307 47.95
ONNX 76.9 0.6307 53.06
OpenVINO 77.1 0.6284 301.63
TensorRT (FP32) 78.8 0.6305 27.86
TensorRT (FP16) 41.7 0.6309 13.50
TensorRT (INT8) 23.2 0.6291 9.12
TF SavedModel 192.7 0.6307 622.24
TF GraphDef 77.1 0.6307 628.74
TF Lite 77.0 0.6307 2997.93
MNN 76.8 0.6299 509.96
NCNN 76.8 0.6284 292.99
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 49.0 0.6364 56.50
TorchScript 97.6 0.6409 62.51
ONNX 97.0 0.6399 68.35
OpenVINO 97.3 0.6378 376.03
TensorRT (FP32) 99.2 0.6396 35.59
TensorRT (FP16) 52.1 0.6361 17.48
TensorRT (INT8) 30.9 0.6207 11.87
TF SavedModel 243.1 0.6409 807.47
TF GraphDef 97.2 0.6409 822.88
TF Lite 97.1 0.6409 3792.23
MNN 96.9 0.6372 631.16
NCNN 96.9 0.6364 350.46
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 109.3 0.7005 90.00
TorchScript 218.1 0.6901 113.40
ONNX 217.5 0.6901 122.94
OpenVINO 217.8 0.6876 713.1
TensorRT (FP32) 219.5 0.6904 66.93
TensorRT (FP16) 112.2 0.6892 32.58
TensorRT (INT8) 61.5 0.6612 19.90
TF SavedModel 544.3 0.6900 1605.4
TF GraphDef 217.8 0.6900 2961.8
TF Lite 217.6 0.6900 8234.86
MNN 217.3 0.6893 1254.18
NCNN 217.3 0.6849 725.50

Ultralytics 8.3.157로 벤치마크됨

참고

추론 시간은 전/후 처리 시간을 포함하지 않습니다.

NVIDIA Jetson Orin NX 16GB

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 5.4 0.5101 12.90
TorchScript 10.5 0.5082 13.17
ONNX 10.2 0.5081 15.43
OpenVINO 10.4 0.5058 39.80
TensorRT (FP32) 11.8 0.5081 7.94
TensorRT (FP16) 8.1 0.5085 4.73
TensorRT (INT8) 5.4 0.4786 3.90
TF SavedModel 25.9 0.5077 88.48
TF GraphDef 10.3 0.5077 86.67
TF Lite 10.3 0.5077 302.55
MNN 10.1 0.5059 52.73
NCNN 10.2 0.5031 32.04
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 18.4 0.5790 21.70
TorchScript 36.5 0.5781 22.71
ONNX 36.3 0.5781 26.49
OpenVINO 36.4 0.5810 84.73
TensorRT (FP32) 37.8 0.5783 13.77
TensorRT (FP16) 21.2 0.5796 7.31
TensorRT (INT8) 12.0 0.5735 5.33
TF SavedModel 91.0 0.5782 185.06
TF GraphDef 36.4 0.5782 186.45
TF Lite 36.3 0.5782 882.58
MNN 36.2 0.5775 126.36
NCNN 36.2 0.5784 66.73
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 38.8 0.6266 45.00
TorchScript 77.3 0.6307 51.87
ONNX 76.9 0.6307 56.00
OpenVINO 77.1 0.6284 202.69
TensorRT (FP32) 78.7 0.6305 30.38
TensorRT (FP16) 41.8 0.6302 14.48
TensorRT (INT8) 23.2 0.6291 9.74
TF SavedModel 192.7 0.6307 445.58
TF GraphDef 77.1 0.6307 460.94
TF Lite 77.0 0.6307 2653.65
MNN 76.8 0.6308 339.38
NCNN 76.8 0.6284 187.64
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 49.0 0.6364 56.60
TorchScript 97.6 0.6409 66.72
ONNX 97.0 0.6399 71.92
OpenVINO 97.3 0.6378 254.17
TensorRT (FP32) 99.2 0.6406 38.89
TensorRT (FP16) 51.9 0.6363 18.59
TensorRT (INT8) 30.9 0.6207 12.60
TF SavedModel 243.1 0.6409 575.98
TF GraphDef 97.2 0.6409 583.79
TF Lite 97.1 0.6409 3353.41
MNN 96.9 0.6367 421.33
NCNN 96.9 0.6364 228.26
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간 (ms/im)
PyTorch 109.3 0.7005 98.50
TorchScript 218.1 0.6901 123.03
ONNX 217.5 0.6901 129.55
OpenVINO 217.8 0.6876 483.44
TensorRT (FP32) 219.6 0.6904 75.92
TensorRT (FP16) 112.1 0.6885 35.78
TensorRT (INT8) 61.6 0.6592 21.60
TF SavedModel 544.3 0.6900 1120.43
TF GraphDef 217.7 0.6900 1172.35
TF Lite 217.6 0.6900 7283.63
MNN 217.3 0.6877 840.16
NCNN 217.3 0.6849 474.41

Ultralytics 8.3.157로 벤치마크됨

참고

추론 시간은 전/후 처리 시간을 포함하지 않습니다.

다양한 버전의 NVIDIA Jetson 하드웨어에서 실행되는 Seeed Studio의 벤치마킹 노력을 더 살펴보십시오.

결과 재현하기

모든 내보내기 형식에서 위의 Ultralytics 벤치마크를 재현하려면 다음 코드를 실행하십시오.

예시

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

벤치마킹 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크가 실행될 당시 시스템의 현재 워크로드에 따라 다를 수 있습니다. 가장 신뢰할 수 있는 결과를 얻으려면 많은 수의 이미지가 포함된 데이터 세트를 사용하십시오. 예: data='coco.yaml' (5000개의 검증 이미지).

NVIDIA Jetson 사용 시 모범 사례

NVIDIA Jetson을 사용할 때 YOLO11을 실행하는 NVIDIA Jetson에서 최대 성능을 활성화하기 위해 따라야 할 몇 가지 모범 사례가 있습니다.

  1. 최대 전원 모드 활성화

    Jetson에서 최대 전원 모드를 활성화하면 모든 CPU, GPU 코어가 켜집니다.

    sudo nvpmodel -m 0
    
  2. Jetson 클럭 활성화

    Jetson 클럭을 활성화하면 모든 CPU, GPU 코어가 최대 주파수로 클럭됩니다.

    sudo jetson_clocks
    
  3. Jetson Stats 애플리케이션 설치

    jetson stats 애플리케이션을 사용하여 시스템 구성 요소의 온도를 모니터링하고 CPU, GPU, RAM 사용률 보기, 전원 모드 변경, 최대 클럭 설정, JetPack 정보 확인과 같은 기타 시스템 세부 정보를 확인할 수 있습니다.

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
    

Jetson Stats

다음 단계

NVIDIA Jetson에서 YOLO11을 성공적으로 설정하신 것을 축하드립니다! 추가 학습 및 지원은 Ultralytics YOLO11 문서에서 더 많은 가이드를 참조하십시오!

FAQ

NVIDIA Jetson 장치에 Ultralytics YOLO11을 어떻게 배포합니까?

NVIDIA Jetson 장치에 Ultralytics YOLO11을 배포하는 것은 간단한 과정입니다. 먼저 NVIDIA JetPack SDK로 Jetson 장치를 플래시합니다. 그런 다음 빠른 설정을 위해 미리 빌드된 Docker 이미지를 사용하거나 필요한 패키지를 수동으로 설치합니다. 각 접근 방식에 대한 자세한 단계는 Docker로 빠른 시작네이티브 설치로 시작 섹션에서 찾을 수 있습니다.

NVIDIA Jetson 장치에서 YOLO11 모델로 어떤 성능 벤치마크를 기대할 수 있습니까?

YOLO11 모델은 다양한 NVIDIA Jetson 장치에서 벤치마크를 거쳤으며 상당한 성능 향상을 보여줍니다. 예를 들어 TensorRT 형식은 최고의 추론 성능을 제공합니다. 자세한 비교 테이블 섹션의 표는 다양한 모델 형식에서 mAP50-95 및 추론 시간과 같은 성능 지표에 대한 포괄적인 보기를 제공합니다.

NVIDIA Jetson에 YOLO11을 배포하는 데 TensorRT를 사용해야 하는 이유는 무엇입니까?

TensorRT는 최적의 성능으로 인해 NVIDIA Jetson에 YOLO11 모델을 배포하는 데 매우 권장됩니다. Jetson의 GPU 기능을 활용하여 추론을 가속화하여 최대 효율성과 속도를 보장합니다. TensorRT로 변환하고 NVIDIA Jetson에서 TensorRT 사용 섹션에서 추론을 실행하는 방법에 대해 자세히 알아보십시오.

NVIDIA Jetson에서 PyTorch 및 Torchvision을 설치하는 방법은 무엇입니까?

NVIDIA Jetson에 PyTorch 및 Torchvision을 설치하려면 먼저 pip를 통해 설치되었을 수 있는 기존 버전을 제거하십시오. 그런 다음 Jetson의 ARM64 아키텍처에 호환되는 PyTorch 및 Torchvision 버전을 수동으로 설치합니다. 이 프로세스에 대한 자세한 지침은 PyTorch 및 Torchvision 설치 섹션에 제공되어 있습니다.

YOLO11을 사용할 때 NVIDIA Jetson에서 성능을 최대화하기 위한 가장 좋은 방법은 무엇입니까?

YOLO11로 NVIDIA Jetson에서 성능을 최대화하려면 다음 모범 사례를 따르십시오.

  1. 모든 CPU 및 GPU 코어를 활용하려면 최대 전원 모드를 활성화하십시오.
  2. 모든 코어를 최대 주파수로 실행하려면 Jetson 클럭을 활성화하십시오.
  3. 시스템 메트릭을 모니터링하려면 Jetson Stats 애플리케이션을 설치하십시오.

명령 및 추가 세부 정보는 NVIDIA Jetson 사용 시 모범 사례 섹션을 참조하십시오.



📅 1년 전에 생성됨 ✏️ 2개월 전에 업데이트됨

댓글