콘텐츠로 건너뛰기

빠른 시작 가이드: NVIDIA Jetson Ultralytics YOLO11

이 포괄적인 가이드는 NVIDIA Jetson 장치에 Ultralytics YOLO11 배포에 대한 자세한 안내를 제공합니다. 또한 작고 강력한 장치에서 YOLO11 의 기능을 입증하기 위한 성능 벤치마크도 소개합니다.

신제품 지원

이 가이드는 가장 인기 있는 AI 모델을 원활하게 실행할 수 있도록 이전 버전보다 1.7배 향상된 최대 67 TOPS의 AI 성능을 제공하는 최신 NVIDIA Jetson Orin Nano 슈퍼 개발자 키트로 업데이트되었습니다.



Watch: NVIDIA JETSON 장치에서 Ultralytics YOLO11 사용하는 방법

NVIDIA Jetson 에코시스템

참고

이 가이드는 안정적인 최신 JetPack 릴리스 JP6.1을 실행하는 NVIDIA Jetson Orin Nano 슈퍼 개발자 키트, JetPack 릴리스 JP6.0을 실행하는 NVIDIA Jetson Orin NX 16GB 기반 Seeed Studio 재컴퓨터 J4012, JetPack 릴리스 JP5.1.3 기반 Seeed Studio 재컴퓨터 J1020 v2, JetPack 릴리스 JP4.6.1 기반 NVIDIA Jetson Nano 4GB로 테스트되었습니다. 최신 및 레거시를 포함한 모든 NVIDIA Jetson 하드웨어 라인업에서 작동할 것으로 예상됩니다.

NVIDIA Jetson이란?

NVIDIA Jetson은 엣지 디바이스에 가속화된 AI(인공 지능) 컴퓨팅을 제공하도록 설계된 임베디드 컴퓨팅 보드 시리즈입니다. 이 작고 강력한 장치는 NVIDIA 의 GPU 아키텍처를 기반으로 구축되었으며 클라우드 컴퓨팅 리소스에 의존할 필요 없이 장치에서 직접 복잡한 AI 알고리즘과 딥 러닝 모델을 실행할 수 있습니다. Jetson 보드는 로봇 공학, 자율 주행 차량, 산업 자동화 및 짧은 지연 시간과 높은 효율성으로 로컬에서 AI 추론을 수행해야 하는 기타 애플리케이션에서 자주 사용됩니다. 또한 이러한 보드는 ARM64 아키텍처를 기반으로 하며 기존 GPU 컴퓨팅 장치에 비해 저전력으로 실행됩니다.

NVIDIA Jetson 시리즈 비교

Jetson Orin은 이전 세대에 비해 대폭 향상된 AI 성능을 제공하는 NVIDIA 암페어 아키텍처를 기반으로 하는 NVIDIA Jetson 제품군의 최신 버전입니다. 아래 표는 에코시스템에 있는 몇 가지 Jetson 디바이스를 비교한 것입니다.

Jetson AGX Orin 64GB 젯슨 오린 NX 16GB 젯슨 오린 나노 슈퍼 Jetson AGX Xavier 젯슨 자비에 NX 젯슨 나노
AI 성능 275 TOPS 100 TOPS 67 TOP 32 TOPS 21 TOPS 472 GFLOPS
GPU 2048코어 NVIDIA 암페어 아키텍처 GPU (64 Tensor 코어) 1024코어 NVIDIA 암페어 아키텍처 GPU (32 Tensor 코어) 1024코어 NVIDIA 암페어 아키텍처 GPU (32 Tensor 코어) 512코어 NVIDIA 볼타 아키텍처 GPU (64 Tensor 코어) 384코어 NVIDIA Volta™ 아키텍처 GPU , 48개의 Tensor 코어 탑재 128코어 NVIDIA 맥스웰™ 아키텍처 GPU
GPU 최대 주파수 1.3GHz 918MHz 1020MHz 1377 MHz 1100 MHz 921MHz
CPU 12코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 3MB L2 + 6MB L3 8코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 2MB L2 + 4MB L3 6코어 Arm® Cortex®-A78AE v8.2 64비트 CPU 1.5MB L2 + 4MB L3 8코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 8MB L2 + 4MB L3 6코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 6MB L2 + 4MB L3 쿼드 코어 Arm® Cortex®-A57 MPCore 프로세서
CPU 최대 주파수 2.2 GHz 2.0 GHz 1.7 GHz 2.2 GHz 1.9GHz 1.43GHz
메모리 64GB 256비트 LPDDR5 204.8GB/s 16GB 128비트 LPDDR5 102.4GB/s 8GB 128비트 LPDDR5 102GB/s 32GB 256비트 LPDDR4x 136.5GB/s 8GB 128비트 LPDDR4x 59.7GB/s 4GB 64비트 LPDDR4 25.6GB/s"

자세한 비교 표는 공식 NVIDIA Jetson 페이지의 기술 사양 섹션에서 확인할 수 있습니다.

NVIDIA 제트팩이란 무엇인가요?

Jetson 모듈을 구동하는 NVIDIA JetPack SDK는 가장 포괄적인 솔루션으로, 엔드투엔드 가속화된 AI 애플리케이션 구축을 위한 완벽한 개발 환경을 제공하고 출시 시간을 단축합니다. JetPack에는 부트로더, Linux 커널, 우분투 데스크톱 환경 및 GPU 컴퓨팅, 멀티미디어, 그래픽 및 컴퓨터 비전 가속화를 위한 전체 라이브러리 세트가 포함된 Jetson Linux가 포함되어 있습니다. 또한 호스트 컴퓨터와 개발자 키트 모두를 위한 샘플, 설명서, 개발자 도구가 포함되어 있으며 스트리밍 비디오 분석을 위한 DeepStream, 로보틱스를 위한 Isaac, 대화형 AI를 위한 Riva와 같은 상위 수준의 SDK를 지원합니다.

플래시 제트팩 NVIDIA Jetson

NVIDIA Jetson 장치를 구입한 후 첫 번째 단계는 NVIDIA JetPack을 장치에 플래시하는 것입니다. NVIDIA Jetson 장치를 플래시하는 방법에는 여러 가지가 있습니다.

  1. 공식 개발 키트( NVIDIA )를 소유하고 있는 경우, Jetson Orin Nano 개발자 키트와 같은 이미지를 다운로드하고 장치 부팅을 위해 JetPack이 포함된 SD 카드를 준비할 수 있습니다.
  2. 다른 NVIDIA 개발 키트를 소유하고 있는 경우 SDK 관리자를 사용하여 JetPack을 장치에 플래시할 수 있습니다.
  3. 씨드 스튜디오 재컴퓨터 J4012 장치를 소유하고 있는 경우 JetPack을 포함된 SSD에 플래시할 수 있으며, 씨드 스튜디오 재컴퓨터 J1020 v2 장치를 소유하고 있는 경우 JetPack을 eMMC/ SSD에 플래시할 수 있습니다.
  4. NVIDIA Jetson 모듈로 구동되는 다른 타사 장치를 소유하고 있는 경우, 명령줄 플래싱을 따르는 것이 좋습니다.

참고

위의 방법 3과 4의 경우, 시스템을 플래시하고 디바이스를 부팅한 후 디바이스 터미널에서 "sudo apt update && sudo apt install nvidia-jetpack -y"를 입력하여 필요한 나머지 JetPack 구성 요소를 모두 설치하세요.

젯슨 디바이스 기반의 젯팩 지원

아래 표에는 다양한 NVIDIA Jetson 장치에서 지원되는 NVIDIA JetPack 버전이 나와 있습니다.

제트팩 4 제트팩 5 제트팩 6
젯슨 나노
Jetson TX2
젯슨 자비에 NX
Jetson AGX Xavier
Jetson AGX Orin
젯슨 오린 NX
젯슨 오린 나노

Docker로 빠르게 시작하기

Ultralytics YOLO11 NVIDIA Jetson을 시작하는 가장 빠른 방법은 미리 빌드된 Jetson용 도커 이미지로 실행하는 것입니다. 위의 표를 참조하여 소유하고 있는 Jetson 장치에 따라 JetPack 버전을 선택하세요.

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

이 작업이 완료되면 NVIDIA Jetson 섹션의 TensorRT 사용으로 건너뜁니다.

기본 설치로 시작하기

Docker를 사용하지 않고 기본 설치하려면 아래 단계를 참조하세요.

JetPack 6.1에서 실행

Ultralytics 패키지 설치

여기서는 선택적 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하여 모델을 다른 형식으로 내보내기 위해 PyTorch 모델을 다른 형식으로 내보낼 수 있습니다. NVIDIA TensorRT 내보내기에 주로 초점을 맞출 것입니다. TensorRT 을 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

  1. 패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. 설치 ultralytics 선택적 종속성이 있는 pip 패키지

    pip install ultralytics[export]
    
  3. 디바이스 재부팅

    sudo reboot
    

PyTorch 및 토치비전 설치

위의 ultralytics 설치는 Torch 및 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반인 Jetson 플랫폼에서 실행하기에는 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip 휠을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

설치 torch 2.5.0 그리고 torchvision 0.20 JP6.1에 따르면

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

참고

다른 JetPack 버전에 대한 모든 다른 버전에 액세스하려면 PyTorch 의 Jetson용 페이지 ( PyTorch )를 방문하세요. 자세한 목록은 PyTorch, Torchvision 호환성 페이지에서PyTorch 및 Torchvision 호환성 페이지를 참조하세요.

설치 cuSPARSELt 의 종속성 문제를 해결하려면 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

설치 onnxruntime-gpu

그리고 onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

모두 다른 onnxruntime-gpu 다른 JetPack 및 Python 버전에 해당하는 패키지가 나열됩니다. 여기. 하지만 여기서는 다운로드하여 설치합니다. onnxruntime-gpu 1.20.0 와 함께 Python3.10 지원.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

참고

onnxruntime-gpu 를 실행하면 numpy 버전이 자동으로 최신 버전으로 되돌아갑니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 를 실행하여 문제를 해결합니다:

pip install numpy==1.23.5

JetPack 5.1.2에서 실행

Ultralytics 패키지 설치

여기서는 PyTorch 모델을 다른 다른 형식으로 내보낼 수 있도록 선택적 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하겠습니다. NVIDIA TensorRT 내보내기에 주로 초점을 맞출 것입니다. TensorRT 을 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

  1. 패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. 설치 ultralytics 선택적 종속성이 있는 pip 패키지

    pip install ultralytics[export]
    
  3. 디바이스 재부팅

    sudo reboot
    

PyTorch 및 토치비전 설치

위의 ultralytics 설치는 Torch 및 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반인 Jetson 플랫폼에서 실행하기에는 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip 휠을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

  1. 현재 설치된 PyTorch 및 Torchvision 제거

    pip uninstall torch torchvision
    
  2. 설치 torch 2.2.0 그리고 torchvision 0.17.2 JP5.1.2에 따라

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
    

참고

다른 JetPack 버전에 대한 모든 다른 버전에 액세스하려면 PyTorch 의 Jetson용 페이지 ( PyTorch )를 방문하세요. 자세한 목록은 PyTorch, Torchvision 호환성 페이지에서PyTorch 및 Torchvision 호환성 페이지를 참조하세요.

설치 onnxruntime-gpu

그리고 onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

모두 다른 onnxruntime-gpu 다른 JetPack 및 Python 버전에 해당하는 패키지가 나열됩니다. 여기. 하지만 여기서는 다운로드하여 설치합니다. onnxruntime-gpu 1.17.0 와 함께 Python3.8 지원.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

참고

onnxruntime-gpu 를 실행하면 numpy 버전이 자동으로 최신 버전으로 되돌아갑니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 를 실행하여 문제를 해결합니다:

pip install numpy==1.23.5

NVIDIA Jetson에서 TensorRT 사용

Ultralytics 에서 지원하는 모든 모델 내보내기 형식 중 TensorRT 은 NVIDIA Jetson 장치와 함께 작업할 때 최고의 추론 성능을 제공하며, Jetson과 함께 TensorRT 을 사용하는 것이 좋습니다. 자세한 내용은 TensorRT 에서 확인할 수 있습니다.

모델을 TensorRT 로 변환하고 추론 실행

내보낸 모델로 추론을 실행하기 위해 PyTorch 형식의 YOLO11n 모델을 TensorRT 으로 변환합니다.

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

다른 모델 형식으로 모델을 내보낼 때 추가 인수를 사용하려면 내보내기 페이지를 방문하세요.

NVIDIA 딥러닝 액셀러레이터(DLA) 사용

NVIDIA 딥 러닝 액셀러레이터(DLA) 는 에너지 효율과 성능을 위해 딥 러닝 추론을 최적화하는 NVIDIA Jetson 장치에 내장된 특수 하드웨어 구성 요소입니다. GPU 에서 작업을 오프로드(보다 집중적인 프로세스를 위해 여유 공간을 확보)함으로써 DLA는 높은 처리량을 유지하면서 낮은 전력 소비로 모델을 실행할 수 있어 임베디드 시스템 및 실시간 AI 애플리케이션에 이상적입니다.

다음 Jetson 장치에는 DLA 하드웨어가 장착되어 있습니다:

Jetson 장치 DLA 코어 DLA 최대 주파수
젯슨 AGX 오린 시리즈 2 1.6 GHz
젯슨 오린 NX 16GB 2 614MHz
젯슨 오린 NX 8GB 1 614MHz
젯슨 AGX 자비에 시리즈 2 1.4GHz
젯슨 자비에 NX 시리즈 2 1.1 GHz

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

DLA 내보내기를 사용할 때 일부 계층은 DLA에서 실행이 지원되지 않을 수 있으며 GPU 로 폴백되어 실행됩니다. 이 폴백은 추가적인 지연 시간을 발생시키고 전반적인 추론 성능에 영향을 미칠 수 있습니다. 따라서 DLA는 GPU 에서 전적으로 실행되는 TensorRT 에 비해 추론 지연 시간을 줄이기 위한 목적으로 설계되지 않았습니다. 대신 처리량을 늘리고 에너지 효율성을 개선하는 것이 주된 목적입니다.

NVIDIA 젯슨 오린 YOLO11 벤치마크

YOLO11 Ultralytics 벤치마크는 PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel , TF GraphDef , TF Lite, PaddlePaddle, NCNN 에서 속도와 정확도를 측정하는 10가지 모델 포맷으로 실행되었습니다. 벤치마크는 기본 입력 이미지 크기가 640인 FP32 정밀도의 Jetson Orin NX 16GB 장치로 구동되는 NVIDIA Jetson Orin 나노 슈퍼 개발자 키트와 Seeed Studio 재컴퓨터 J4012에서 모두 실행되었습니다.

비교 차트

모든 모델 내보내기가 NVIDIA Jetson에서 작동하지만 아래 비교 차트에는 PyTorch, TorchScript, TensorRT 만 포함했는데, 이는 Jetson에서 GPU 을 사용하며 최상의 결과를 보장하기 때문입니다. 다른 모든 내보내기는 CPU 만 사용하며 성능이 위의 세 가지보다 좋지 않습니다. 이 차트 뒤의 섹션에서 모든 내보내기에 대한 벤치마크를 찾을 수 있습니다.

NVIDIA 젯슨 오린 나노 슈퍼 개발자 키트

젯슨 오린 나노 슈퍼 벤치마크
Ultralytics 8.3.51로 벤치마킹했습니다.

NVIDIA 젯슨 오린 NX 16GB

젯슨 오린 NX 16GB 벤치마크
Ultralytics 8.3.51로 벤치마킹했습니다.

자세한 비교 표

아래 표는 10가지 형식(PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel , TF GraphDef , TF Lite, PaddlePaddle, NCNN)에 대한 5가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)의 벤치마크 결과로, 각 조합의 상태, 크기, mAP50-95(B) 메트릭 및 추론 시간을 제공합니다.

NVIDIA 젯슨 오린 나노 슈퍼 개발자 키트

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 5.4 0.6176 21.3
TorchScript 10.5 0.6100 13.40
ONNX 10.2 0.6100 7.94
OpenVINO 10.4 0.6091 57.36
TensorRT (FP32) 11.9 0.6082 7.60
TensorRT (FP16) 8.3 0.6096 4.91
TensorRT (INT8) 5.6 0.3180 3.91
TF SavedModel 25.8 0.6082 223.98
TF GraphDef 10.3 0.6082 289.95
TF Lite 10.3 0.6082 328.29
PaddlePaddle 20.4 0.6082 530.46
MNN 10.1 0.6120 74.75
NCNN 10.2 0.6106 46.12
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 18.4 0.7526 22.00
TorchScript 36.5 0.7400 21.35
ONNX 36.3 0.7400 13.91
OpenVINO 36.4 0.7391 126.95
TensorRT (FP32) 38.0 0.7400 13.29
TensorRT (FP16) 21.3 0.7431 7.30
TensorRT (INT8) 12.2 0.3243 5.25
TF SavedModel 91.1 0.7400 406.73
TF GraphDef 36.4 0.7400 629.80
TF Lite 36.4 0.7400 953.98
PaddlePaddle 72.5 0.7400 1311.67
MNN 36.2 0.7392 187.66
NCNN 36.2 0.7403 122.02
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 38.8 0.7598 33.00
TorchScript 77.3 0.7643 48.17
ONNX 76.9 0.7641 29.31
OpenVINO 77.1 0.7642 313.49
TensorRT (FP32) 78.7 0.7641 28.21
TensorRT (FP16) 41.8 0.7653 13.99
TensorRT (INT8) 23.2 0.4194 9.58
TF SavedModel 192.7 0.7643 802.30
TF GraphDef 77.0 0.7643 1335.42
TF Lite 77.0 0.7643 2842.42
PaddlePaddle 153.8 0.7643 3644.29
MNN 76.8 0.7648 503.90
NCNN 76.8 0.7674 298.78
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 49.0 0.7475 43.00
TorchScript 97.6 0.7250 62.94
ONNX 97.0 0.7250 36.33
OpenVINO 97.3 0.7226 387.72
TensorRT (FP32) 99.1 0.7250 35.59
TensorRT (FP16) 52.0 0.7265 17.57
TensorRT (INT8) 31.0 0.4033 12.37
TF SavedModel 243.3 0.7250 1116.20
TF GraphDef 97.2 0.7250 1603.32
TF Lite 97.2 0.7250 3607.51
PaddlePaddle 193.9 0.7250 4890.90
MNN 96.9 0.7222 619.04
NCNN 96.9 0.7252 352.85
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 109.3 0.8288 81.00
TorchScript 218.1 0.8308 113.49
ONNX 217.5 0.8308 75.20
OpenVINO 217.8 0.8285 508.12
TensorRT (FP32) 219.5 0.8307 67.32
TensorRT (FP16) 112.2 0.8248 32.94
TensorRT (INT8) 61.7 0.4854 20.72
TF SavedModel 545.0 0.8308 1048.8
TF GraphDef 217.8 0.8308 2961.8
TF Lite 217.8 0.8308 7898.8
PaddlePaddle 434.8 0.8308 9903.68
MNN 217.3 0.8308 1242.97
NCNN 217.3 0.8304 850.05

Ultralytics 8.3.51로 벤치마킹했습니다.

NVIDIA 젯슨 오린 NX 16GB

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 5.4 0.6176 19.50
TorchScript 10.5 0.6100 13.03
ONNX 10.2 0.6100 8.44
OpenVINO 10.4 0.6091 40.83
TensorRT (FP32) 11.9 0.6100 8.05
TensorRT (FP16) 8.2 0.6096 4.85
TensorRT (INT8) 5.5 0.3180 4.37
TF SavedModel 25.8 0.6082 185.39
TF GraphDef 10.3 0.6082 244.85
TF Lite 10.3 0.6082 289.77
PaddlePaddle 20.4 0.6082 476.52
MNN 10.1 0.6120 53.37
NCNN 10.2 0.6106 33.55
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 18.4 0.7526 19.00
TorchScript 36.5 0.7400 22.90
ONNX 36.3 0.7400 14.44
OpenVINO 36.4 0.7391 88.70
TensorRT (FP32) 37.9 0.7400 14.13
TensorRT (FP16) 21.6 0.7406 7.55
TensorRT (INT8) 12.2 0.3243 5.63
TF SavedModel 91.1 0.7400 317.61
TF GraphDef 36.4 0.7400 515.99
TF Lite 36.4 0.7400 838.85
PaddlePaddle 72.5 0.7400 1170.07
MNN 36.2 0.7413 125.23
NCNN 36.2 0.7403 68.13
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 38.8 0.7598 36.50
TorchScript 77.3 0.7643 52.55
ONNX 76.9 0.7640 31.16
OpenVINO 77.1 0.7642 208.57
TensorRT (FP32) 78.7 0.7640 30.72
TensorRT (FP16) 41.5 0.7651 14.45
TensorRT (INT8) 23.3 0.4194 10.19
TF SavedModel 192.7 0.7643 590.11
TF GraphDef 77.0 0.7643 998.57
TF Lite 77.0 0.7643 2486.11
PaddlePaddle 153.8 0.7643 3236.09
MNN 76.8 0.7661 335.78
NCNN 76.8 0.7674 188.43
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 49.0 0.7475 46.6
TorchScript 97.6 0.7250 66.54
ONNX 97.0 0.7250 39.55
OpenVINO 97.3 0.7226 262.44
TensorRT (FP32) 99.2 0.7250 38.68
TensorRT (FP16) 51.9 0.7265 18.53
TensorRT (INT8) 30.9 0.4033 13.36
TF SavedModel 243.3 0.7250 850.25
TF GraphDef 97.2 0.7250 1324.60
TF Lite 97.2 0.7250 3191.24
PaddlePaddle 193.9 0.7250 4204.97
MNN 96.9 0.7225 414.41
NCNN 96.9 0.7252 237.74
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 109.3 0.8288 86.00
TorchScript 218.1 0.8308 122.43
ONNX 217.5 0.8307 77.50
OpenVINO 217.8 0.8285 508.12
TensorRT (FP32) 219.5 0.8307 76.44
TensorRT (FP16) 112.0 0.8309 35.99
TensorRT (INT8) 61.6 0.4854 22.32
TF SavedModel 545.0 0.8308 1470.06
TF GraphDef 217.8 0.8308 2549.78
TF Lite 217.8 0.8308 7025.44
PaddlePaddle 434.8 0.8308 8364.89
MNN 217.3 0.8289 827.13
NCNN 217.3 0.8304 490.29

Ultralytics 8.3.51로 벤치마킹했습니다.

다양한 버전의 NVIDIA Jetson 하드웨어에서 실행되는 Seeed Studio를 통해 더 많은 벤치마킹 결과를 살펴보세요.

결과 재현

모든 내보내기 형식에서 위의 Ultralytics 벤치마크를 재현하려면 다음 코드를 실행하세요:

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
results = model.benchmark(data="coco8.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco8.yaml imgsz=640

벤치마킹 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크를 실행할 당시 시스템의 현재 작업량에 따라 달라질 수 있다는 점에 유의하세요. 가장 신뢰할 수 있는 결과를 얻으려면 많은 수의 이미지가 포함된 데이터 세트를 사용하세요. data='coco8.yaml' (밸 이미지 4개) 또는 data='coco.yaml' (5000 VAL 이미지).

NVIDIA Jetson 사용 시 모범 사례

NVIDIA Jetson을 사용하는 경우, NVIDIA Jetson을 실행하는 YOLO11 에서 성능을 극대화하기 위해 따라야 할 몇 가지 모범 사례가 있습니다.

  1. 최대 전력 모드 활성화

    Jetson에서 최대 전력 모드를 활성화하면 CPU, GPU 코어가 모두 켜져 있는지 확인합니다.

    sudo nvpmodel -m 0
    
  2. Jetson 클록 사용

    Jetson 클럭을 활성화하면 모든 CPU, GPU 코어가 최대 주파수로 클럭됩니다.

    sudo jetson_clocks
    
  3. Jetson 통계 애플리케이션 설치

    젯슨 통계 애플리케이션을 사용하여 시스템 구성 요소의 온도를 모니터링하고 CPU, GPU, RAM 사용률, 전원 모드 변경, 최대 클럭으로 설정, 젯팩 정보 확인과 같은 기타 시스템 세부 정보를 확인할 수 있습니다.

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
    

Jetson 통계

다음 단계

NVIDIA Jetson에 YOLO11 을 성공적으로 설정하신 것을 축하드립니다! 추가 학습 및 지원은 Ultralytics YOLO11 문서에서 더 많은 가이드를 확인하세요!

자주 묻는 질문

NVIDIA Jetson 장치에 Ultralytics YOLO11 배포하려면 어떻게 합니까?

NVIDIA Jetson 장치에 Ultralytics YOLO11 배포하는 과정은 간단합니다. 먼저 NVIDIA JetPack SDK로 Jetson 장치를 플래시합니다. 그런 다음 빠른 설정을 위해 사전 빌드된 Docker 이미지를 사용하거나 필요한 패키지를 수동으로 설치합니다. 각 접근 방식에 대한 자세한 단계는 Docker로 빠른 시작기본 설치로 시작 섹션에서 확인할 수 있습니다.

NVIDIA Jetson 장치에서 YOLO11 모델에서 어떤 성능 벤치마크를 기대할 수 있습니까?

YOLO11 모델을 다양한 NVIDIA Jetson 장치에서 벤치마킹한 결과 상당한 성능 향상을 보였습니다. 예를 들어, TensorRT 형식이 최고의 추론 성능을 제공합니다. 세부 비교 표 섹션의 표는 다양한 모델 형식에 걸쳐 mAP50-95 및 추론 시간과 같은 성능 메트릭에 대한 포괄적인 보기를 제공합니다.

NVIDIA Jetson에 YOLO11 배포 시 TensorRT 을 사용해야 하는 이유는 무엇인가요?

TensorRT 은 최적의 성능으로 인해 NVIDIA Jetson에 YOLO11 모델을 배포하는 데 적극 권장됩니다. Jetson의 GPU 기능을 활용하여 추론을 가속화하여 최대의 효율성과 속도를 보장합니다. TensorRT 로 변환하고 추론을 실행하는 방법에 대한 자세한 내용은 NVIDIA Jetson의 TensorRT 사용 섹션에서 확인할 수 있습니다.

NVIDIA Jetson에 PyTorch 및 Torchvision을 설치하려면 어떻게 해야 하나요?

NVIDIA Jetson에 PyTorch 및 Torchvision을 설치하려면 먼저 pip를 통해 설치되었을 수 있는 기존 버전을 모두 제거합니다. 그런 다음 Jetson의 ARM64 아키텍처에 호환되는 PyTorch 및 Torchvision 버전을 수동으로 설치합니다. 이 프로세스에 대한 자세한 지침은 PyTorch 및 Torchvision 설치 섹션에 나와 있습니다.

YOLO11 을 사용할 때 NVIDIA Jetson에서 성능을 극대화하기 위한 모범 사례는 무엇입니까?

YOLO11 을 사용하여 NVIDIA Jetson의 성능을 극대화하려면 다음 모범 사례를 따르십시오:

  1. 최대 전력 모드를 활성화하여 CPU 및 GPU 코어를 모두 활용합니다.
  2. 모든 코어를 최대 주파수로 실행하도록 Jetson 클럭을 활성화합니다.
  3. 시스템 메트릭을 모니터링하기 위해 Jetson Stats 애플리케이션을 설치합니다.

명령어 및 자세한 내용은 NVIDIA Jetson 사용 시 모범 사례 섹션을 참조하세요.

11개월 전 생성됨 ✏️ 5 일 전 업데이트 됨

댓글