콘텐츠로 건너뛰기

빠른 시작 가이드: NVIDIA Jetson Ultralytics YOLO11

이 포괄적인 가이드는 NVIDIA Jetson 장치에 Ultralytics YOLO11 배포에 대한 자세한 안내를 제공합니다. 또한 작고 강력한 장치에서 YOLO11 의 기능을 입증하기 위한 성능 벤치마크도 소개합니다.

신제품 지원

이 가이드는 가장 인기 있는 AI 모델을 원활하게 실행할 수 있도록 이전 버전보다 1.7배 향상된 최대 67 TOPS의 AI 성능을 제공하는 최신 NVIDIA Jetson Orin Nano 슈퍼 개발자 키트로 업데이트되었습니다.



Watch: NVIDIA JETSON 장치에서 Ultralytics YOLO11 사용하는 방법

NVIDIA Jetson 에코시스템

참고

이 가이드는 안정적인 최신 JetPack 릴리스 JP6.2를 실행하는 NVIDIA Jetson AGX Orin 개발자 키트(64GB ), JetPack 릴리스 JP6을 실행하는 NVIDIA Jetson Orin Nano Super 개발자 키트로 테스트되었습니다. 1, 젯팩 JP6.0/젯팩 JP5.1.3 릴리즈를 실행하는 NVIDIA 젯슨 오린 NX 16GB 기반의 씨드 스튜디오 리컴퓨터 J4012, 젯팩 JP4.6.1을 실행하는 NVIDIA 젯슨 나노 4GB 기반의 씨드 스튜디오 리컴퓨터 J1020 v2. 최신 및 레거시를 포함한 모든 NVIDIA 젯슨 하드웨어 라인업에서 작동할 것으로 예상됩니다.

NVIDIA Jetson이란?

NVIDIA Jetson은 엣지 디바이스에 가속화된 AI(인공 지능) 컴퓨팅을 제공하도록 설계된 임베디드 컴퓨팅 보드 시리즈입니다. 이 작고 강력한 장치는 NVIDIA 의 GPU 아키텍처를 기반으로 구축되었으며 클라우드 컴퓨팅 리소스에 의존할 필요 없이 장치에서 직접 복잡한 AI 알고리즘과 딥 러닝 모델을 실행할 수 있습니다. Jetson 보드는 로봇 공학, 자율 주행 차량, 산업 자동화 및 짧은 지연 시간과 높은 효율성으로 로컬에서 AI 추론을 수행해야 하는 기타 애플리케이션에서 자주 사용됩니다. 또한 이러한 보드는 ARM64 아키텍처를 기반으로 하며 기존 GPU 컴퓨팅 장치에 비해 저전력으로 실행됩니다.

NVIDIA Jetson 시리즈 비교

Jetson Orin은 이전 세대에 비해 대폭 향상된 AI 성능을 제공하는 NVIDIA 암페어 아키텍처를 기반으로 하는 NVIDIA Jetson 제품군의 최신 버전입니다. 아래 표는 에코시스템에 있는 몇 가지 Jetson 디바이스를 비교한 것입니다.

Jetson AGX Orin 64GB 젯슨 오린 NX 16GB 젯슨 오린 나노 슈퍼 Jetson AGX Xavier 젯슨 자비에 NX 젯슨 나노
AI 성능 275 TOPS 100 TOPS 67 TOP 32 TOPS 21 TOPS 472 GFLOPS
GPU 2048코어 NVIDIA 암페어 아키텍처 GPU (64 Tensor 코어) 1024코어 NVIDIA 암페어 아키텍처 GPU (32 Tensor 코어) 1024코어 NVIDIA 암페어 아키텍처 GPU (32 Tensor 코어) 512코어 NVIDIA 볼타 아키텍처 GPU (64 Tensor 코어) 384코어 NVIDIA Volta™ 아키텍처 GPU , 48개의 Tensor 코어 탑재 128코어 NVIDIA 맥스웰™ 아키텍처 GPU
GPU 최대 주파수 1.3GHz 918MHz 1020MHz 1377 MHz 1100 MHz 921MHz
CPU 12코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 3MB L2 + 6MB L3 8코어 NVIDIA Arm® Cortex A78AE v8.2 64비트 CPU 2MB L2 + 4MB L3 6코어 Arm® Cortex®-A78AE v8.2 64비트 CPU 1.5MB L2 + 4MB L3 8코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 8MB L2 + 4MB L3 6코어 NVIDIA Carmel Arm®v8.2 64비트 CPU 6MB L2 + 4MB L3 쿼드 코어 Arm® Cortex®-A57 MPCore 프로세서
CPU 최대 주파수 2.2 GHz 2.0 GHz 1.7 GHz 2.2 GHz 1.9GHz 1.43GHz
메모리 64GB 256비트 LPDDR5 204.8GB/s 16GB 128비트 LPDDR5 102.4GB/s 8GB 128비트 LPDDR5 102GB/s 32GB 256비트 LPDDR4x 136.5GB/s 8GB 128비트 LPDDR4x 59.7GB/s 4GB 64비트 LPDDR4 25.6GB/s"

자세한 비교 표는 공식 NVIDIA Jetson 페이지의 기술 사양 섹션에서 확인할 수 있습니다.

NVIDIA 제트팩이란 무엇인가요?

Jetson 모듈을 구동하는 NVIDIA JetPack SDK는 가장 포괄적인 솔루션으로, 엔드투엔드 가속화된 AI 애플리케이션 구축을 위한 완벽한 개발 환경을 제공하고 출시 시간을 단축합니다. JetPack에는 부트로더, Linux 커널, 우분투 데스크톱 환경 및 GPU 컴퓨팅, 멀티미디어, 그래픽 및 컴퓨터 비전 가속화를 위한 전체 라이브러리 세트가 포함된 Jetson Linux가 포함되어 있습니다. 또한 호스트 컴퓨터와 개발자 키트 모두를 위한 샘플, 설명서, 개발자 도구가 포함되어 있으며 스트리밍 비디오 분석을 위한 DeepStream, 로보틱스를 위한 Isaac, 대화형 AI를 위한 Riva와 같은 상위 수준의 SDK를 지원합니다.

플래시 제트팩 NVIDIA Jetson

NVIDIA Jetson 장치를 구입한 후 첫 번째 단계는 NVIDIA JetPack을 장치에 플래시하는 것입니다. NVIDIA Jetson 장치를 플래시하는 방법에는 여러 가지가 있습니다.

  1. 공식 개발 키트( NVIDIA )를 소유하고 있는 경우, Jetson Orin Nano 개발자 키트와 같은 이미지를 다운로드하고 장치 부팅을 위해 JetPack이 포함된 SD 카드를 준비할 수 있습니다.
  2. 다른 NVIDIA 개발 키트를 소유하고 있는 경우 SDK 관리자를 사용하여 JetPack을 장치에 플래시할 수 있습니다.
  3. 씨드 스튜디오 재컴퓨터 J4012 장치를 소유하고 있는 경우 JetPack을 포함된 SSD에 플래시할 수 있으며, 씨드 스튜디오 재컴퓨터 J1020 v2 장치를 소유하고 있는 경우 JetPack을 eMMC/ SSD에 플래시할 수 있습니다.
  4. NVIDIA Jetson 모듈로 구동되는 다른 타사 장치를 소유하고 있는 경우, 명령줄 플래싱을 따르는 것이 좋습니다.

참고

위의 방법 3과 4의 경우, 시스템을 플래시하고 디바이스를 부팅한 후 디바이스 터미널에서 "sudo apt update && sudo apt install nvidia-jetpack -y"를 입력하여 필요한 나머지 JetPack 구성 요소를 모두 설치하세요.

젯슨 디바이스 기반의 젯팩 지원

아래 표에는 다양한 NVIDIA Jetson 장치에서 지원되는 NVIDIA JetPack 버전이 나와 있습니다.

제트팩 4 제트팩 5 제트팩 6
젯슨 나노
Jetson TX2
젯슨 자비에 NX
Jetson AGX Xavier
Jetson AGX Orin
젯슨 오린 NX
젯슨 오린 나노

Docker로 빠르게 시작하기

Ultralytics YOLO11 NVIDIA Jetson을 시작하는 가장 빠른 방법은 미리 빌드된 Jetson용 도커 이미지로 실행하는 것입니다. 위의 표를 참조하여 소유하고 있는 Jetson 장치에 따라 JetPack 버전을 선택하세요.

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t
t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

이 작업이 완료되면 NVIDIA Jetson 섹션의 TensorRT 사용으로 건너뜁니다.

기본 설치로 시작하기

Docker를 사용하지 않고 기본 설치하려면 아래 단계를 참조하세요.

JetPack 6.1에서 실행

Ultralytics 패키지 설치

여기서는 선택적 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하여 모델을 다른 형식으로 내보내기 위해 PyTorch 모델을 다른 형식으로 내보낼 수 있습니다. NVIDIA TensorRT 내보내기에 주로 초점을 맞출 것입니다. TensorRT 을 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

  1. 패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. 설치 ultralytics 선택적 종속성이 있는 pip 패키지

    pip install ultralytics[export]
    
  3. 디바이스 재부팅

    sudo reboot
    

PyTorch 및 토치비전 설치

위의 ultralytics 설치는 Torch 및 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반인 Jetson 플랫폼에서 실행하기에는 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip 휠을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

설치 torch 2.5.0 그리고 torchvision 0.20 JP6.1에 따르면

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

참고

다른 JetPack 버전에 대한 모든 다른 버전에 액세스하려면 PyTorch 의 Jetson용 페이지 ( PyTorch )를 방문하세요. 자세한 목록은 PyTorch, Torchvision 호환성 페이지에서PyTorch 및 Torchvision 호환성 페이지를 참조하세요.

설치 cuSPARSELt 의 종속성 문제를 해결하려면 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

설치 onnxruntime-gpu

그리고 onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

사용 가능한 모든 것을 찾을 수 있습니다. onnxruntime-gpu 패키지(JetPack 버전, Python 버전 및 기타 호환성 세부 정보별로 정리됨)에 대한 자세한 내용은 Jetson Zoo ONNX 런타임 호환성 매트릭스. 여기에서 다운로드하여 설치합니다. onnxruntime-gpu 1.20.0 와 함께 Python3.10 지원.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

참고

onnxruntime-gpu 를 실행하면 numpy 버전이 자동으로 최신 버전으로 되돌아갑니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 를 실행하여 문제를 해결합니다:

pip install numpy==1.23.5

JetPack 5.1.2에서 실행

Ultralytics 패키지 설치

여기서는 PyTorch 모델을 다른 다른 형식으로 내보낼 수 있도록 선택적 종속성과 함께 Jetson에 Ultralytics 패키지를 설치하겠습니다. NVIDIA TensorRT 내보내기에 주로 초점을 맞출 것입니다. TensorRT 을 사용하면 Jetson 장치에서 최대 성능을 얻을 수 있기 때문입니다.

  1. 패키지 목록 업데이트, pip 설치 및 최신 버전으로 업그레이드

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
    
  2. 설치 ultralytics 선택적 종속성이 있는 pip 패키지

    pip install ultralytics[export]
    
  3. 디바이스 재부팅

    sudo reboot
    

PyTorch 및 토치비전 설치

위의 ultralytics 설치는 Torch 및 Torchvision을 설치합니다. 그러나 pip를 통해 설치된 이 두 패키지는 ARM64 아키텍처 기반인 Jetson 플랫폼에서 실행하기에는 호환되지 않습니다. 따라서 미리 빌드된 PyTorch pip 휠을 수동으로 설치하고 소스에서 Torchvision을 컴파일/설치해야 합니다.

  1. 현재 설치된 PyTorch 및 Torchvision 제거

    pip uninstall torch torchvision
    
  2. 설치 torch 2.2.0 그리고 torchvision 0.17.2 JP5.1.2에 따라

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl
    

참고

다른 JetPack 버전에 대한 모든 다른 버전에 액세스하려면 PyTorch 의 Jetson용 페이지 ( PyTorch )를 방문하세요. 자세한 목록은 PyTorch, Torchvision 호환성 페이지에서PyTorch 및 Torchvision 호환성 페이지를 참조하세요.

설치 onnxruntime-gpu

그리고 onnxruntime-gpu PyPI에서 호스팅되는 패키지에는 aarch64 바이너리가 없습니다. 따라서 이 패키지를 수동으로 설치해야 합니다. 이 패키지는 일부 내보내기에 필요합니다.

사용 가능한 모든 것을 찾을 수 있습니다. onnxruntime-gpu 패키지(JetPack 버전, Python 버전 및 기타 호환성 세부 정보별로 정리됨)에 대한 자세한 내용은 Jetson Zoo ONNX 런타임 호환성 매트릭스. 여기에서 다운로드하여 설치합니다. onnxruntime-gpu 1.17.0 와 함께 Python3.8 지원.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

참고

onnxruntime-gpu 를 실행하면 numpy 버전이 자동으로 최신 버전으로 되돌아갑니다. 따라서 numpy를 다시 설치해야 합니다. 1.23.5 를 실행하여 문제를 해결합니다:

pip install numpy==1.23.5

NVIDIA Jetson에서 TensorRT 사용

Ultralytics 지원하는 모든 모델 내보내기 형식 중에서 TensorRT NVIDIA Jetson 장치에서 가장 뛰어난 추론 성능을 제공하므로 Jetson 배포에 가장 권장되는 형식입니다. 설정 지침 및 고급 사용법은 전용 TensorRT 통합 가이드를 참조하세요.

모델을 TensorRT 로 변환하고 추론 실행

내보낸 모델로 추론을 실행하기 위해 PyTorch 형식의 YOLO11n 모델을 TensorRT 으로 변환합니다.

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

다른 모델 형식으로 모델을 내보낼 때 추가 인수를 사용하려면 내보내기 페이지를 방문하세요.

NVIDIA 딥러닝 액셀러레이터(DLA) 사용

NVIDIA 딥 러닝 액셀러레이터(DLA) 는 에너지 효율과 성능을 위해 딥 러닝 추론을 최적화하는 NVIDIA Jetson 장치에 내장된 특수 하드웨어 구성 요소입니다. GPU 에서 작업을 오프로드(보다 집중적인 프로세스를 위해 여유 공간을 확보)함으로써 DLA는 높은 처리량을 유지하면서 낮은 전력 소비로 모델을 실행할 수 있어 임베디드 시스템 및 실시간 AI 애플리케이션에 이상적입니다.

다음 Jetson 장치에는 DLA 하드웨어가 장착되어 있습니다:

Jetson 장치 DLA 코어 DLA 최대 주파수
젯슨 AGX 오린 시리즈 2 1.6 GHz
젯슨 오린 NX 16GB 2 614MHz
젯슨 오린 NX 8GB 1 614MHz
젯슨 AGX 자비에 시리즈 2 1.4GHz
젯슨 자비에 NX 시리즈 2 1.1 GHz

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

참고

DLA 내보내기를 사용할 때 일부 계층은 DLA에서 실행이 지원되지 않을 수 있으며 GPU 로 폴백되어 실행됩니다. 이 폴백은 추가적인 지연 시간을 발생시키고 전반적인 추론 성능에 영향을 미칠 수 있습니다. 따라서 DLA는 GPU 에서 전적으로 실행되는 TensorRT 에 비해 추론 지연 시간을 줄이기 위한 목적으로 설계되지 않았습니다. 대신 처리량을 늘리고 에너지 효율성을 개선하는 것이 주된 목적입니다.

NVIDIA 젯슨 오린 YOLO11 벤치마크

YOLO11 벤치마크는 속도와 정확도를 측정하는 10가지 모델 형식에 대해 Ultralytics 팀에서 실행했습니다: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN. 벤치마크는 기본 입력 이미지 크기가 640인 FP32 정밀도의 Jetson Orin NX 16GB 장치로 구동되는 NVIDIA Jetson AGX Orin 개발자 키트(64GB), NVIDIA Jetson Orin 나노 슈퍼 개발자 키트 및 Seeed Studio 재컴퓨터 J4012에서 실행되었습니다.

비교 차트

모든 모델 내보내기가 NVIDIA Jetson에서 작동하지만 아래 비교 차트에는 PyTorch, TorchScript, TensorRT 만 포함했는데, 이는 Jetson에서 GPU 을 사용하며 최상의 결과를 보장하기 때문입니다. 다른 모든 내보내기는 CPU 만 사용하며 성능이 위의 세 가지보다 좋지 않습니다. 이 차트 뒤의 섹션에서 모든 내보내기에 대한 벤치마크를 찾을 수 있습니다.

NVIDIA 젯슨 AGX 오린 개발자 키트(64GB)

Jetson AGX Orin 벤치마크
Ultralytics 8.3.157로 벤치마킹한 결과

NVIDIA 젯슨 오린 나노 슈퍼 개발자 키트

젯슨 오린 나노 슈퍼 벤치마크
Ultralytics 8.3.157로 벤치마킹한 결과

NVIDIA 젯슨 오린 NX 16GB

젯슨 오린 NX 16GB 벤치마크
Ultralytics 8.3.157로 벤치마킹한 결과

자세한 비교 표

아래 표는 5가지 모델(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)에 대한 10가지 형식PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN)의 벤치마크 결과로 각 조합의 상태, 크기, mAP50-95(B) 메트릭 및 추정 시간을 제공합니다.

NVIDIA 젯슨 AGX 오린 개발자 키트(64GB)

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 5.4 0.5101 9.40
TorchScript 10.5 0.5083 11.00
ONNX 10.2 0.5077 48.32
OpenVINO 10.4 0.5058 27.24
TensorRT (FP32) 12.1 0.5085 3.93
TensorRT (FP16) 8.3 0.5063 2.55
TensorRT (INT8) 5.4 0.4719 2.18
TF SavedModel 25.9 0.5077 66.87
TF GraphDef 10.3 0.5077 65.68
TF Lite 10.3 0.5077 272.92
MNN 10.1 0.5059 36.33
NCNN 10.2 0.5031 28.51
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 18.4 0.5783 12.10
TorchScript 36.5 0.5782 11.01
ONNX 36.3 0.5782 107.54
OpenVINO 36.4 0.5810 55.03
TensorRT (FP32) 38.1 0.5781 6.52
TensorRT (FP16) 21.4 0.5803 3.65
TensorRT (INT8) 12.1 0.5735 2.81
TF SavedModel 91.0 0.5782 132.73
TF GraphDef 36.4 0.5782 134.96
TF Lite 36.3 0.5782 798.21
MNN 36.2 0.5777 82.35
NCNN 36.2 0.5784 56.07
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 38.8 0.6265 22.20
TorchScript 77.3 0.6307 21.47
ONNX 76.9 0.6307 270.89
OpenVINO 77.1 0.6284 129.10
TensorRT (FP32) 78.8 0.6306 12.53
TensorRT (FP16) 41.9 0.6305 6.25
TensorRT (INT8) 23.2 0.6291 4.69
TF SavedModel 192.7 0.6307 299.95
TF GraphDef 77.1 0.6307 310.58
TF Lite 77.0 0.6307 2400.54
MNN 76.8 0.6308 213.56
NCNN 76.8 0.6284 141.18
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 49.0 0.6364 27.70
TorchScript 97.6 0.6399 27.94
ONNX 97.0 0.6409 345.47
OpenVINO 97.3 0.6378 161.93
TensorRT (FP32) 99.1 0.6406 16.11
TensorRT (FP16) 52.6 0.6376 8.08
TensorRT (INT8) 30.8 0.6208 6.12
TF SavedModel 243.1 0.6409 390.78
TF GraphDef 97.2 0.6409 398.76
TF Lite 97.1 0.6409 3037.05
MNN 96.9 0.6372 265.46
NCNN 96.9 0.6364 179.68
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 109.3 0.7005 44.40
TorchScript 218.1 0.6898 47.49
ONNX 217.5 0.6900 682.98
OpenVINO 217.8 0.6876 298.15
TensorRT (FP32) 219.6 0.6904 28.50
TensorRT (FP16) 112.2 0.6887 13.55
TensorRT (INT8) 60.0 0.6574 9.40
TF SavedModel 544.3 0.6900 749.85
TF GraphDef 217.7 0.6900 753.86
TF Lite 217.6 0.6900 6603.27
MNN 217.3 0.6868 519.77
NCNN 217.3 0.6849 298.58

Ultralytics 8.3.157로 벤치마킹한 결과

참고

추론 시간에는 사전/사후 처리가 포함되지 않습니다.

NVIDIA 젯슨 오린 나노 슈퍼 개발자 키트

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 5.4 0.5101 13.70
TorchScript 10.5 0.5082 13.69
ONNX 10.2 0.5081 14.47
OpenVINO 10.4 0.5058 56.66
TensorRT (FP32) 12.0 0.5081 7.44
TensorRT (FP16) 8.2 0.5061 4.53
TensorRT (INT8) 5.4 0.4825 3.70
TF SavedModel 25.9 0.5077 116.23
TF GraphDef 10.3 0.5077 114.92
TF Lite 10.3 0.5077 340.75
MNN 10.1 0.5059 76.26
NCNN 10.2 0.5031 45.03
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 18.4 0.5790 20.90
TorchScript 36.5 0.5781 21.22
ONNX 36.3 0.5781 25.07
OpenVINO 36.4 0.5810 122.98
TensorRT (FP32) 37.9 0.5783 13.02
TensorRT (FP16) 21.8 0.5779 6.93
TensorRT (INT8) 12.2 0.5735 5.08
TF SavedModel 91.0 0.5782 250.65
TF GraphDef 36.4 0.5782 252.69
TF Lite 36.3 0.5782 998.68
MNN 36.2 0.5781 188.01
NCNN 36.2 0.5784 101.37
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 38.8 0.6266 46.50
TorchScript 77.3 0.6307 47.95
ONNX 76.9 0.6307 53.06
OpenVINO 77.1 0.6284 301.63
TensorRT (FP32) 78.8 0.6305 27.86
TensorRT (FP16) 41.7 0.6309 13.50
TensorRT (INT8) 23.2 0.6291 9.12
TF SavedModel 192.7 0.6307 622.24
TF GraphDef 77.1 0.6307 628.74
TF Lite 77.0 0.6307 2997.93
MNN 76.8 0.6299 509.96
NCNN 76.8 0.6284 292.99
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 49.0 0.6364 56.50
TorchScript 97.6 0.6409 62.51
ONNX 97.0 0.6399 68.35
OpenVINO 97.3 0.6378 376.03
TensorRT (FP32) 99.2 0.6396 35.59
TensorRT (FP16) 52.1 0.6361 17.48
TensorRT (INT8) 30.9 0.6207 11.87
TF SavedModel 243.1 0.6409 807.47
TF GraphDef 97.2 0.6409 822.88
TF Lite 97.1 0.6409 3792.23
MNN 96.9 0.6372 631.16
NCNN 96.9 0.6364 350.46
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 109.3 0.7005 90.00
TorchScript 218.1 0.6901 113.40
ONNX 217.5 0.6901 122.94
OpenVINO 217.8 0.6876 713.1
TensorRT (FP32) 219.5 0.6904 66.93
TensorRT (FP16) 112.2 0.6892 32.58
TensorRT (INT8) 61.5 0.6612 19.90
TF SavedModel 544.3 0.6900 1605.4
TF GraphDef 217.8 0.6900 2961.8
TF Lite 217.6 0.6900 8234.86
MNN 217.3 0.6893 1254.18
NCNN 217.3 0.6849 725.50

Ultralytics 8.3.157로 벤치마킹한 결과

참고

추론 시간에는 사전/사후 처리가 포함되지 않습니다.

NVIDIA 젯슨 오린 NX 16GB

성능

형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 5.4 0.5101 12.90
TorchScript 10.5 0.5082 13.17
ONNX 10.2 0.5081 15.43
OpenVINO 10.4 0.5058 39.80
TensorRT (FP32) 11.8 0.5081 7.94
TensorRT (FP16) 8.1 0.5085 4.73
TensorRT (INT8) 5.4 0.4786 3.90
TF SavedModel 25.9 0.5077 88.48
TF GraphDef 10.3 0.5077 86.67
TF Lite 10.3 0.5077 302.55
MNN 10.1 0.5059 52.73
NCNN 10.2 0.5031 32.04
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 18.4 0.5790 21.70
TorchScript 36.5 0.5781 22.71
ONNX 36.3 0.5781 26.49
OpenVINO 36.4 0.5810 84.73
TensorRT (FP32) 37.8 0.5783 13.77
TensorRT (FP16) 21.2 0.5796 7.31
TensorRT (INT8) 12.0 0.5735 5.33
TF SavedModel 91.0 0.5782 185.06
TF GraphDef 36.4 0.5782 186.45
TF Lite 36.3 0.5782 882.58
MNN 36.2 0.5775 126.36
NCNN 36.2 0.5784 66.73
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 38.8 0.6266 45.00
TorchScript 77.3 0.6307 51.87
ONNX 76.9 0.6307 56.00
OpenVINO 77.1 0.6284 202.69
TensorRT (FP32) 78.7 0.6305 30.38
TensorRT (FP16) 41.8 0.6302 14.48
TensorRT (INT8) 23.2 0.6291 9.74
TF SavedModel 192.7 0.6307 445.58
TF GraphDef 77.1 0.6307 460.94
TF Lite 77.0 0.6307 2653.65
MNN 76.8 0.6308 339.38
NCNN 76.8 0.6284 187.64
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 49.0 0.6364 56.60
TorchScript 97.6 0.6409 66.72
ONNX 97.0 0.6399 71.92
OpenVINO 97.3 0.6378 254.17
TensorRT (FP32) 99.2 0.6406 38.89
TensorRT (FP16) 51.9 0.6363 18.59
TensorRT (INT8) 30.9 0.6207 12.60
TF SavedModel 243.1 0.6409 575.98
TF GraphDef 97.2 0.6409 583.79
TF Lite 97.1 0.6409 3353.41
MNN 96.9 0.6367 421.33
NCNN 96.9 0.6364 228.26
형식 상태 디스크 크기(MB) mAP50-95(B) 추론 시간(ms/im)
PyTorch 109.3 0.7005 98.50
TorchScript 218.1 0.6901 123.03
ONNX 217.5 0.6901 129.55
OpenVINO 217.8 0.6876 483.44
TensorRT (FP32) 219.6 0.6904 75.92
TensorRT (FP16) 112.1 0.6885 35.78
TensorRT (INT8) 61.6 0.6592 21.60
TF SavedModel 544.3 0.6900 1120.43
TF GraphDef 217.7 0.6900 1172.35
TF Lite 217.6 0.6900 7283.63
MNN 217.3 0.6877 840.16
NCNN 217.3 0.6849 474.41

Ultralytics 8.3.157로 벤치마킹한 결과

참고

추론 시간에는 사전/사후 처리가 포함되지 않습니다.

다양한 버전의 NVIDIA Jetson 하드웨어에서 실행되는 Seeed Studio를 통해 더 많은 벤치마킹 결과를 살펴보세요.

결과 재현

모든 내보내기 형식에서 위의 Ultralytics 벤치마크를 재현하려면 다음 코드를 실행하세요:

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640

벤치마킹 결과는 시스템의 정확한 하드웨어 및 소프트웨어 구성과 벤치마크를 실행할 당시 시스템의 현재 작업량에 따라 달라질 수 있다는 점에 유의하세요. 가장 신뢰할 수 있는 결과를 얻으려면 많은 수의 이미지가 포함된 데이터 세트를 사용하세요. data='coco.yaml' (5000 VAL 이미지).

NVIDIA Jetson 사용 시 모범 사례

NVIDIA Jetson을 사용하는 경우, NVIDIA Jetson을 실행하는 YOLO11 에서 성능을 극대화하기 위해 따라야 할 몇 가지 모범 사례가 있습니다.

  1. 최대 전력 모드 활성화

    Jetson에서 최대 전력 모드를 활성화하면 CPU, GPU 코어가 모두 켜져 있는지 확인합니다.

    sudo nvpmodel -m 0
    
  2. Jetson 클록 사용

    Jetson 클럭을 활성화하면 모든 CPU, GPU 코어가 최대 주파수로 클럭됩니다.

    sudo jetson_clocks
    
  3. Jetson 통계 애플리케이션 설치

    젯슨 통계 애플리케이션을 사용하여 시스템 구성 요소의 온도를 모니터링하고 CPU, GPU, RAM 사용률, 전원 모드 변경, 최대 클럭으로 설정, 젯팩 정보 확인과 같은 기타 시스템 세부 정보를 확인할 수 있습니다.

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
    

Jetson 통계

다음 단계

NVIDIA Jetson에 YOLO11 을 성공적으로 설정하신 것을 축하드립니다! 추가 학습 및 지원은 Ultralytics YOLO11 문서에서 더 많은 가이드를 확인하세요!

자주 묻는 질문

NVIDIA Jetson 장치에 Ultralytics YOLO11 배포하려면 어떻게 합니까?

NVIDIA Jetson 장치에 Ultralytics YOLO11 배포하는 과정은 간단합니다. 먼저 NVIDIA JetPack SDK로 Jetson 장치를 플래시합니다. 그런 다음 빠른 설정을 위해 사전 빌드된 Docker 이미지를 사용하거나 필요한 패키지를 수동으로 설치합니다. 각 접근 방식에 대한 자세한 단계는 Docker로 빠른 시작기본 설치로 시작 섹션에서 확인할 수 있습니다.

NVIDIA Jetson 장치에서 YOLO11 모델에서 어떤 성능 벤치마크를 기대할 수 있습니까?

YOLO11 모델을 다양한 NVIDIA Jetson 장치에서 벤치마킹한 결과 상당한 성능 향상을 보였습니다. 예를 들어, TensorRT 형식이 최고의 추론 성능을 제공합니다. 세부 비교 표 섹션의 표는 다양한 모델 형식에 걸쳐 mAP50-95 및 추론 시간과 같은 성능 메트릭에 대한 포괄적인 보기를 제공합니다.

NVIDIA Jetson에 YOLO11 배포 시 TensorRT 을 사용해야 하는 이유는 무엇인가요?

TensorRT 은 최적의 성능으로 인해 NVIDIA Jetson에 YOLO11 모델을 배포하는 데 적극 권장됩니다. Jetson의 GPU 기능을 활용하여 추론을 가속화하여 최대의 효율성과 속도를 보장합니다. TensorRT 로 변환하고 추론을 실행하는 방법에 대한 자세한 내용은 NVIDIA Jetson의 TensorRT 사용 섹션에서 확인할 수 있습니다.

NVIDIA Jetson에 PyTorch 및 Torchvision을 설치하려면 어떻게 해야 하나요?

NVIDIA Jetson에 PyTorch 및 Torchvision을 설치하려면 먼저 pip를 통해 설치되었을 수 있는 기존 버전을 모두 제거합니다. 그런 다음 Jetson의 ARM64 아키텍처에 호환되는 PyTorch 및 Torchvision 버전을 수동으로 설치합니다. 이 프로세스에 대한 자세한 지침은 PyTorch 및 Torchvision 설치 섹션에 나와 있습니다.

YOLO11 을 사용할 때 NVIDIA Jetson에서 성능을 극대화하기 위한 모범 사례는 무엇입니까?

YOLO11 을 사용하여 NVIDIA Jetson의 성능을 극대화하려면 다음 모범 사례를 따르십시오:

  1. 최대 전력 모드를 활성화하여 CPU 및 GPU 코어를 모두 활용합니다.
  2. 모든 코어를 최대 주파수로 실행하도록 Jetson 클럭을 활성화합니다.
  3. 시스템 메트릭을 모니터링하기 위해 Jetson Stats 애플리케이션을 설치합니다.

명령어 및 자세한 내용은 NVIDIA Jetson 사용 시 모범 사례 섹션을 참조하세요.



📅1 년 전 생성됨 ✏️ 업데이트됨 19 일 전

댓글