Meet YOLO26: next-gen vision AI.

Link to this sectionUltralytics YOLO26 trên NVIDIA Jetson sử dụng DeepStream SDK và TensorRT#



Watch: How to use Ultralytics YOLO26 models with NVIDIA Deepstream on Jetson Orin NX 🚀

Hướng dẫn toàn diện này cung cấp các bước chi tiết để triển khai Ultralytics YOLO26 trên các thiết bị NVIDIA Jetson sử dụng DeepStream SDK và TensorRT. Ở đây, chúng tôi sử dụng TensorRT để tối ưu hóa hiệu suất inference trên nền tảng Jetson.

NVIDIA DeepStream SDK on Jetson platform
Lưu ý

Hướng dẫn này đã được kiểm nghiệm với NVIDIA Jetson Orin Nano Super Developer Kit chạy bản phát hành JetPack ổn định mới nhất là JP6.1, Seeed Studio reComputer J4012 dựa trên NVIDIA Jetson Orin NX 16GB chạy bản phát hành JetPack JP5.1.3Seeed Studio reComputer J1020 v2 dựa trên NVIDIA Jetson Nano 4GB chạy bản phát hành JetPack JP4.6.4. Hướng dẫn này được kỳ vọng sẽ hoạt động trên tất cả dòng phần cứng NVIDIA Jetson, bao gồm cả các thiết bị mới nhất và cũ hơn.

Link to this sectionNVIDIA DeepStream là gì?#

NVIDIA's DeepStream SDK is a complete streaming analytics toolkit based on GStreamer for AI-based multi-sensor processing, video, audio, and image understanding. It's ideal for vision AI developers, software partners, startups, and OEMs building IVA (Intelligent Video Analytics) apps and services. You can now create stream-processing pipelines that incorporate neural networks and other complex processing tasks like tracking, video encoding/decoding, and video rendering. These pipelines enable real-time analytics on video, image, and sensor data. DeepStream's multi-platform support gives you a faster, easier way to develop vision AI applications and services on-premise, at the edge, and in the cloud.

Link to this sectionĐiều kiện tiên quyết#

Trước khi bạn bắt đầu thực hiện theo hướng dẫn này:

Mẹo

Trong hướng dẫn này, chúng tôi đã sử dụng phương pháp gói Debian để cài đặt DeepStream SDK lên thiết bị Jetson. Bạn cũng có thể truy cập DeepStream SDK trên Jetson (Archived) để truy cập các phiên bản cũ của DeepStream.

Link to this sectionCấu hình DeepStream cho YOLO26#

Tại đây, chúng tôi sử dụng kho lưu trữ GitHub marcoslucianops/DeepStream-Yolo, bao gồm hỗ trợ NVIDIA DeepStream SDK cho các model YOLO. Chúng tôi đánh giá cao những nỗ lực đóng góp của marcoslucianops!

  1. Cài đặt Ultralytics với các phụ thuộc cần thiết

    cd ~
    pip install -U pip
    git clone https://github.com/ultralytics/ultralytics
    cd ultralytics
    pip install -e ".[export]" onnxslim
  2. Clone kho lưu trữ DeepStream-Yolo

    cd ~
    git clone https://github.com/marcoslucianops/DeepStream-Yolo
  3. Sao chép tệp export_yolo26.py từ thư mục DeepStream-Yolo/utils sang thư mục ultralytics

    cp ~/DeepStream-Yolo/utils/export_yolo26.py ~/ultralytics
    cd ultralytics
  4. Tải xuống model phát hiện Ultralytics YOLO26 (.pt) mà bạn chọn từ các bản phát hành YOLO26. Ở đây chúng tôi sử dụng yolo26s.pt.

    wget https://github.com/ultralytics/assets/releases/download/v8.4.0/yolo26s.pt
Lưu ý

Bạn cũng có thể sử dụng model YOLO26 tự huấn luyện.

  1. Chuyển đổi model sang ONNX

    python3 export_yolo26.py -w yolo26s.pt
Truyền các đối số dưới đây vào lệnh trên

Đối với DeepStream 5.1, hãy loại bỏ đối số --dynamic và sử dụng opset 12 hoặc thấp hơn. opset mặc định là 17.

--opset 12

Để thay đổi kích thước inference (mặc định: 640)

-s SIZE
--size SIZE
-s HEIGHT WIDTH
--size HEIGHT WIDTH

Ví dụ cho 1280:

-s 1280
or
-s 1280 1280

Để đơn giản hóa model ONNX (DeepStream >= 6.0)

--simplify

Để sử dụng dynamic batch-size (DeepStream >= 6.1)

--dynamic

Để sử dụng static batch-size (ví dụ cho batch-size = 4)

--batch 4
  1. Sao chép tệp model .onnx đã tạo và tệp labels.txt vào thư mục DeepStream-Yolo

    cp yolo26s.pt.onnx labels.txt ~/DeepStream-Yolo
    cd ~/DeepStream-Yolo
  2. Đặt phiên bản CUDA theo phiên bản JetPack đã cài đặt

    Đối với JetPack 4.6.4:

    export CUDA_VER=10.2

    Đối với JetPack 5.1.3:

    export CUDA_VER=11.4

    Đối với JetPack 6.1:

    export CUDA_VER=12.6
  3. Biên dịch thư viện

    make -C nvdsinfer_custom_impl_Yolo clean && make -C nvdsinfer_custom_impl_Yolo
  4. Chỉnh sửa tệp config_infer_primary_yolo26.txt theo model của bạn (cho YOLO26s với 80 lớp)

    [property]
    ...
    onnx-file=yolo26s.pt.onnx
    ...
    num-detected-classes=80
    ...
  5. Chỉnh sửa tệp deepstream_app_config

    ...
    [primary-gie]
    ...
    config-file=config_infer_primary_yolo26.txt
  6. Bạn cũng có thể thay đổi nguồn video trong tệp deepstream_app_config. Tại đây, một tệp video mặc định được tải

    ...
    [source0]
    ...
    uri=file:///opt/nvidia/deepstream/deepstream/samples/streams/sample_1080p_h264.mp4

Link to this sectionChạy Inference#

deepstream-app -c deepstream_app_config.txt
Lưu ý

Sẽ mất một khoảng thời gian đáng kể để tạo tệp engine TensorRT trước khi bắt đầu inference. Vì vậy, hãy kiên nhẫn.

YOLO26 with deepstream
Mẹo

Nếu bạn muốn chuyển đổi model sang độ chính xác FP16, chỉ cần đặt model-engine-file=model_b1_gpu0_fp16.enginenetwork-mode=2 bên trong tệp config_infer_primary_yolo26.txt

Link to this sectionHiệu chỉnh INT8#

Nếu bạn muốn sử dụng độ chính xác INT8 cho inference, bạn cần thực hiện theo các bước dưới đây:

Lưu ý

Hiện tại INT8 không hoạt động với TensorRT 10.x. Phần này của hướng dẫn đã được kiểm nghiệm với TensorRT 8.x và được kỳ vọng sẽ hoạt động.

  1. Đặt biến môi trường OPENCV

    export OPENCV=1
  2. Biên dịch thư viện

    make -C nvdsinfer_custom_impl_Yolo clean && make -C nvdsinfer_custom_impl_Yolo
  3. Đối với tập dữ liệu COCO, hãy tải xuống val2017, giải nén và di chuyển đến thư mục DeepStream-Yolo

  4. Tạo một thư mục mới cho các hình ảnh hiệu chỉnh

    mkdir calibration
  5. Chạy lệnh sau để chọn ngẫu nhiên 1000 hình ảnh từ tập dữ liệu COCO để thực hiện hiệu chỉnh

    for jpg in $(ls -1 val2017/*.jpg | sort -R | head -1000); do
      cp ${jpg} calibration/
    done
Lưu ý

NVIDIA khuyến nghị sử dụng ít nhất 500 hình ảnh để có được độ chính xác tốt. Trong ví dụ này, 1000 hình ảnh được chọn để đạt được độ chính xác tốt hơn (nhiều hình ảnh hơn = độ chính xác cao hơn). Bạn có thể thiết lập số lượng từ head -1000. Ví dụ, đối với 2000 hình ảnh, hãy dùng head -2000. Quá trình này có thể tốn khá nhiều thời gian.

  1. Tạo tệp calibration.txt với tất cả các hình ảnh đã chọn

    realpath calibration/*jpg > calibration.txt
  2. Đặt các biến môi trường

    export INT8_CALIB_IMG_PATH=calibration.txt
    export INT8_CALIB_BATCH_SIZE=1
Lưu ý

Giá trị INT8_CALIB_BATCH_SIZE cao hơn sẽ mang lại độ chính xác cao hơn và tốc độ hiệu chỉnh nhanh hơn. Hãy đặt giá trị này tùy theo bộ nhớ GPU của bạn.

  1. Cập nhật tệp config_infer_primary_yolo26.txt

    Từ

    ...
    model-engine-file=model_b1_gpu0_fp32.engine
    #int8-calib-file=calib.table
    ...
    network-mode=0
    ...

    Đến

    ...
    model-engine-file=model_b1_gpu0_int8.engine
    int8-calib-file=calib.table
    ...
    network-mode=1
    ...

Link to this sectionChạy Inference#

deepstream-app -c deepstream_app_config.txt

Link to this sectionThiết lập đa luồng (MultiStream)#



Watch: How to Run Multi-Stream Inference with Ultralytics YOLO26 using NVIDIA DeepStream on Jetson Orin 🚀

Để thiết lập nhiều luồng trong một ứng dụng DeepStream duy nhất, hãy thực hiện các thay đổi sau đối với tệp deepstream_app_config.txt:

  1. Thay đổi số hàng và số cột để tạo lưới hiển thị theo số lượng luồng bạn muốn có. Ví dụ, đối với 4 luồng, chúng ta có thể thêm 2 hàng và 2 cột.

    [tiled-display]
    rows=2
    columns=2
  2. Đặt num-sources=4 và thêm các mục nhập uri cho cả bốn luồng.

    [source0]
    enable=1
    type=3
    uri=path/to/video1.jpg
    uri=path/to/video2.jpg
    uri=path/to/video3.jpg
    uri=path/to/video4.jpg
    num-sources=4

Link to this sectionChạy Inference#

deepstream-app -c deepstream_app_config.txt
DeepStream multi-camera streaming configuration

Link to this sectionKết quả Benchmark#

Các benchmark sau đây tóm tắt cách các model YOLO26 hoạt động ở các cấp độ chính xác TensorRT khác nhau với kích thước đầu vào 640x640 trên NVIDIA Jetson Orin NX 16GB.

Link to this sectionBiểu đồ so sánh#

NVIDIA Jetson DeepStream performance benchmarks

Link to this sectionBảng so sánh chi tiết#

Hiệu suất
Định dạngTrạng tháiThời gian suy luận (ms/im)
TensorRT (FP32)8.64
TensorRT (FP16)5.27
TensorRT (INT8)4.54

Link to this sectionLời cảm ơn#

Hướng dẫn này ban đầu được tạo bởi những người bạn của chúng tôi tại Seeed Studio, Lakshantha và Elaine.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionLàm thế nào để thiết lập Ultralytics YOLO26 trên thiết bị NVIDIA Jetson?#

Để thiết lập Ultralytics YOLO26 trên thiết bị NVIDIA Jetson, trước tiên bạn cần cài đặt DeepStream SDK tương thích với phiên bản JetPack của bạn. Hãy làm theo hướng dẫn từng bước trong Hướng dẫn khởi động nhanh của chúng tôi để cấu hình NVIDIA Jetson cho việc triển khai YOLO26.

Link to this sectionLợi ích của việc sử dụng TensorRT với YOLO26 trên NVIDIA Jetson là gì?#

Sử dụng TensorRT với YOLO26 giúp tối ưu hóa model cho việc inference, giảm đáng kể độ trễ và cải thiện thông lượng trên các thiết bị NVIDIA Jetson. TensorRT cung cấp khả năng deep learning inference hiệu suất cao, độ trễ thấp thông qua việc hợp nhất các lớp (layer fusion), hiệu chỉnh độ chính xác và tự động tinh chỉnh kernel. Điều này dẫn đến việc thực thi nhanh hơn và hiệu quả hơn, đặc biệt hữu ích cho các ứng dụng thời gian thực như phân tích video và máy tự hành.

Link to this sectionTôi có thể chạy Ultralytics YOLO26 với DeepStream SDK trên các phần cứng NVIDIA Jetson khác nhau không?#

Có, hướng dẫn triển khai Ultralytics YOLO26 với DeepStream SDK và TensorRT tương thích trên toàn bộ dòng sản phẩm NVIDIA Jetson. Điều này bao gồm các thiết bị như Jetson Orin NX 16GB với JetPack 5.1.3 và Jetson Nano 4GB với JetPack 4.6.4. Hãy tham khảo phần Cấu hình DeepStream cho YOLO26 để biết các bước chi tiết.

Link to this sectionLàm thế nào để tôi có thể chuyển đổi model YOLO26 sang ONNX cho DeepStream?#

Để chuyển đổi model YOLO26 sang định dạng ONNX phục vụ triển khai với DeepStream, hãy sử dụng tập lệnh utils/export_yolo26.py từ kho lưu trữ DeepStream-Yolo.

Dưới đây là một ví dụ lệnh:

python3 utils/export_yolo26.py -w yolo26s.pt --opset 12 --simplify

Để biết thêm chi tiết về việc chuyển đổi model, hãy xem phần xuất model của chúng tôi.

Link to this sectionCác benchmark hiệu suất cho YOLO trên NVIDIA Jetson Orin NX là gì?#

Hiệu suất của các model YOLO26 trên NVIDIA Jetson Orin NX 16GB thay đổi tùy theo mức độ chính xác của TensorRT. Ví dụ, các model YOLO26s đạt được:

  • Độ chính xác FP32: 14.6 ms/im, 68.5 FPS
  • Độ chính xác FP16: 7.94 ms/im, 126 FPS
  • Độ chính xác INT8: 5.95 ms/im, 168 FPS

Các điểm chuẩn này nhấn mạnh hiệu suất và khả năng khi sử dụng các model YOLO26 đã được tối ưu hóa bằng TensorRT trên phần cứng NVIDIA Jetson. Để biết thêm chi tiết, hãy xem phần Kết quả Benchmark của chúng tôi.

Bình luận