Hướng dẫn nhanh: NVIDIA DGX Spark với Ultralytics YOLO11
Hướng dẫn toàn diện này cung cấp hướng dẫn chi tiết từng bước để triển khai Ultralytics YOLO11 trên NVIDIA DGX Spark , NVIDIA siêu máy tính AI để bàn nhỏ gọn của hãng. Ngoài ra, nó còn trình bày các điểm chuẩn hiệu năng để chứng minh khả năng của... YOLO11 trên hệ thống mạnh mẽ này.

Lưu ý
Hướng dẫn này đã được kiểm nghiệm với NVIDIA DGX Spark Founders Edition chạy hệ điều hành DGX OS dựa trên Ubuntu. Dự kiến sẽ hoạt động với các phiên bản DGX OS mới nhất.
Là gì NVIDIA DGX Spark?
NVIDIA DGX Spark là một siêu máy tính AI để bàn nhỏ gọn, được trang bị hệ điều hành... NVIDIA GB10 Grace Blackwell Superchip. Nó cung cấp hiệu năng tính toán AI lên đến 1 petaFLOP với độ chính xác FP4, lý tưởng cho các nhà phát triển, nhà nghiên cứu và nhà khoa học dữ liệu cần khả năng AI mạnh mẽ trong một thiết bị để bàn nhỏ gọn.
Thông số kỹ thuật chính
| Thông số kỹ thuật | Chi tiết |
|---|---|
| Hiệu suất AI | Lên đến 1 PFLOP (FP4) |
| GPU | NVIDIA Công ty kiến trúc Blackwell thế hệ thứ 5 Tensor Lõi xử lý, Lõi RT thế hệ thứ 4 |
| CPU | Bộ xử lý Arm 20 nhân (10 Cortex-X925 + 10 Cortex-A725) |
| Bộ nhớ | Bộ nhớ hệ thống thống nhất LPDDR5x 128 GB, giao diện 256 bit, tốc độ 4266 MHz, băng thông 273 GB/s. |
| Kho | Ổ cứng NVMe M.2 1 TB hoặc 4 TB với tính năng tự mã hóa. |
| Mạng | 1 cổng RJ-45 (10 GbE), card mạng thông minh ConnectX-7, Wi-Fi 7, Bluetooth 5.4 |
| Kết nối | 4 cổng USB Type-C, 1 cổng HDMI 2.1a, âm thanh đa kênh HDMI |
| Xử lý video | 1x NVENC, 1x NVDEC |
Hệ điều hành DGX
NVIDIA DGX OS là một bản phân phối Linux tùy chỉnh, cung cấp nền tảng hệ điều hành ổn định, đã được kiểm thử và hỗ trợ để chạy các ứng dụng trí tuệ nhân tạo, máy học và phân tích trên hệ thống DGX. Nó bao gồm:
- Một nền tảng Linux mạnh mẽ được tối ưu hóa cho các tác vụ trí tuệ nhân tạo.
- Trình điều khiển và cài đặt hệ thống được cấu hình sẵn cho NVIDIA phần cứng
- Các bản cập nhật bảo mật và khả năng bảo trì hệ thống
- Khả năng tương thích với phạm vi rộng hơn NVIDIA hệ sinh thái phần mềm
Hệ điều hành DGX OS tuân theo lịch phát hành định kỳ với các bản cập nhật thường được cung cấp hai lần mỗi năm (khoảng tháng Hai và tháng Tám), cùng với các bản vá bảo mật bổ sung được cung cấp giữa các bản phát hành chính.
Bảng điều khiển DGX
DGX Spark được tích hợp sẵn bảng điều khiển DGX Dashboard cung cấp các chức năng sau:
- Giám sát hệ thống theo thời gian thực : Tổng quan về các chỉ số hoạt động hiện tại của hệ thống.
- Cập nhật hệ thống : Khả năng áp dụng các bản cập nhật trực tiếp từ bảng điều khiển.
- Cài đặt hệ thống : Thay đổi tên thiết bị và các cấu hình khác
- Tích hợp JupyterLab : Truy cập sổ tay Jupyter cục bộ để phát triển.

Truy cập Bảng điều khiển
Nhấp vào nút "Hiển thị ứng dụng" ở góc dưới bên trái màn hình nền Ubuntu, sau đó chọn "DGX Dashboard" để mở nó trong trình duyệt của bạn.
# Open an SSH tunnel
ssh -L 11000:localhost:11000 <username>@<IP or spark-abcd.local>
# Then open in browser
# http://localhost:11000
Sau khi kết nối với NVIDIA Đồng bộ hóa, nhấp vào nút "DGX Dashboard" để mở bảng điều khiển tại http://localhost:11000.
Tích hợp JupyterLab
Bảng điều khiển tích hợp sẵn một phiên bản JupyterLab, tự động tạo môi trường ảo và cài đặt các gói được đề xuất khi khởi động. Mỗi tài khoản người dùng được gán một cổng riêng để truy cập JupyterLab.
Quick Start with Docker
Cách nhanh nhất để bắt đầu với Ultralytics YOLO11 TRÊN NVIDIA DGX Spark được thiết kế để chạy với các ảnh Docker được xây dựng sẵn. Ảnh Docker hỗ trợ Jetson AGX Thor (JetPack 7.0) cũng hoạt động trên DGX Spark với hệ điều hành DGX OS.
t=ultralytics/ultralytics:latest-nvidia-arm64
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia --gpus all $t
Sau khi hoàn tất bước này, hãy chuyển đến phần Sử dụng TensorRT trên NVIDIA DGX Spark .
Start with Native Installation
Để cài đặt trực tiếp mà không cần Docker, hãy làm theo các bước sau.
Cài đặt Gói Ultralytics
Tại đây chúng ta sẽ cài đặt Ultralytics Gói này được cài đặt trên DGX Spark với các phụ thuộc tùy chọn để chúng ta có thể xuất các mô hình PyTorch sang các định dạng khác nhau. Chúng ta sẽ chủ yếu tập trung vào việc xuất sang NVIDIA TensorRT vì TensorRT Điều này sẽ đảm bảo chúng ta có thể khai thác tối đa hiệu năng của DGX Spark.
Cập nhật danh sách các gói, cài đặt pip và nâng cấp lên phiên bản mới nhất
sudo apt update sudo apt install python3-pip -y pip install -U pipCài đặt
ultralyticsgói pip với các dependency tùy chọnpip install ultralytics[export]Khởi động lại thiết bị
sudo reboot
Install PyTorch and Torchvision
Những điều nêu trên ultralytics quá trình cài đặt sẽ cài đặt Torch và Torchvision. Tuy nhiên, các gói được cài đặt thông qua pip này có thể chưa được tối ưu hóa hoàn toàn cho kiến trúc ARM64 của DGX Spark. CUDA 13. Do đó, chúng tôi khuyến nghị cài đặt CUDA 13 phiên bản tương thích:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130
Thông tin
Khi chạy PyTorch 2.9.1 trở đi NVIDIA Với DGX Spark, bạn có thể gặp phải các vấn đề sau: UserWarning khi khởi tạo CUDA (ví dụ: chạy) yolo checks, yolo predict, vân vân.):
UserWarning: Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is (8.0) - (12.0)
Bạn có thể bỏ qua cảnh báo này một cách an toàn. Để giải quyết vấn đề này vĩnh viễn, một bản vá lỗi đã được gửi đến. PyTorch Yêu cầu kéo số 164590 sẽ được đưa vào. PyTorch Phiên bản 2.10 đã được phát hành.
Cài đặt onnxruntime-gpu
Hàm onnxruntime-gpu gói được lưu trữ trong PyPI không có aarch64 Các tệp nhị phân dành cho hệ thống ARM64. Vì vậy, chúng ta cần cài đặt gói này thủ công. Gói này cần thiết cho một số chức năng xuất khẩu.
Ở đây chúng ta sẽ tải xuống và cài đặt onnxruntime-gpu 1.24.0 với Python3.12 hỗ trợ.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl
Sử dụng TensorRT TRÊN NVIDIA DGX Spark
Trong số tất cả các định dạng xuất mô hình được hỗ trợ bởi Ultralytics , TensorRT mang lại hiệu suất suy luận cao nhất trên NVIDIA DGX Spark là lựa chọn hàng đầu của chúng tôi cho các triển khai. Để biết hướng dẫn thiết lập và sử dụng nâng cao, hãy xem hướng dẫn tích hợp TensorRT chuyên dụng của chúng tôi.
Chuyển đổi mô hình sang TensorRT và chạy suy luận
Mô hình YOLO11n ở định dạng PyTorch được chuyển đổi sang TensorRT để chạy suy luận với mô hình đã xuất.
Ví dụ
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo11n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'
# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'
Lưu ý
Truy cập trang Xuất để truy cập các đối số bổ sung khi xuất mô hình sang các định dạng mô hình khác nhau
NVIDIA DGX Spark YOLO11 Tiêu chuẩn
YOLO11 Các bài kiểm tra hiệu năng được thực hiện bởi Ultralytics Đội ngũ chuyên gia về nhiều định dạng mô hình khác nhau đo lường tốc độ và độ chính xác : PyTorch , TorchScript , ONNX , OpenVINO , TensorRT , TF SavedModel , TF GraphDef , TF Lite, MNN, NCNN ExecuTorch. Các bài kiểm tra hiệu năng đã được thực hiện trên NVIDIA DGX Spark hoạt động ở độ chính xác FP32 với kích thước ảnh đầu vào mặc định là 640.
Bảng so sánh chi tiết
Bảng dưới đây thể hiện kết quả kiểm tra hiệu năng của năm mẫu máy khác nhau (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) trên nhiều định dạng, cho chúng ta biết về trạng thái, kích thước, mAP50 -95(B) số liệu và thời gian suy luận cho mỗi tổ hợp.
Hiệu suất
| Định dạng | Trạng thái | Dung lượng trên ổ cứng (MB) | mAP50 -95(B) | Thời gian suy luận (ms/ảnh) |
|---|---|---|---|---|
| PyTorch | ✅ | 5.4 | 0.5071 | 2.67 |
| TorchScript | ✅ | 10.5 | 0.5083 | 2.62 |
| ONNX | ✅ | 10.2 | 0.5074 | 5.92 |
| OpenVINO | ✅ | 10.4 | 0.5058 | 14.95 |
| TensorRT (FP32) | ✅ | 12.8 | 0.5085 | 1.95 |
| TensorRT (FP16) | ✅ | 7.0 | 0.5068 | 1.01 |
| TensorRT (INT8) | ✅ | 18.6 | 0.4880 | 1.62 |
| TF SavedModel | ✅ | 25.7 | 0.5076 | 36.39 |
| TF GraphDef | ✅ | 10.3 | 0.5076 | 41.06 |
| TF Lite | ✅ | 10.3 | 0.5075 | 64.36 |
| MNN | ✅ | 10.1 | 0.5075 | 12.14 |
| NCNN | ✅ | 10.2 | 0.5041 | 12.31 |
| ExecuTorch | ✅ | 10.2 | 0.5075 | 27.61 |
| Định dạng | Trạng thái | Dung lượng trên ổ cứng (MB) | mAP50 -95(B) | Thời gian suy luận (ms/ảnh) |
|---|---|---|---|---|
| PyTorch | ✅ | 18.4 | 0.5767 | 5.38 |
| TorchScript | ✅ | 36.5 | 0.5781 | 5.48 |
| ONNX | ✅ | 36.3 | 0.5784 | 8.17 |
| OpenVINO | ✅ | 36.4 | 0.5809 | 27.12 |
| TensorRT (FP32) | ✅ | 39.8 | 0.5783 | 3.59 |
| TensorRT (FP16) | ✅ | 20.1 | 0.5800 | 1.85 |
| TensorRT (INT8) | ✅ | 17.5 | 0.5664 | 1.88 |
| TF SavedModel | ✅ | 90.8 | 0.5782 | 66.63 |
| TF GraphDef | ✅ | 36.3 | 0.5782 | 71.67 |
| TF Lite | ✅ | 36.3 | 0.5782 | 187.36 |
| MNN | ✅ | 36.2 | 0.5775 | 27.05 |
| NCNN | ✅ | 36.2 | 0.5806 | 26.26 |
| ExecuTorch | ✅ | 36.2 | 0.5782 | 54.73 |
| Định dạng | Trạng thái | Dung lượng trên ổ cứng (MB) | mAP50 -95(B) | Thời gian suy luận (ms/ảnh) |
|---|---|---|---|---|
| PyTorch | ✅ | 38.8 | 0.6254 | 11.14 |
| TorchScript | ✅ | 77.3 | 0.6304 | 12.00 |
| ONNX | ✅ | 76.9 | 0.6304 | 13.83 |
| OpenVINO | ✅ | 77.1 | 0.6284 | 62.44 |
| TensorRT (FP32) | ✅ | 79.9 | 0.6305 | 6.96 |
| TensorRT (FP16) | ✅ | 40.6 | 0.6313 | 3.14 |
| TensorRT (INT8) | ✅ | 26.6 | 0.6204 | 3.30 |
| TF SavedModel | ✅ | 192.4 | 0.6306 | 139.85 |
| TF GraphDef | ✅ | 76.9 | 0.6306 | 146.76 |
| TF Lite | ✅ | 76.9 | 0.6306 | 568.18 |
| MNN | ✅ | 76.8 | 0.6306 | 67.67 |
| NCNN | ✅ | 76.8 | 0.6308 | 60.49 |
| ExecuTorch | ✅ | 76.9 | 0.6306 | 120.37 |
| Định dạng | Trạng thái | Dung lượng trên ổ cứng (MB) | mAP50 -95(B) | Thời gian suy luận (ms/ảnh) |
|---|---|---|---|---|
| PyTorch | ✅ | 49.0 | 0.6366 | 13.95 |
| TorchScript | ✅ | 97.6 | 0.6399 | 15.67 |
| ONNX | ✅ | 97.0 | 0.6399 | 16.62 |
| OpenVINO | ✅ | 97.3 | 0.6377 | 78.80 |
| TensorRT (FP32) | ✅ | 99.2 | 0.6407 | 8.86 |
| TensorRT (FP16) | ✅ | 50.8 | 0.6350 | 3.85 |
| TensorRT (INT8) | ✅ | 32.5 | 0.6224 | 4.52 |
| TF SavedModel | ✅ | 242.7 | 0.6409 | 187.45 |
| TF GraphDef | ✅ | 97.0 | 0.6409 | 193.92 |
| TF Lite | ✅ | 97.0 | 0.6409 | 728.61 |
| MNN | ✅ | 96.9 | 0.6369 | 85.21 |
| NCNN | ✅ | 96.9 | 0.6373 | 77.62 |
| ExecuTorch | ✅ | 97.0 | 0.6409 | 153.56 |
| Định dạng | Trạng thái | Dung lượng trên ổ cứng (MB) | mAP50 -95(B) | Thời gian suy luận (ms/ảnh) |
|---|---|---|---|---|
| PyTorch | ✅ | 109.3 | 0.6992 | 23.19 |
| TorchScript | ✅ | 218.1 | 0.6900 | 25.75 |
| ONNX | ✅ | 217.5 | 0.6900 | 27.43 |
| OpenVINO | ✅ | 217.8 | 0.6872 | 149.44 |
| TensorRT (FP32) | ✅ | 222.7 | 0.6902 | 13.87 |
| TensorRT (FP16) | ✅ | 111.1 | 0.6883 | 6.19 |
| TensorRT (INT8) | ✅ | 62.9 | 0.6793 | 6.62 |
| TF SavedModel | ✅ | 543.9 | 0.6900 | 335.10 |
| TF GraphDef | ✅ | 217.5 | 0.6900 | 348.86 |
| TF Lite | ✅ | 217.5 | 0.6900 | 1578.66 |
| MNN | ✅ | 217.3 | 0.6874 | 168.95 |
| NCNN | ✅ | 217.4 | 0.6901 | 132.13 |
| ExecuTorch | ✅ | 217.4 | 0.6900 | 297.17 |
Được so sánh với Ultralytics 8.3.249
Tái tạo Kết quả của Chúng tôi
Để tái tạo các điểm chuẩn Ultralytics ở trên trên tất cả các định dạng xuất, hãy chạy đoạn mã này:
Ví dụ
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
yolo benchmark model=yolo11n.pt data=coco128.yaml imgsz=640
Lưu ý rằng kết quả đánh giá hiệu năng có thể khác nhau tùy thuộc vào cấu hình phần cứng và phần mềm cụ thể của hệ thống, cũng như khối lượng công việc hiện tại của hệ thống tại thời điểm chạy thử nghiệm. Để có kết quả đáng tin cậy nhất, hãy sử dụng tập dữ liệu có số lượng hình ảnh lớn, ví dụ: data='coco.yaml' (5000 ảnh val).
Các phương pháp tốt nhất cho NVIDIA DGX Spark
Khi sử dụng NVIDIA Đối với DGX Spark, có một vài nguyên tắc thực hành tốt nhất cần tuân theo để đạt được hiệu suất tối đa khi vận hành. YOLO11 .
Giám sát hiệu suất hệ thống
Sử dụng NVIDIA các công cụ giám sát của track GPU Và CPU mức độ sử dụng:
nvidia-smiTối ưu hóa việc sử dụng bộ nhớ
Với bộ nhớ hợp nhất 128GB, DGX Spark có thể xử lý kích thước lô và mô hình lớn. Hãy cân nhắc tăng kích thước lô để cải thiện hiệu suất:
from ultralytics import YOLO model = YOLO("yolo11n.engine") results = model.predict(source="path/to/images", batch=16)Sử dụng TensorRT với FP16 hoặc INT8
Để đạt hiệu suất tốt nhất, hãy xuất mô hình với độ chính xác FP16 hoặc INT8:
yolo export model=yolo11n.pt format=engine half=True # FP16 yolo export model=yolo11n.pt format=engine int8=True # INT8
Cập nhật hệ thống (Phiên bản Người sáng lập)
Việc cập nhật thường xuyên DGX Spark Founders Edition là rất quan trọng đối với hiệu năng và bảo mật. NVIDIA Cung cấp hai phương pháp chính để cập nhật hệ điều hành, trình điều khiển và phần mềm nhúng.
Sử dụng DGX Dashboard (Khuyến nghị)
Bảng điều khiển DGX là phương pháp được khuyến nghị để thực hiện cập nhật hệ thống nhằm đảm bảo tính tương thích. Nó cho phép bạn:
- Xem các bản cập nhật hệ thống hiện có
- Cài đặt các bản vá bảo mật và cập nhật hệ thống
- Quản lý NVIDIA cập nhật trình điều khiển và phần mềm
Cập nhật hệ thống thủ công
Đối với người dùng nâng cao, việc cập nhật có thể được thực hiện thủ công thông qua terminal:
sudo apt update
sudo apt dist-upgrade
sudo fwupdmgr refresh
sudo fwupdmgr upgrade
sudo reboot
Cảnh báo
Hãy đảm bảo hệ thống của bạn được kết nối với nguồn điện ổn định và bạn đã sao lưu dữ liệu quan trọng trước khi thực hiện cập nhật.
Các bước tiếp theo
Để tìm hiểu thêm và được hỗ trợ, vui lòng xem tài liệu Ultralytics YOLO11 Docs .
Câu hỏi thường gặp
Tôi triển khai như thế nào? Ultralytics YOLO11 TRÊN NVIDIA DGX Spark?
Triển khai Ultralytics YOLO11 TRÊN NVIDIA DGX Spark rất dễ sử dụng. Bạn có thể sử dụng ảnh Docker dựng sẵn để thiết lập nhanh hoặc cài đặt thủ công các gói cần thiết. Các bước chi tiết cho mỗi phương pháp có thể được tìm thấy trong các phần Bắt đầu nhanh với Docker và Bắt đầu với cài đặt gốc .
Tôi có thể mong đợi hiệu năng như thế nào từ... YOLO11 TRÊN NVIDIA DGX Spark?
YOLO11 Các mẫu máy này mang lại hiệu năng tuyệt vời trên DGX Spark nhờ vào chip GB10 Grace Blackwell Superchip. TensorRT Định dạng này mang lại hiệu suất suy luận tốt nhất. Vui lòng xem phần Bảng so sánh chi tiết để biết kết quả đánh giá cụ thể trên các kích thước và định dạng mô hình khác nhau.
Tại sao tôi nên sử dụng TensorRT vì YOLO11 Trên DGX Spark?
TensorRT rất được khuyến nghị để triển khai YOLO11 Các mô hình trên DGX Spark được ưa chuộng nhờ hiệu năng tối ưu. Nó tăng tốc quá trình suy luận bằng cách tận dụng Blackwell. GPU Các khả năng này đảm bảo hiệu quả và tốc độ tối đa. Tìm hiểu thêm trong phần Sử dụng TensorRT trên NVIDIA DGX Spark .
DGX Spark so sánh với các thiết bị Jetson như thế nào? YOLO11 ?
DGX Spark cung cấp sức mạnh tính toán vượt trội hơn đáng kể so với các thiết bị Jetson, với hiệu năng AI lên đến 1 PFLOP và bộ nhớ hợp nhất 128GB, so với 2070 TFLOPS và 128GB bộ nhớ của Jetson AGX Thor. DGX Spark được thiết kế như một siêu máy tính AI để bàn, trong khi các thiết bị Jetson là các hệ thống nhúng được tối ưu hóa cho việc triển khai ở biên.
Tôi có thể sử dụng cùng một ảnh Docker cho DGX Spark và Jetson AGX Thor không?
Đúng vậy! Cái ultralytics/ultralytics:latest-nvidia-arm64 Ảnh Docker hỗ trợ cả hai NVIDIA DGX Spark (với hệ điều hành DGX OS) và Jetson AGX Thor (với JetPack 7.0), cả hai đều sử dụng kiến trúc ARM64. CUDA 13 và các bộ phần mềm tương tự.