Meet YOLO26: next-gen vision AI.

Link to this sectionTối ưu hóa suy luận YOLO26 với DeepSparse Engine của Neural Magic#

Khi triển khai các mô hình nhận diện đối tượng như Ultralytics YOLO26 trên nhiều loại phần cứng khác nhau, bạn có thể gặp phải các vấn đề đặc thù như tối ưu hóa. Đây là lúc khả năng tích hợp YOLO26 với DeepSparse Engine của Neural Magic phát huy tác dụng. Nó thay đổi cách thức thực thi các mô hình YOLO26 và cho phép đạt hiệu suất cấp độ GPU trực tiếp trên CPU.

Hướng dẫn này chỉ cho bạn cách triển khai YOLO26 sử dụng DeepSparse của Neural Magic, cách chạy suy luận, cũng như cách benchmark hiệu suất để đảm bảo mô hình đã được tối ưu hóa.

EOL của SparseML

Neural Magic đã được Red Hat mua lại vào tháng 1 năm 2025 và đang ngừng hỗ trợ các phiên bản cộng đồng của các thư viện deepsparse, sparseml, sparsezoosparsify. Để biết thêm thông tin, hãy xem thông báo được đăng trong tệp Readme trên kho lưu trữ sparsify của GitHub.

Link to this sectionDeepSparse của Neural Magic#

Neural Magic's DeepSparse Overview

DeepSparse của Neural Magic là một run-time suy luận được thiết kế để tối ưu hóa việc thực thi các mạng thần kinh trên CPU. Nó áp dụng các kỹ thuật nâng cao như sparsity (độ thưa), cắt tỉa (pruning) và lượng tử hóa (quantization) để giảm đáng kể nhu cầu tính toán trong khi vẫn duy trì độ chính xác. DeepSparse cung cấp một giải pháp linh hoạt để thực thi mạng thần kinh hiệu quả và có khả năng mở rộng trên nhiều thiết bị khác nhau.

Link to this sectionLợi ích của việc tích hợp DeepSparse của Neural Magic với YOLO26#

Trước khi đi sâu vào cách triển khai YOLO26 sử dụng DeepSparse, hãy cùng tìm hiểu các lợi ích khi sử dụng DeepSparse. Một số ưu điểm chính bao gồm:

  • Tốc độ suy luận được cải thiện: Đạt tới 525 FPS (trên YOLO11n), tăng tốc đáng kể khả năng suy luận của YOLO so với các phương pháp truyền thống.

Neural Magic DeepSparse inference acceleration

  • Hiệu suất mô hình được tối ưu: Sử dụng kỹ thuật cắt tỉa và lượng tử hóa để nâng cao hiệu suất của YOLO26, giảm kích thước mô hình và yêu cầu tính toán trong khi vẫn duy trì độ chính xác.

Neural Magic model optimization and pruning

  • Hiệu suất cao trên CPU tiêu chuẩn: Mang lại hiệu suất tương đương GPU trên các CPU, cung cấp một tùy chọn dễ tiếp cận và tiết kiệm chi phí cho nhiều ứng dụng.

  • Tích hợp và triển khai hợp lý: Cung cấp các công cụ thân thiện với người dùng để tích hợp YOLO26 vào ứng dụng một cách dễ dàng, bao gồm các tính năng chú thích hình ảnh và video.

  • Hỗ trợ nhiều loại mô hình: Tương thích với cả các mô hình YOLO26 tiêu chuẩn và mô hình đã được tối ưu hóa độ thưa, tăng tính linh hoạt khi triển khai.

  • Giải pháp tiết kiệm chi phí và có khả năng mở rộng: Giảm chi phí vận hành và cung cấp khả năng triển khai linh hoạt cho các mô hình nhận diện đối tượng tiên tiến.

Link to this sectionCông nghệ DeepSparse của Neural Magic hoạt động như thế nào?#

Công nghệ DeepSparse của Neural Magic được lấy cảm hứng từ hiệu suất tính toán của não người trong mạng thần kinh. Nó áp dụng hai nguyên tắc chính từ não bộ như sau:

  • Sparsity (Độ thưa): Quy trình sparsification bao gồm việc cắt tỉa các thông tin dư thừa khỏi các mạng học sâu, dẫn đến các mô hình nhỏ hơn và nhanh hơn mà không làm giảm độ chính xác. Kỹ thuật này giảm đáng kể kích thước và nhu cầu tính toán của mạng.

  • Tính cục bộ của tham chiếu (Locality of Reference): DeepSparse sử dụng một phương pháp thực thi độc đáo, chia nhỏ mạng thành các Tensor Columns. Các cột này được thực thi theo chiều sâu, nằm gọn trong bộ nhớ đệm (cache) của CPU. Cách tiếp cận này bắt chước hiệu suất của não bộ, giảm thiểu sự di chuyển dữ liệu và tối đa hóa việc sử dụng bộ nhớ đệm của CPU.

How Neural Magic's DeepSparse Technology Works

Link to this sectionTạo một phiên bản Sparse của YOLO26 được huấn luyện trên tập dữ liệu tùy chỉnh#

SparseZoo, một kho lưu trữ mô hình mã nguồn mở của Neural Magic, cung cấp một bộ sưu tập các checkpoint mô hình YOLO26 đã được làm thưa trước. Với SparseML, được tích hợp liền mạch với Ultralytics, người dùng có thể dễ dàng tinh chỉnh (fine-tune) các checkpoint thưa này trên tập dữ liệu cụ thể của họ bằng giao diện dòng lệnh đơn giản.

Xem tài liệu SparseML YOLO26 của Neural Magic để biết thêm chi tiết.

Link to this sectionCách sử dụng: Triển khai YOLO26 sử dụng DeepSparse#

Việc triển khai YOLO26 với DeepSparse của Neural Magic bao gồm một vài bước đơn giản. Trước khi đi sâu vào hướng dẫn sử dụng, hãy chắc chắn rằng bạn đã xem qua các mô hình YOLO26 được cung cấp bởi Ultralytics. Điều này sẽ giúp bạn chọn được mô hình phù hợp nhất cho các yêu cầu dự án của mình. Dưới đây là cách bạn có thể bắt đầu.

Link to this sectionBước 1: Cài đặt#

Để cài đặt các gói cần thiết, hãy chạy:

Cài đặt
# Install the required packages
pip install deepsparse[yolov8]

Link to this sectionBước 2: Xuất YOLO26 sang định dạng ONNX#

DeepSparse Engine yêu cầu các mô hình YOLO26 ở định dạng ONNX. Việc xuất mô hình của bạn sang định dạng này là cần thiết để tương thích với DeepSparse. Sử dụng lệnh sau để xuất các mô hình YOLO26:

Xuất mô hình
# Export YOLO26 model to ONNX format
yolo task=detect mode=export model=yolo26n.pt format=onnx opset=13

Lệnh này sẽ lưu mô hình yolo26n.onnx vào ổ đĩa của bạn.

Link to this sectionBước 3: Triển khai và chạy suy luận#

Với mô hình YOLO26 ở định dạng ONNX, bạn có thể triển khai và chạy suy luận bằng DeepSparse. Điều này có thể được thực hiện dễ dàng bằng Python API trực quan của họ:

Triển khai và chạy suy luận
from deepsparse import Pipeline

# Specify the path to your YOLO26 ONNX model
model_path = "path/to/yolo26n.onnx"

# Set up the DeepSparse Pipeline
yolo_pipeline = Pipeline.create(task="yolov8", model_path=model_path)

# Run the model on your images
images = ["path/to/image.jpg"]
pipeline_outputs = yolo_pipeline(images=images)

Link to this sectionBước 4: Benchmark hiệu suất#

Điều quan trọng là kiểm tra xem mô hình YOLO26 của bạn có hoạt động tối ưu trên DeepSparse hay không. Bạn có thể benchmark hiệu suất của mô hình để phân tích thông lượng (throughput) và độ trễ (latency):

Benchmarking
# Benchmark performance
deepsparse.benchmark model_path="path/to/yolo26n.onnx" --scenario=sync --input_shapes="[1,3,640,640]"

Link to this sectionBước 5: Các tính năng bổ sung#

DeepSparse cung cấp các tính năng bổ sung cho việc tích hợp thực tế YOLO26 vào các ứng dụng, chẳng hạn như chú thích hình ảnh và đánh giá tập dữ liệu.

Các tính năng bổ sung
# For image annotation
deepsparse.yolov8.annotate --source "path/to/image.jpg" --model_filepath "path/to/yolo26n.onnx"

# For evaluating model performance on a dataset
deepsparse.yolov8.eval --model_path "path/to/yolo26n.onnx"

Việc chạy lệnh annotate sẽ xử lý hình ảnh được chỉ định của bạn, nhận diện các đối tượng và lưu hình ảnh đã được chú thích với các khung bao (bounding boxes) và phân loại. Hình ảnh đã chú thích sẽ được lưu trữ trong thư mục annotation-results. Điều này giúp cung cấp một biểu diễn trực quan về khả năng nhận diện của mô hình.

Neural Magic annotation feature interface

Sau khi chạy lệnh eval, bạn sẽ nhận được các chỉ số đầu ra chi tiết như precision, recallmAP (mean Average Precision). Điều này cung cấp một cái nhìn toàn diện về hiệu suất của mô hình trên tập dữ liệu và đặc biệt hữu ích cho việc tinh chỉnh và tối ưu hóa các mô hình YOLO26 cho các trường hợp sử dụng cụ thể, đảm bảo độ chính xác và hiệu suất cao.

Link to this sectionTóm tắt#

Hướng dẫn này đã khám phá việc tích hợp YOLO26 của Ultralytics với DeepSparse Engine của Neural Magic. Nó nhấn mạnh cách tích hợp này nâng cao hiệu suất của YOLO26 trên các nền tảng CPU, mang lại hiệu suất cấp độ GPU và các kỹ thuật độ thưa mạng thần kinh tiên tiến.

Để biết thêm thông tin chi tiết và cách sử dụng nâng cao, hãy truy cập tài liệu DeepSparse của Neural Magic. Bạn cũng có thể khám phá hướng dẫn tích hợp YOLO26xem phiên hướng dẫn trên YouTube.

Ngoài ra, để hiểu rõ hơn về các tích hợp YOLO26 khác nhau, hãy truy cập trang hướng dẫn tích hợp của Ultralytics, nơi bạn có thể khám phá hàng loạt các khả năng tích hợp thú vị khác.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionDeepSparse Engine của Neural Magic là gì và nó tối ưu hóa hiệu suất YOLO26 như thế nào?#

DeepSparse Engine của Neural Magic là một inference runtime được thiết kế để tối ưu hóa việc thực thi các mạng thần kinh trên CPU thông qua các kỹ thuật tiên tiến như độ thưa (sparsity), cắt tỉa (pruning) và lượng tử hóa (quantization). Bằng cách tích hợp DeepSparse với YOLO26, bạn có thể đạt được hiệu suất tương đương GPU trên các CPU tiêu chuẩn, cải thiện đáng kể tốc độ suy luận, hiệu suất mô hình và hiệu suất tổng thể trong khi vẫn duy trì độ chính xác. Để biết thêm chi tiết, hãy xem phần DeepSparse của Neural Magic.

Link to this sectionLàm thế nào để cài đặt các gói cần thiết để triển khai YOLO26 bằng DeepSparse của Neural Magic?#

Việc cài đặt các gói cần thiết để triển khai YOLO26 với DeepSparse của Neural Magic rất đơn giản. Bạn có thể dễ dàng cài đặt chúng bằng CLI. Đây là lệnh bạn cần chạy:

pip install deepsparse[yolov8]

Sau khi cài đặt, hãy làm theo các bước được cung cấp trong phần Cài đặt để thiết lập môi trường của bạn và bắt đầu sử dụng DeepSparse với YOLO26.

Link to this sectionLàm thế nào để chuyển đổi các mô hình YOLO26 sang định dạng ONNX để sử dụng với DeepSparse?#

Để chuyển đổi các mô hình YOLO26 sang định dạng ONNX, điều này là bắt buộc để tương thích với DeepSparse, bạn có thể sử dụng lệnh CLI sau:

yolo task=detect mode=export model=yolo26n.pt format=onnx opset=13

Lệnh này sẽ xuất mô hình YOLO26 của bạn (yolo26n.pt) sang một định dạng (yolo26n.onnx) có thể được sử dụng bởi DeepSparse Engine. Thông tin thêm về xuất mô hình có thể được tìm thấy trong phần Xuất mô hình.

Link to this sectionLàm thế nào để benchmark hiệu suất YOLO26 trên DeepSparse Engine?#

Việc benchmark hiệu suất YOLO26 trên DeepSparse giúp bạn phân tích thông lượng và độ trễ để đảm bảo mô hình của bạn đã được tối ưu hóa. Bạn có thể sử dụng lệnh CLI sau để chạy benchmark:

deepsparse.benchmark model_path="path/to/yolo26n.onnx" --scenario=sync --input_shapes="[1,3,640,640]"

Lệnh này sẽ cung cấp cho bạn các chỉ số hiệu suất quan trọng. Để biết thêm chi tiết, hãy xem phần Benchmark hiệu suất.

Link to this sectionTại sao tôi nên sử dụng DeepSparse của Neural Magic với YOLO26 cho các tác vụ nhận diện đối tượng?#

Việc tích hợp DeepSparse của Neural Magic với YOLO26 mang lại một số lợi ích:

  • Tốc độ suy luận được nâng cao: Đạt tới 525 FPS (trên YOLO11n), minh chứng cho khả năng tối ưu hóa của DeepSparse.
  • Hiệu suất mô hình được tối ưu: Sử dụng các kỹ thuật độ thưa, cắt tỉa và lượng tử hóa để giảm kích thước mô hình và nhu cầu tính toán trong khi vẫn duy trì độ chính xác.
  • Hiệu suất cao trên CPU tiêu chuẩn: Mang lại hiệu suất tương đương GPU trên phần cứng CPU tiết kiệm chi phí.
  • Tích hợp hợp lý: Các công cụ thân thiện với người dùng giúp triển khai và tích hợp dễ dàng.
  • Tính linh hoạt: Hỗ trợ cả các mô hình YOLO26 tiêu chuẩn và mô hình được tối ưu hóa độ thưa.
  • Tiết kiệm chi phí: Giảm chi phí vận hành thông qua việc sử dụng tài nguyên hiệu quả.

Để tìm hiểu sâu hơn về những ưu điểm này, hãy truy cập phần Lợi ích của việc tích hợp DeepSparse của Neural Magic với YOLO26.

Bình luận