Meet YOLO26: next-gen vision AI.

Link to this sectionPhân tích so sánh các tùy chọn triển khai YOLO26#

YOLO26 hỗ trợ hơn 20 tùy chọn triển khai, mỗi tùy chọn được tinh chỉnh cho một runtime, phần cứng mục tiêu hoặc nền tảng khác nhau — từ PyTorch và ONNX đến TensorRT, OpenVINO, CoreML và các định dạng edge-NPU chuyên dụng. Việc lựa chọn tùy chọn phù hợp giúp cân bằng giữa tốc độ suy luận, giới hạn phần cứng và tính dễ dàng trong tích hợp. Hướng dẫn này so sánh từng tùy chọn để bạn có thể chọn phương án tối ưu nhất cho ứng dụng của mình, sau đó tham khảo các phương pháp triển khai model tốt nhất để triển khai một cách ổn định.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

Triển khai là giai đoạn trong quy trình dự án thị giác máy tính mà tại đó một model đã huấn luyện bắt đầu hoạt động thực tế, vì vậy định dạng bạn xuất ra có ảnh hưởng trực tiếp đến tốc độ, chi phí và tính di động.

Link to this sectionCách chọn tùy chọn triển khai phù hợp cho mô hình YOLO26 của bạn#

Khi đến lúc triển khai model YOLO26 của bạn, việc chọn định dạng xuất phù hợp là rất quan trọng. Như đã nêu trong tài liệu xuất YOLO26 của Ultralytics, hàm model.export() chuyển đổi model đã huấn luyện của bạn thành nhiều định dạng khác nhau được thiết kế cho các môi trường và yêu cầu hiệu năng đa dạng.

Định dạng lý tưởng phụ thuộc vào môi trường vận hành dự kiến và phần cứng của model.

Bỏ qua việc xuất thủ công

Để triển khai có quản lý mà không cần xuất thủ công, Ultralytics Platform cung cấp các endpoints suy luận sẵn sàng sử dụng với khả năng tự động mở rộng trên 43 khu vực toàn cầu.

Link to this sectionCác tùy chọn triển khai của YOLO26#

Dưới đây là mô tả ngắn gọn về từng định dạng và thời điểm nên sử dụng. Để xem hướng dẫn xuất đầy đủ, hãy xem tài liệu xuất; để xem các tiêu chí so sánh, hãy chuyển đến bảng so sánh.

  • PyTorch (.pt): Định dạng huấn luyện và suy luận gốc, mang lại sự linh hoạt tối đa và tăng tốc CUDA GPU — lý tưởng cho nghiên cứu và tạo mẫu mà không cần bước xuất.
  • TorchScript (torchscript): Tuần tự hóa model cho runtime C++ không cần Python, phù hợp với các hệ thống sản xuất nơi không có Python.
  • ONNX (onnx): Một định dạng trao đổi không phụ thuộc vào framework, hỗ trợ rộng rãi trên nhiều nền tảng và phần cứng thông qua ONNX Runtime.
  • OpenVINO (openvino): Bộ công cụ của Intel để tối ưu hóa suy luận trên CPU, GPU tích hợp và NPU của Intel, phổ biến trong IoT và edge computing.
  • TensorRT (engine): Runtime hiệu năng cao của NVIDIA mang lại khả năng suy luận GPU hàng đầu với tối ưu hóa FP16 và INT8.
  • CoreML (coreml): Định dạng trên thiết bị của Apple dành cho iOS, macOS, watchOS và tvOS, sử dụng Apple Neural Engine.
  • TF SavedModel (saved_model): Định dạng tiêu chuẩn của TensorFlow cho việc phục vụ phía máy chủ có khả năng mở rộng bằng TensorFlow Serving.
  • TF GraphDef (pb): Định dạng đồ thị tĩnh đã đóng băng của TensorFlow cho các môi trường yêu cầu đồ thị tính toán cố định.
  • TF Lite (tflite): Một runtime TensorFlow nhẹ cho suy luận trên thiết bị di động và phần cứng nhúng.
  • TF Edge TPU (edgetpu): Biên dịch các model TF Lite cho các bộ tăng tốc Google Coral Edge TPU.
  • TF.js (tfjs): Chạy model trực tiếp trong trình duyệt mà không cần backend, được tăng tốc thông qua WebGL.
  • PaddlePaddle (paddle): Framework deep learning của Baidu, phổ biến ở Trung Quốc, với sự hỗ trợ phần cứng rộng rãi.
  • MNN (mnn): Một engine suy luận nhẹ, hiệu năng cao được tối ưu hóa cho các hệ thống di động và nhúng ARM và x86-64.
  • NCNN (ncnn): Một framework suy luận nhẹ, hiệu năng cao được tinh chỉnh cho các thiết bị di động ARM.
  • Sony IMX500 (imx): Xuất cho cảm biến thị giác thông minh IMX500 của Sony với khả năng xử lý trên chip, chẳng hạn như Raspberry Pi AI Camera.
  • Rockchip RKNN (rknn): Hướng tới các NPU Rockchip trên các bảng mạch nhúng với lượng tử hóa FP16 và INT8.
  • ExecuTorch (executorch): Runtime trên thiết bị gốc của PyTorch dành cho thiết bị di động (iOS và Android) và các hệ thống nhúng thông qua XNNPACK.
  • Axelera AI (axelera): Biên dịch cho Metis AIPU của Axelera (lên đến 856 TOPS) qua PCIe hoặc M.2 cho suy luận edge thông lượng cao.
  • DEEPX (deepx): Hướng tới phần cứng NPU DEEPX với lượng tử hóa INT8 cho suy luận edge nhúng.
  • Qualcomm QNN (qnn): Suy luận trên thiết bị với Snapdragon Hexagon NPU, Adreno GPU và CPU thông qua stack Qualcomm AI.

Đối với một mục tiêu edge bổ sung, tích hợp Hailo biên dịch các model phát hiện YOLO sang HEF của Hailo. Đây không phải là mục tiêu model.export() trực tiếp: các model phát hiện trước tiên được xuất sang ONNX, sau đó được biên dịch sang HEF với Hailo Dataflow Compiler bên ngoài dành cho các bộ tăng tốc Hailo-8, Hailo-8L và Hailo-15.

Link to this sectionSo sánh các tùy chọn triển khai#

Bảng sau đây tóm tắt các tùy chọn triển khai cho model YOLO26 theo các tiêu chí thường dẫn đến quyết định lựa chọn. Để có cái nhìn chuyên sâu về từng định dạng, hãy xem tài liệu định dạng xuất.

Tùy chọn Triển khaiĐiểm chuẩn hiệu năngKhả năng tương thích và Tích hợpHỗ trợ cộng đồng và Hệ sinh tháiNghiên cứu điển hìnhBảo trì và Cập nhậtCân nhắc về Bảo mậtTăng tốc phần cứng
PyTorchTính linh hoạt tốt; có thể đánh đổi hiệu năng thôTuyệt vời với các thư viện PythonNguồn tài nguyên và cộng đồng rộng lớnNghiên cứu và tạo mẫuPhát triển đều đặn, tích cựcPhụ thuộc vào môi trường triển khaiHỗ trợ CUDA cho tăng tốc GPU
TorchScriptTốt hơn cho môi trường production so với PyTorchChuyển đổi mượt mà từ PyTorch sang C++Chuyên biệt nhưng hẹp hơn so với PyTorchNgành công nghiệp nơi Python là điểm nghẽnCập nhật nhất quán với PyTorchCải thiện bảo mật mà không cần toàn bộ PythonKế thừa hỗ trợ CUDA từ PyTorch
ONNXThay đổi tùy thuộc vào runtimeCao trên các framework khác nhauHệ sinh thái rộng, được hỗ trợ bởi nhiều tổ chứcTính linh hoạt trên các framework MLCập nhật thường xuyên cho các thao tác mớiĐảm bảo các thực hành chuyển đổi và triển khai an toànNhiều tối ưu hóa phần cứng khác nhau
OpenVINOĐược tối ưu hóa cho phần cứng IntelTốt nhất trong hệ sinh thái IntelVững chắc trong lĩnh vực thị giác máy tínhIoT và biên với phần cứng IntelCập nhật thường xuyên cho phần cứng IntelCác tính năng mạnh mẽ cho các ứng dụng nhạy cảmĐược thiết kế riêng cho phần cứng Intel
TensorRTHàng đầu trên GPU NVIDIATốt nhất cho phần cứng NVIDIAMạng lưới mạnh mẽ thông qua NVIDIASuy luận video và hình ảnh thời gian thựcCập nhật thường xuyên cho các GPU mớiChú trọng vào bảo mậtĐược thiết kế cho các GPU NVIDIA
CoreMLĐược tối ưu hóa cho phần cứng Apple trên thiết bịĐộc quyền cho hệ sinh thái AppleHỗ trợ mạnh mẽ từ Apple và các nhà phát triểnML trên thiết bị của các sản phẩm AppleCác bản cập nhật thường xuyên từ AppleTập trung vào quyền riêng tư và bảo mậtApple neural engine và GPU
TF SavedModelCó khả năng mở rộng trong môi trường serverKhả năng tương thích rộng trong hệ sinh thái TensorFlowHỗ trợ lớn nhờ vào sự phổ biến của TensorFlowPhục vụ các model ở quy mô lớnCập nhật thường xuyên bởi Google và cộng đồngCác tính năng mạnh mẽ cho doanh nghiệpNhiều loại tăng tốc phần cứng khác nhau
TF GraphDefỔn định cho các biểu đồ tính toán tĩnhTích hợp tốt với cơ sở hạ tầng TensorFlowNguồn tài nguyên để tối ưu hóa các biểu đồ tĩnhCác kịch bản yêu cầu đồ thị tĩnhCập nhật song song với TensorFlow coreCác thực tiễn bảo mật TensorFlow đã được thiết lậpCác tùy chọn tăng tốc TensorFlow
TF LiteTốc độ và hiệu quả trên thiết bị di động/nhúngPhạm vi hỗ trợ thiết bị rộng rãiCộng đồng mạnh mẽ, được Google hỗ trợCác ứng dụng di động với dung lượng tối thiểuCác tính năng mới nhất cho thiết bị di độngMôi trường bảo mật trên thiết bị người dùng cuốiGPU và DSP cùng các thiết bị khác
TF Edge TPUĐược tối ưu hóa cho phần cứng Edge TPU của GoogleDành riêng cho các thiết bị Edge TPUPhát triển cùng các tài nguyên của Google và bên thứ baThiết bị IoT yêu cầu xử lý thời gian thựcCác cải tiến cho phần cứng Edge TPU mớiBảo mật IoT mạnh mẽ của GoogleĐược thiết kế tùy chỉnh cho Google Coral
TF.jsHiệu suất trình duyệt hợp lýCao với các công nghệ webHỗ trợ các nhà phát triển web và Node.jsCác ứng dụng web tương tácNhóm TensorFlow và các đóng góp từ cộng đồngMô hình bảo mật nền tảng webĐược tăng cường với WebGL và các API khác
PaddlePaddleCạnh tranh, dễ sử dụng và có khả năng mở rộngHệ sinh thái Baidu, hỗ trợ ứng dụng rộng rãiPhát triển nhanh chóng, đặc biệt là tại Trung QuốcThị trường Trung Quốc và xử lý ngôn ngữTập trung vào các ứng dụng AI tại Trung QuốcChú trọng vào quyền riêng tư và bảo mật dữ liệuBao gồm các chip Kunlun của Baidu
MNNHiệu năng cao cho thiết bị di độngHệ thống ARM di động, nhúng và CPU X86-64Cộng đồng ML di động/nhúngHiệu quả của hệ thống di độngDuy trì hiệu năng cao trên thiết bị di độngƯu điểm bảo mật trên thiết bịTối ưu hóa cho CPU và GPU ARM
NCNNĐược tối ưu hóa cho các thiết bị dựa trên ARM di độngCác hệ thống ARM di động và nhúngCộng đồng ML di động/nhúng tuy ngách nhưng rất tích cựcHiệu quả của hệ thống Android và ARMDuy trì hiệu suất cao trên ARMƯu điểm bảo mật trên thiết bịTối ưu hóa cho CPU và GPU ARM
Sony IMX500Suy luận trên cảm biến với mức tiêu thụ điện năng rất thấpCảm biến Sony IMX500, Raspberry Pi AI CameraHệ sinh thái Sony AITRIOSEdge AI trên cameraCập nhật SDK của Sony và chuỗi công cụ MCTDữ liệu nằm trên cảm biếnBộ tăng tốc trên chip Sony IMX500
Rockchip RKNNTối ưu hóa cho Rockchip NPUCác bo mạch Rockchip SoC (ví dụ: RK3588)Cộng đồng nhà phát triển RockchipSBC nhúng và các thiết bị edgeCập nhật Rockchip RKNN-ToolkitSuy luận cục bộ trên thiết bịRockchip NPU
ExecuTorchRuntime PyTorch hiệu quả trên thiết bịiOS, Android, nhúng qua XNNPACKĐược hỗ trợ bởi dự án PyTorchCác ứng dụng di động và nhúngĐược duy trì cùng với PyTorchSuy luận trên thiết bị giúp giữ dữ liệu cục bộXNNPACK và các backend CPU/GPU di động
Axelera AIThông lượng rất cao (lên đến 856 TOPS)Metis AIPU qua PCIe hoặc M.2Axelera Voyager SDKSuy luận edge thông lượng caoCập nhật Axelera SDKSuy luận edge tại chỗAxelera Metis AIPU
DEEPXSuy luận NPU tối ưu hóa INT8Phần cứng DEEPX NPUCông cụ nhà phát triển DEEPX (dx_com, dx_engine)Suy luận edge nhúngCập nhật SDK và runtime DEEPXSuy luận cục bộ trên thiết bịDEEPX NPU
Qualcomm QNNSuy luận Snapdragon nhanh trên thiết bịSnapdragon Hexagon NPU, Adreno GPU, CPUHệ sinh thái Qualcomm AI HubCác thiết bị di động và edge SnapdragonCập nhật stack Qualcomm AI (QAIRT)Suy luận trên thiết bị giúp giữ dữ liệu cục bộSnapdragon Hexagon NPU

So sánh này cung cấp cho bạn cái nhìn tổng quan. Để triển khai, hãy cân nhắc các yêu cầu và giới hạn cụ thể của dự án của bạn đối với từng tùy chọn và tham khảo hướng dẫn tích hợp được liên kết cho định dạng mà bạn chọn.

Link to this sectionKết luận#

Nhiều định dạng xuất của YOLO26 cho phép bạn điều chỉnh model cho hầu hết mọi môi trường, từ máy chủ GPU đám mây đến camera edge trên cảm biến. Sau khi đã chọn được định dạng, hãy tuân theo các phương pháp triển khai model tốt nhất để tối ưu hóa, xử lý sự cố và bảo mật, đồng thời hãy tận dụng cộng đồng Ultralytics khi bạn gặp khó khăn.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionCác tùy chọn triển khai nào khả dụng cho YOLO26 trên các nền tảng phần cứng khác nhau?#

Ultralytics YOLO26 hỗ trợ nhiều định dạng triển khai, mỗi định dạng được thiết kế cho các môi trường và nền tảng phần cứng cụ thể. Các định dạng chính bao gồm:

  • PyTorch để nghiên cứu và tạo nguyên mẫu, với khả năng tích hợp Python tuyệt vời.
  • TorchScript cho môi trường sản xuất nơi Python không khả dụng.
  • ONNX để tương thích đa nền tảng và tăng tốc phần cứng.
  • OpenVINO để có hiệu suất tối ưu trên phần cứng Intel.
  • TensorRT để suy luận tốc độ cao trên GPU NVIDIA.

Mỗi định dạng đều có những ưu điểm riêng. Để xem hướng dẫn chi tiết, hãy xem tài liệu quy trình xuất của chúng tôi.

Link to this sectionLàm thế nào để tôi cải thiện tốc độ suy luận của model YOLO26 trên CPU Intel?#

Để tăng tốc độ suy luận trên CPU Intel, bạn có thể triển khai model YOLO26 của mình bằng bộ công cụ OpenVINO của Intel. OpenVINO mang lại khả năng tăng hiệu suất đáng kể bằng cách tối ưu hóa các model để tận dụng hiệu quả phần cứng Intel.

  1. Chuyển đổi model YOLO26 của bạn sang định dạng OpenVINO bằng hàm model.export().
  2. Thực hiện theo hướng dẫn thiết lập chi tiết trong Tài liệu xuất Intel OpenVINO.

Để có thêm thông tin chuyên sâu, hãy xem bài viết trên blog của chúng tôi.

Link to this sectionTôi có thể triển khai các model YOLO26 trên thiết bị di động không?#

Có, các model YOLO26 có thể được triển khai trên thiết bị di động bằng TensorFlow Lite (TF Lite) cho cả nền tảng Android và iOS. TF Lite được thiết kế cho thiết bị di động và thiết bị nhúng, cung cấp khả năng suy luận trên thiết bị hiệu quả.

Ví dụ
# Export command for TFLite format
model.export(format="tflite")

Để biết thêm chi tiết về cách triển khai model lên thiết bị di động, hãy tham khảo hướng dẫn tích hợp TF Lite của chúng tôi.

Link to this sectionTôi nên xem xét các yếu tố nào khi chọn định dạng triển khai cho model YOLO26 của mình?#

Khi chọn định dạng triển khai cho YOLO26, hãy xem xét các yếu tố sau:

  • Hiệu suất: Một số định dạng như TensorRT cung cấp tốc độ vượt trội trên GPU NVIDIA, trong khi OpenVINO được tối ưu hóa cho phần cứng Intel.
  • Tính tương thích: ONNX cung cấp khả năng tương thích rộng rãi trên các nền tảng khác nhau.
  • Dễ dàng tích hợp: Các định dạng như CoreML hoặc TF Lite được thiết kế riêng cho các hệ sinh thái cụ thể như iOS và Android.
  • Hỗ trợ cộng đồng: Các định dạng như PyTorch và TensorFlow có nguồn lực cộng đồng và sự hỗ trợ rộng khắp.

Để phân tích so sánh, hãy tham khảo tài liệu về định dạng xuất của chúng tôi.

Link to this sectionLàm thế nào để tôi triển khai các model YOLO26 trong một ứng dụng web?#

Để triển khai các model YOLO26 trong ứng dụng web, bạn có thể sử dụng TensorFlow.js (TF.js), cho phép chạy các model học máy trực tiếp trên trình duyệt. Cách tiếp cận này loại bỏ nhu cầu về cơ sở hạ tầng backend và mang lại hiệu suất thời gian thực.

  1. Xuất model YOLO26 sang định dạng TF.js.
  2. Tích hợp model đã xuất vào ứng dụng web của bạn.

Để có hướng dẫn từng bước, hãy tham khảo hướng dẫn của chúng tôi về Tích hợp TensorFlow.js.

Bình luận