Link to this sectionPhân tích so sánh các tùy chọn triển khai YOLO26#
YOLO26 hỗ trợ hơn 20 tùy chọn triển khai, mỗi tùy chọn được tinh chỉnh cho một runtime, phần cứng mục tiêu hoặc nền tảng khác nhau — từ PyTorch và ONNX đến TensorRT, OpenVINO, CoreML và các định dạng edge-NPU chuyên dụng. Việc lựa chọn tùy chọn phù hợp giúp cân bằng giữa tốc độ suy luận, giới hạn phần cứng và tính dễ dàng trong tích hợp. Hướng dẫn này so sánh từng tùy chọn để bạn có thể chọn phương án tối ưu nhất cho ứng dụng của mình, sau đó tham khảo các phương pháp triển khai model tốt nhất để triển khai một cách ổn định.
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
Triển khai là giai đoạn trong quy trình dự án thị giác máy tính mà tại đó một model đã huấn luyện bắt đầu hoạt động thực tế, vì vậy định dạng bạn xuất ra có ảnh hưởng trực tiếp đến tốc độ, chi phí và tính di động.
Link to this sectionCách chọn tùy chọn triển khai phù hợp cho mô hình YOLO26 của bạn#
Khi đến lúc triển khai model YOLO26 của bạn, việc chọn định dạng xuất phù hợp là rất quan trọng. Như đã nêu trong tài liệu xuất YOLO26 của Ultralytics, hàm model.export() chuyển đổi model đã huấn luyện của bạn thành nhiều định dạng khác nhau được thiết kế cho các môi trường và yêu cầu hiệu năng đa dạng.
Định dạng lý tưởng phụ thuộc vào môi trường vận hành dự kiến và phần cứng của model.
Để triển khai có quản lý mà không cần xuất thủ công, Ultralytics Platform cung cấp các endpoints suy luận sẵn sàng sử dụng với khả năng tự động mở rộng trên 43 khu vực toàn cầu.
Link to this sectionCác tùy chọn triển khai của YOLO26#
Dưới đây là mô tả ngắn gọn về từng định dạng và thời điểm nên sử dụng. Để xem hướng dẫn xuất đầy đủ, hãy xem tài liệu xuất; để xem các tiêu chí so sánh, hãy chuyển đến bảng so sánh.
- PyTorch (
.pt): Định dạng huấn luyện và suy luận gốc, mang lại sự linh hoạt tối đa và tăng tốc CUDA GPU — lý tưởng cho nghiên cứu và tạo mẫu mà không cần bước xuất. - TorchScript (
torchscript): Tuần tự hóa model cho runtime C++ không cần Python, phù hợp với các hệ thống sản xuất nơi không có Python. - ONNX (
onnx): Một định dạng trao đổi không phụ thuộc vào framework, hỗ trợ rộng rãi trên nhiều nền tảng và phần cứng thông qua ONNX Runtime. - OpenVINO (
openvino): Bộ công cụ của Intel để tối ưu hóa suy luận trên CPU, GPU tích hợp và NPU của Intel, phổ biến trong IoT và edge computing. - TensorRT (
engine): Runtime hiệu năng cao của NVIDIA mang lại khả năng suy luận GPU hàng đầu với tối ưu hóa FP16 và INT8. - CoreML (
coreml): Định dạng trên thiết bị của Apple dành cho iOS, macOS, watchOS và tvOS, sử dụng Apple Neural Engine. - TF SavedModel (
saved_model): Định dạng tiêu chuẩn của TensorFlow cho việc phục vụ phía máy chủ có khả năng mở rộng bằng TensorFlow Serving. - TF GraphDef (
pb): Định dạng đồ thị tĩnh đã đóng băng của TensorFlow cho các môi trường yêu cầu đồ thị tính toán cố định. - TF Lite (
tflite): Một runtime TensorFlow nhẹ cho suy luận trên thiết bị di động và phần cứng nhúng. - TF Edge TPU (
edgetpu): Biên dịch các model TF Lite cho các bộ tăng tốc Google Coral Edge TPU. - TF.js (
tfjs): Chạy model trực tiếp trong trình duyệt mà không cần backend, được tăng tốc thông qua WebGL. - PaddlePaddle (
paddle): Framework deep learning của Baidu, phổ biến ở Trung Quốc, với sự hỗ trợ phần cứng rộng rãi. - MNN (
mnn): Một engine suy luận nhẹ, hiệu năng cao được tối ưu hóa cho các hệ thống di động và nhúng ARM và x86-64. - NCNN (
ncnn): Một framework suy luận nhẹ, hiệu năng cao được tinh chỉnh cho các thiết bị di động ARM. - Sony IMX500 (
imx): Xuất cho cảm biến thị giác thông minh IMX500 của Sony với khả năng xử lý trên chip, chẳng hạn như Raspberry Pi AI Camera. - Rockchip RKNN (
rknn): Hướng tới các NPU Rockchip trên các bảng mạch nhúng với lượng tử hóa FP16 và INT8. - ExecuTorch (
executorch): Runtime trên thiết bị gốc của PyTorch dành cho thiết bị di động (iOS và Android) và các hệ thống nhúng thông qua XNNPACK. - Axelera AI (
axelera): Biên dịch cho Metis AIPU của Axelera (lên đến 856 TOPS) qua PCIe hoặc M.2 cho suy luận edge thông lượng cao. - DEEPX (
deepx): Hướng tới phần cứng NPU DEEPX với lượng tử hóa INT8 cho suy luận edge nhúng. - Qualcomm QNN (
qnn): Suy luận trên thiết bị với Snapdragon Hexagon NPU, Adreno GPU và CPU thông qua stack Qualcomm AI.
Đối với một mục tiêu edge bổ sung, tích hợp Hailo biên dịch các model phát hiện YOLO sang HEF của Hailo. Đây không phải là mục tiêu model.export() trực tiếp: các model phát hiện trước tiên được xuất sang ONNX, sau đó được biên dịch sang HEF với Hailo Dataflow Compiler bên ngoài dành cho các bộ tăng tốc Hailo-8, Hailo-8L và Hailo-15.
Link to this sectionSo sánh các tùy chọn triển khai#
Bảng sau đây tóm tắt các tùy chọn triển khai cho model YOLO26 theo các tiêu chí thường dẫn đến quyết định lựa chọn. Để có cái nhìn chuyên sâu về từng định dạng, hãy xem tài liệu định dạng xuất.
| Tùy chọn Triển khai | Điểm chuẩn hiệu năng | Khả năng tương thích và Tích hợp | Hỗ trợ cộng đồng và Hệ sinh thái | Nghiên cứu điển hình | Bảo trì và Cập nhật | Cân nhắc về Bảo mật | Tăng tốc phần cứng |
|---|---|---|---|---|---|---|---|
| PyTorch | Tính linh hoạt tốt; có thể đánh đổi hiệu năng thô | Tuyệt vời với các thư viện Python | Nguồn tài nguyên và cộng đồng rộng lớn | Nghiên cứu và tạo mẫu | Phát triển đều đặn, tích cực | Phụ thuộc vào môi trường triển khai | Hỗ trợ CUDA cho tăng tốc GPU |
| TorchScript | Tốt hơn cho môi trường production so với PyTorch | Chuyển đổi mượt mà từ PyTorch sang C++ | Chuyên biệt nhưng hẹp hơn so với PyTorch | Ngành công nghiệp nơi Python là điểm nghẽn | Cập nhật nhất quán với PyTorch | Cải thiện bảo mật mà không cần toàn bộ Python | Kế thừa hỗ trợ CUDA từ PyTorch |
| ONNX | Thay đổi tùy thuộc vào runtime | Cao trên các framework khác nhau | Hệ sinh thái rộng, được hỗ trợ bởi nhiều tổ chức | Tính linh hoạt trên các framework ML | Cập nhật thường xuyên cho các thao tác mới | Đảm bảo các thực hành chuyển đổi và triển khai an toàn | Nhiều tối ưu hóa phần cứng khác nhau |
| OpenVINO | Được tối ưu hóa cho phần cứng Intel | Tốt nhất trong hệ sinh thái Intel | Vững chắc trong lĩnh vực thị giác máy tính | IoT và biên với phần cứng Intel | Cập nhật thường xuyên cho phần cứng Intel | Các tính năng mạnh mẽ cho các ứng dụng nhạy cảm | Được thiết kế riêng cho phần cứng Intel |
| TensorRT | Hàng đầu trên GPU NVIDIA | Tốt nhất cho phần cứng NVIDIA | Mạng lưới mạnh mẽ thông qua NVIDIA | Suy luận video và hình ảnh thời gian thực | Cập nhật thường xuyên cho các GPU mới | Chú trọng vào bảo mật | Được thiết kế cho các GPU NVIDIA |
| CoreML | Được tối ưu hóa cho phần cứng Apple trên thiết bị | Độc quyền cho hệ sinh thái Apple | Hỗ trợ mạnh mẽ từ Apple và các nhà phát triển | ML trên thiết bị của các sản phẩm Apple | Các bản cập nhật thường xuyên từ Apple | Tập trung vào quyền riêng tư và bảo mật | Apple neural engine và GPU |
| TF SavedModel | Có khả năng mở rộng trong môi trường server | Khả năng tương thích rộng trong hệ sinh thái TensorFlow | Hỗ trợ lớn nhờ vào sự phổ biến của TensorFlow | Phục vụ các model ở quy mô lớn | Cập nhật thường xuyên bởi Google và cộng đồng | Các tính năng mạnh mẽ cho doanh nghiệp | Nhiều loại tăng tốc phần cứng khác nhau |
| TF GraphDef | Ổn định cho các biểu đồ tính toán tĩnh | Tích hợp tốt với cơ sở hạ tầng TensorFlow | Nguồn tài nguyên để tối ưu hóa các biểu đồ tĩnh | Các kịch bản yêu cầu đồ thị tĩnh | Cập nhật song song với TensorFlow core | Các thực tiễn bảo mật TensorFlow đã được thiết lập | Các tùy chọn tăng tốc TensorFlow |
| TF Lite | Tốc độ và hiệu quả trên thiết bị di động/nhúng | Phạm vi hỗ trợ thiết bị rộng rãi | Cộng đồng mạnh mẽ, được Google hỗ trợ | Các ứng dụng di động với dung lượng tối thiểu | Các tính năng mới nhất cho thiết bị di động | Môi trường bảo mật trên thiết bị người dùng cuối | GPU và DSP cùng các thiết bị khác |
| TF Edge TPU | Được tối ưu hóa cho phần cứng Edge TPU của Google | Dành riêng cho các thiết bị Edge TPU | Phát triển cùng các tài nguyên của Google và bên thứ ba | Thiết bị IoT yêu cầu xử lý thời gian thực | Các cải tiến cho phần cứng Edge TPU mới | Bảo mật IoT mạnh mẽ của Google | Được thiết kế tùy chỉnh cho Google Coral |
| TF.js | Hiệu suất trình duyệt hợp lý | Cao với các công nghệ web | Hỗ trợ các nhà phát triển web và Node.js | Các ứng dụng web tương tác | Nhóm TensorFlow và các đóng góp từ cộng đồng | Mô hình bảo mật nền tảng web | Được tăng cường với WebGL và các API khác |
| PaddlePaddle | Cạnh tranh, dễ sử dụng và có khả năng mở rộng | Hệ sinh thái Baidu, hỗ trợ ứng dụng rộng rãi | Phát triển nhanh chóng, đặc biệt là tại Trung Quốc | Thị trường Trung Quốc và xử lý ngôn ngữ | Tập trung vào các ứng dụng AI tại Trung Quốc | Chú trọng vào quyền riêng tư và bảo mật dữ liệu | Bao gồm các chip Kunlun của Baidu |
| MNN | Hiệu năng cao cho thiết bị di động | Hệ thống ARM di động, nhúng và CPU X86-64 | Cộng đồng ML di động/nhúng | Hiệu quả của hệ thống di động | Duy trì hiệu năng cao trên thiết bị di động | Ưu điểm bảo mật trên thiết bị | Tối ưu hóa cho CPU và GPU ARM |
| NCNN | Được tối ưu hóa cho các thiết bị dựa trên ARM di động | Các hệ thống ARM di động và nhúng | Cộng đồng ML di động/nhúng tuy ngách nhưng rất tích cực | Hiệu quả của hệ thống Android và ARM | Duy trì hiệu suất cao trên ARM | Ưu điểm bảo mật trên thiết bị | Tối ưu hóa cho CPU và GPU ARM |
| Sony IMX500 | Suy luận trên cảm biến với mức tiêu thụ điện năng rất thấp | Cảm biến Sony IMX500, Raspberry Pi AI Camera | Hệ sinh thái Sony AITRIOS | Edge AI trên camera | Cập nhật SDK của Sony và chuỗi công cụ MCT | Dữ liệu nằm trên cảm biến | Bộ tăng tốc trên chip Sony IMX500 |
| Rockchip RKNN | Tối ưu hóa cho Rockchip NPU | Các bo mạch Rockchip SoC (ví dụ: RK3588) | Cộng đồng nhà phát triển Rockchip | SBC nhúng và các thiết bị edge | Cập nhật Rockchip RKNN-Toolkit | Suy luận cục bộ trên thiết bị | Rockchip NPU |
| ExecuTorch | Runtime PyTorch hiệu quả trên thiết bị | iOS, Android, nhúng qua XNNPACK | Được hỗ trợ bởi dự án PyTorch | Các ứng dụng di động và nhúng | Được duy trì cùng với PyTorch | Suy luận trên thiết bị giúp giữ dữ liệu cục bộ | XNNPACK và các backend CPU/GPU di động |
| Axelera AI | Thông lượng rất cao (lên đến 856 TOPS) | Metis AIPU qua PCIe hoặc M.2 | Axelera Voyager SDK | Suy luận edge thông lượng cao | Cập nhật Axelera SDK | Suy luận edge tại chỗ | Axelera Metis AIPU |
| DEEPX | Suy luận NPU tối ưu hóa INT8 | Phần cứng DEEPX NPU | Công cụ nhà phát triển DEEPX (dx_com, dx_engine) | Suy luận edge nhúng | Cập nhật SDK và runtime DEEPX | Suy luận cục bộ trên thiết bị | DEEPX NPU |
| Qualcomm QNN | Suy luận Snapdragon nhanh trên thiết bị | Snapdragon Hexagon NPU, Adreno GPU, CPU | Hệ sinh thái Qualcomm AI Hub | Các thiết bị di động và edge Snapdragon | Cập nhật stack Qualcomm AI (QAIRT) | Suy luận trên thiết bị giúp giữ dữ liệu cục bộ | Snapdragon Hexagon NPU |
So sánh này cung cấp cho bạn cái nhìn tổng quan. Để triển khai, hãy cân nhắc các yêu cầu và giới hạn cụ thể của dự án của bạn đối với từng tùy chọn và tham khảo hướng dẫn tích hợp được liên kết cho định dạng mà bạn chọn.
Link to this sectionKết luận#
Nhiều định dạng xuất của YOLO26 cho phép bạn điều chỉnh model cho hầu hết mọi môi trường, từ máy chủ GPU đám mây đến camera edge trên cảm biến. Sau khi đã chọn được định dạng, hãy tuân theo các phương pháp triển khai model tốt nhất để tối ưu hóa, xử lý sự cố và bảo mật, đồng thời hãy tận dụng cộng đồng Ultralytics khi bạn gặp khó khăn.
Link to this sectionCâu hỏi thường gặp#
Link to this sectionCác tùy chọn triển khai nào khả dụng cho YOLO26 trên các nền tảng phần cứng khác nhau?#
Ultralytics YOLO26 hỗ trợ nhiều định dạng triển khai, mỗi định dạng được thiết kế cho các môi trường và nền tảng phần cứng cụ thể. Các định dạng chính bao gồm:
- PyTorch để nghiên cứu và tạo nguyên mẫu, với khả năng tích hợp Python tuyệt vời.
- TorchScript cho môi trường sản xuất nơi Python không khả dụng.
- ONNX để tương thích đa nền tảng và tăng tốc phần cứng.
- OpenVINO để có hiệu suất tối ưu trên phần cứng Intel.
- TensorRT để suy luận tốc độ cao trên GPU NVIDIA.
Mỗi định dạng đều có những ưu điểm riêng. Để xem hướng dẫn chi tiết, hãy xem tài liệu quy trình xuất của chúng tôi.
Link to this sectionLàm thế nào để tôi cải thiện tốc độ suy luận của model YOLO26 trên CPU Intel?#
Để tăng tốc độ suy luận trên CPU Intel, bạn có thể triển khai model YOLO26 của mình bằng bộ công cụ OpenVINO của Intel. OpenVINO mang lại khả năng tăng hiệu suất đáng kể bằng cách tối ưu hóa các model để tận dụng hiệu quả phần cứng Intel.
- Chuyển đổi model YOLO26 của bạn sang định dạng OpenVINO bằng hàm
model.export(). - Thực hiện theo hướng dẫn thiết lập chi tiết trong Tài liệu xuất Intel OpenVINO.
Để có thêm thông tin chuyên sâu, hãy xem bài viết trên blog của chúng tôi.
Link to this sectionTôi có thể triển khai các model YOLO26 trên thiết bị di động không?#
Có, các model YOLO26 có thể được triển khai trên thiết bị di động bằng TensorFlow Lite (TF Lite) cho cả nền tảng Android và iOS. TF Lite được thiết kế cho thiết bị di động và thiết bị nhúng, cung cấp khả năng suy luận trên thiết bị hiệu quả.
# Export command for TFLite format
model.export(format="tflite")Để biết thêm chi tiết về cách triển khai model lên thiết bị di động, hãy tham khảo hướng dẫn tích hợp TF Lite của chúng tôi.
Link to this sectionTôi nên xem xét các yếu tố nào khi chọn định dạng triển khai cho model YOLO26 của mình?#
Khi chọn định dạng triển khai cho YOLO26, hãy xem xét các yếu tố sau:
- Hiệu suất: Một số định dạng như TensorRT cung cấp tốc độ vượt trội trên GPU NVIDIA, trong khi OpenVINO được tối ưu hóa cho phần cứng Intel.
- Tính tương thích: ONNX cung cấp khả năng tương thích rộng rãi trên các nền tảng khác nhau.
- Dễ dàng tích hợp: Các định dạng như CoreML hoặc TF Lite được thiết kế riêng cho các hệ sinh thái cụ thể như iOS và Android.
- Hỗ trợ cộng đồng: Các định dạng như PyTorch và TensorFlow có nguồn lực cộng đồng và sự hỗ trợ rộng khắp.
Để phân tích so sánh, hãy tham khảo tài liệu về định dạng xuất của chúng tôi.
Link to this sectionLàm thế nào để tôi triển khai các model YOLO26 trong một ứng dụng web?#
Để triển khai các model YOLO26 trong ứng dụng web, bạn có thể sử dụng TensorFlow.js (TF.js), cho phép chạy các model học máy trực tiếp trên trình duyệt. Cách tiếp cận này loại bỏ nhu cầu về cơ sở hạ tầng backend và mang lại hiệu suất thời gian thực.
- Xuất model YOLO26 sang định dạng TF.js.
- Tích hợp model đã xuất vào ứng dụng web của bạn.
Để có hướng dẫn từng bước, hãy tham khảo hướng dẫn của chúng tôi về Tích hợp TensorFlow.js.