Link to this sectionAnálise Comparativa das Opções de Implementação do YOLO26#
O YOLO26 suporta mais de 20 opções de implantação, cada uma ajustada para um tempo de execução, hardware ou plataforma diferente — desde PyTorch e ONNX até TensorRT, OpenVINO, CoreML e formatos dedicados a NPU de borda. Escolher a opção certa equilibra a velocidade de inferência, restrições de hardware e facilidade de integração. Este guia compara todas as opções para que possas escolher a que melhor se adapta à tua aplicação e, em seguida, avançar para as melhores práticas de implantação de modelos para a implantares de forma fiável.
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
A implantação é a etapa no fluxo de trabalho do projeto de visão computacional onde um modelo treinado começa a realizar trabalho real, por isso o formato para o qual exportas tem um impacto direto na velocidade, custo e portabilidade.
Link to this sectionComo Selecionar a Opção de Implementação Certa para o teu Modelo YOLO26#
Quando chega a hora de implantar o teu modelo YOLO26, selecionar um formato de exportação adequado é muito importante. Como descrito na documentação de exportação do Ultralytics YOLO26, a função model.export() converte o teu modelo treinado numa variedade de formatos adaptados a diversos ambientes e requisitos de desempenho.
O formato ideal depende do contexto operacional pretendido para o teu modelo e do hardware.
Para uma implantação gerida sem exportação manual, a Ultralytics Platform fornece endpoints de inferência prontos a usar com escalonamento automático em 43 regiões globais.
Link to this sectionOpções de Implementação do YOLO26#
Aqui tens uma breve descrição de cada formato e quando o utilizar. Para o passo a passo completo da exportação, consulta a documentação de exportação; para critérios lado a lado, salta para a tabela de comparação.
- PyTorch (
.pt): O formato nativo de treino e inferência, oferecendo máxima flexibilidade e aceleração CUDA GPU — ideal para investigação e prototipagem sem necessidade de passo de exportação. - TorchScript (
torchscript): Serializa o modelo para um tempo de execução C++ livre de Python, adequado para sistemas de produção onde o Python não está disponível. - ONNX (
onnx): Um formato de intercâmbio independente de framework com amplo suporte multiplataforma e de hardware através do ONNX Runtime. - OpenVINO (
openvino): Kit de ferramentas da Intel para inferência otimizada em CPUs Intel, GPUs integradas e NPUs, comum em IoT e computação de borda. - TensorRT (
engine): Tempo de execução de alto desempenho da NVIDIA que proporciona inferência de GPU de nível superior com otimização FP16 e INT8. - CoreML (
coreml): Formato da Apple para dispositivos iOS, macOS, watchOS e tvOS, utilizando o Apple Neural Engine. - TF SavedModel (
saved_model): Formato padrão do TensorFlow para servir modelos em servidores escaláveis com TensorFlow Serving. - TF GraphDef (
pb): Um formato estático de grafo congelado do TensorFlow para ambientes que necessitam de um grafo de computação fixo. - TF Lite (
tflite): Um tempo de execução leve do TensorFlow para inferência em dispositivos móveis e hardware embebido. - TF Edge TPU (
edgetpu): Compila modelos TF Lite para aceleradores Google Coral Edge TPU. - TF.js (
tfjs): Executa modelos diretamente no navegador sem backend, acelerado através de WebGL. - PaddlePaddle (
paddle): Framework de deep learning da Baidu, popular na China, com amplo suporte de hardware. - MNN (
mnn): Um motor de inferência leve e de alto desempenho otimizado para sistemas móveis e embebidos ARM e x86-64. - NCNN (
ncnn): Um framework de inferência de alto desempenho e leve, ajustado para dispositivos móveis ARM. - Sony IMX500 (
imx): Exportações para o sensor de visão inteligente IMX500 da Sony com processamento no chip, como a Raspberry Pi AI Camera. - Rockchip RKNN (
rknn): Destinado a NPUs Rockchip em placas embebidas com quantização FP16 e INT8. - ExecuTorch (
executorch): Tempo de execução nativo de dispositivo do PyTorch para dispositivos móveis (iOS e Android) e sistemas embebidos via XNNPACK. - Axelera AI (
axelera): Compila para o Metis AIPU da Axelera (até 856 TOPS) via PCIe ou M.2 para inferência de borda de alto rendimento. - DEEPX (
deepx): Destinado ao hardware NPU DEEPX com quantização INT8 para inferência de borda embebida. - Qualcomm QNN (
qnn): Inferência no dispositivo na NPU Snapdragon Hexagon, GPU Adreno e CPU através da stack de IA da Qualcomm.
Para um alvo de borda adicional, a integração Hailo compila modelos de deteção YOLO para Hailo HEF. Não é um alvo direto de model.export(): os modelos de deteção são exportados primeiro para ONNX e depois compilados para HEF com o Hailo Dataflow Compiler externo para aceleradores Hailo-8, Hailo-8L e Hailo-15.
Link to this sectionComparação das Opções de Implantação#
A tabela seguinte resume as opções de implantação para modelos YOLO26 de acordo com os critérios que geralmente orientam a escolha. Para uma visão detalhada de cada formato, consulta a documentação de formatos de exportação.
| Opção de Implantação | Benchmarks de Desempenho | Compatibilidade e Integração | Suporte da Comunidade e Ecossistema | Estudos de Caso | Manutenção e Atualizações | Considerações de Segurança | Aceleração de Hardware |
|---|---|---|---|---|---|---|---|
| PyTorch | Boa flexibilidade; pode sacrificar o desempenho bruto | Excelente com bibliotecas Python | Recursos extensos e comunidade | Pesquisa e protótipos | Desenvolvimento regular e ativo | Dependente do ambiente de implantação | Suporte CUDA para aceleração de GPU |
| TorchScript | Melhor para produção do que o PyTorch | Transição suave do PyTorch para C++ | Especializado, mas mais restrito que o PyTorch | Indústria onde o Python é um gargalo | Atualizações consistentes com PyTorch | Segurança aprimorada sem o Python completo | Herda suporte CUDA do PyTorch |
| ONNX | Variável dependendo do runtime | Alta em diferentes estruturas | Ecossistema amplo, suportado por muitas organizações | Flexibilidade entre estruturas de ML | Atualizações regulares para novas operações | Garanta práticas seguras de conversão e implantação | Várias otimizações de hardware |
| OpenVINO | Otimizado para hardware Intel | Melhor dentro do ecossistema Intel | Sólido no domínio de visão computacional | IoT e borda com hardware Intel | Atualizações regulares para hardware Intel | Recursos robustos para aplicações sensíveis | Adaptado para hardware Intel |
| TensorRT | Nível superior em GPUs NVIDIA | Melhor para hardware NVIDIA | Rede forte através da NVIDIA | Inferência de vídeo e imagem em tempo real | Atualizações frequentes para novas GPUs | Ênfase na segurança | Projetado para GPUs NVIDIA |
| CoreML | Otimizado para hardware Apple no dispositivo | Exclusivo para o ecossistema Apple | Forte suporte da Apple e da comunidade de desenvolvedores | ML no dispositivo em produtos Apple | Atualizações regulares da Apple | Foco em privacidade e segurança | Apple neural engine e GPU |
| TF SavedModel | Escalável em ambientes de servidor | Ampla compatibilidade no ecossistema TensorFlow | Grande suporte devido à popularidade do TensorFlow | Servindo modelos em escala | Atualizações regulares pelo Google e pela comunidade | Recursos robustos para empresas | Várias acelerações de hardware |
| TF GraphDef | Estável para grafos de computação estáticos | Integra-se bem com a infraestrutura TensorFlow | Recursos para otimização de grafos estáticos | Cenários que requerem grafos estáticos | Atualizações junto com o núcleo do TensorFlow | Práticas de segurança estabelecidas do TensorFlow | Opções de aceleração do TensorFlow |
| TF Lite | Velocidade e eficiência em dispositivos móveis/embarcados | Ampla gama de suporte a dispositivos | Comunidade robusta, com o respaldo do Google | Aplicações móveis com footprint mínimo | Recursos mais recentes para dispositivos móveis | Ambiente seguro em dispositivos do usuário final | GPU e DSP, entre outros |
| TF Edge TPU | Otimizado para o hardware Edge TPU do Google | Exclusivo para dispositivos Edge TPU | Crescendo com recursos do Google e de terceiros | Dispositivos IoT que requerem processamento em tempo real | Melhorias para o novo hardware Edge TPU | Segurança de IoT robusta do Google | Projetado sob medida para o Google Coral |
| TF.js | Desempenho razoável no navegador | Alto com tecnologias web | Suporte para desenvolvedores Web e Node.js | Aplicações web interativas | Contribuições da equipe e da comunidade do TensorFlow | Modelo de segurança da plataforma web | Aprimorado com WebGL e outras APIs |
| PaddlePaddle | Competitivo, fácil de usar e escalável | Ecossistema Baidu, amplo suporte a aplicações | Crescimento rápido, especialmente na China | Mercado chinês e processamento de linguagem | Foco em aplicações de IA chinesas | Enfatiza a privacidade e segurança de dados | Incluindo chips Kunlun da Baidu |
| MNN | Alto desempenho para dispositivos móveis | Sistemas ARM móveis e embarcados e CPU X86-64 | Comunidade de ML móvel/embarcada | Eficiência de sistemas móveis | Manutenção de alto desempenho em dispositivos móveis | Vantagens de segurança no dispositivo | Otimizações de CPUs e GPUs ARM |
| NCNN | Otimizado para dispositivos móveis baseados em ARM | Sistemas ARM móveis e embarcados | Comunidade de ML móvel/embarcada de nicho, porém ativa | Eficiência de sistemas Android e ARM | Manutenção de alto desempenho em ARM | Vantagens de segurança no dispositivo | Otimizações de CPUs e GPUs ARM |
| Sony IMX500 | Inferência no sensor com consumo de energia muito baixo | Sensor Sony IMX500, Raspberry Pi AI Camera | Ecossistema Sony AITRIOS | IA de borda na câmara | Atualizações do SDK da Sony e cadeia de ferramentas MCT | Os dados permanecem no sensor | Acelerador no chip Sony IMX500 |
| Rockchip RKNN | Otimizado para NPUs Rockchip | Placas SoC Rockchip (ex: RK3588) | Comunidade de programadores Rockchip | SBC embebidas e dispositivos de borda | Atualizações do Rockchip RKNN-Toolkit | Inferência local no dispositivo | NPU Rockchip |
| ExecuTorch | Tempo de execução PyTorch eficiente no dispositivo | iOS, Android, embebido via XNNPACK | Apoiado pelo projeto PyTorch | Aplicações móveis e embebidas | Mantido em paralelo com o PyTorch | Inferência no dispositivo mantém os dados locais | Backends de CPU/GPU móveis e XNNPACK |
| Axelera AI | Rendimento muito elevado (até 856 TOPS) | Metis AIPU via PCIe ou M.2 | Axelera Voyager SDK | Inferência de borda de alto rendimento | Atualizações do SDK da Axelera | Inferência de borda local | Axelera Metis AIPU |
| DEEPX | Inferência de NPU otimizada para INT8 | Hardware NPU DEEPX | Ferramentas de desenvolvimento DEEPX (dx_com, dx_engine) | Inferência de borda embebida | Atualizações do SDK e tempo de execução da DEEPX | Inferência local no dispositivo | NPU DEEPX |
| Qualcomm QNN | Inferência rápida no dispositivo Snapdragon | Snapdragon Hexagon NPU, Adreno GPU, CPU | Ecossistema Qualcomm AI Hub | Dispositivos Snapdragon móveis e de borda | Atualizações da stack de IA da Qualcomm (QAIRT) | Inferência no dispositivo mantém os dados locais | NPU Snapdragon Hexagon |
Esta comparação dá-te uma visão geral de alto nível. Para a implantação, avalia os requisitos e restrições específicos do teu projeto face a cada opção e consulta o guia de integração linkado para o formato que escolheres.
Link to this sectionConclusão#
A ampla gama de formatos de exportação do YOLO26 permite-te adaptar um modelo a quase qualquer ambiente, desde um servidor GPU na nuvem até uma câmara de borda no sensor. Depois de escolheres um formato, segue as melhores práticas de implantação de modelos para otimização, resolução de problemas e segurança, e conta com a comunidade Ultralytics quando encontrares um obstáculo.
Link to this sectionFAQ#
Link to this sectionQuais são as opções de implantação disponíveis para o YOLO26 em diferentes plataformas de hardware?#
O Ultralytics YOLO26 suporta vários formatos de implantação, cada um projetado para ambientes e plataformas de hardware específicos. Os principais formatos incluem:
- PyTorch para pesquisa e prototipagem, com excelente integração com Python.
- TorchScript para ambientes de produção onde o Python não está disponível.
- ONNX para compatibilidade entre plataformas e aceleração de hardware.
- OpenVINO para desempenho otimizado em hardware Intel.
- TensorRT para inferência de alta velocidade em GPUs NVIDIA.
Cada formato tem vantagens únicas. Para um passo a passo detalhado, consulte nossa documentação do processo de exportação.
Link to this sectionComo posso melhorar a velocidade de inferência do meu modelo YOLO26 em uma CPU Intel?#
Para melhorar a velocidade de inferência em CPUs Intel, você pode implantar seu modelo YOLO26 usando o kit de ferramentas OpenVINO da Intel. O OpenVINO oferece aumentos significativos de desempenho ao otimizar modelos para aproveitar o hardware Intel de forma eficiente.
- Converta seu modelo YOLO26 para o formato OpenVINO usando a função
model.export(). - Siga o guia de configuração detalhado na documentação de exportação do Intel OpenVINO.
Para mais insights, confira nossa postagem no blog.
Link to this sectionPosso implantar modelos YOLO26 em dispositivos móveis?#
Sim, modelos YOLO26 podem ser implantados em dispositivos móveis usando TensorFlow Lite (TF Lite) para plataformas Android e iOS. O TF Lite é projetado para dispositivos móveis e embarcados, fornecendo inferência eficiente no dispositivo.
# Export command for TFLite format
model.export(format="tflite")Para mais detalhes sobre a implantação de modelos em dispositivos móveis, consulte nosso guia de integração TF Lite.
Link to this sectionQuais fatores devo considerar ao escolher um formato de implantação para meu modelo YOLO26?#
Ao escolher um formato de implantação para o YOLO26, considere os seguintes fatores:
- Desempenho: Alguns formatos como o TensorRT oferecem velocidades excepcionais em GPUs NVIDIA, enquanto o OpenVINO é otimizado para hardware Intel.
- Compatibilidade: O ONNX oferece ampla compatibilidade entre diferentes plataformas.
- Facilidade de Integração: Formatos como CoreML ou TF Lite são adaptados para ecossistemas específicos como iOS e Android, respectivamente.
- Suporte da Comunidade: Formatos como PyTorch e TensorFlow possuem recursos e suporte extensivos da comunidade.
Para uma análise comparativa, consulte nossa documentação de formatos de exportação.
Link to this sectionComo posso implantar modelos YOLO26 em uma aplicação web?#
Para implantar modelos YOLO26 em uma aplicação web, você pode usar o TensorFlow.js (TF.js), que permite executar modelos de machine learning diretamente no navegador. Essa abordagem elimina a necessidade de infraestrutura de backend e fornece desempenho em tempo real.
- Exporte o modelo YOLO26 para o formato TF.js.
- Integre o modelo exportado à sua aplicação web.
Para instruções passo a passo, consulte nosso guia sobre integração TensorFlow.js.