Meet YOLO26: next-gen vision AI.

Link to this sectionAnálise Comparativa das Opções de Implementação do YOLO26#

O YOLO26 suporta mais de 20 opções de implantação, cada uma ajustada para um tempo de execução, hardware ou plataforma diferente — desde PyTorch e ONNX até TensorRT, OpenVINO, CoreML e formatos dedicados a NPU de borda. Escolher a opção certa equilibra a velocidade de inferência, restrições de hardware e facilidade de integração. Este guia compara todas as opções para que possas escolher a que melhor se adapta à tua aplicação e, em seguida, avançar para as melhores práticas de implantação de modelos para a implantares de forma fiável.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

A implantação é a etapa no fluxo de trabalho do projeto de visão computacional onde um modelo treinado começa a realizar trabalho real, por isso o formato para o qual exportas tem um impacto direto na velocidade, custo e portabilidade.

Link to this sectionComo Selecionar a Opção de Implementação Certa para o teu Modelo YOLO26#

Quando chega a hora de implantar o teu modelo YOLO26, selecionar um formato de exportação adequado é muito importante. Como descrito na documentação de exportação do Ultralytics YOLO26, a função model.export() converte o teu modelo treinado numa variedade de formatos adaptados a diversos ambientes e requisitos de desempenho.

O formato ideal depende do contexto operacional pretendido para o teu modelo e do hardware.

Ignora a exportação manual

Para uma implantação gerida sem exportação manual, a Ultralytics Platform fornece endpoints de inferência prontos a usar com escalonamento automático em 43 regiões globais.

Link to this sectionOpções de Implementação do YOLO26#

Aqui tens uma breve descrição de cada formato e quando o utilizar. Para o passo a passo completo da exportação, consulta a documentação de exportação; para critérios lado a lado, salta para a tabela de comparação.

  • PyTorch (.pt): O formato nativo de treino e inferência, oferecendo máxima flexibilidade e aceleração CUDA GPU — ideal para investigação e prototipagem sem necessidade de passo de exportação.
  • TorchScript (torchscript): Serializa o modelo para um tempo de execução C++ livre de Python, adequado para sistemas de produção onde o Python não está disponível.
  • ONNX (onnx): Um formato de intercâmbio independente de framework com amplo suporte multiplataforma e de hardware através do ONNX Runtime.
  • OpenVINO (openvino): Kit de ferramentas da Intel para inferência otimizada em CPUs Intel, GPUs integradas e NPUs, comum em IoT e computação de borda.
  • TensorRT (engine): Tempo de execução de alto desempenho da NVIDIA que proporciona inferência de GPU de nível superior com otimização FP16 e INT8.
  • CoreML (coreml): Formato da Apple para dispositivos iOS, macOS, watchOS e tvOS, utilizando o Apple Neural Engine.
  • TF SavedModel (saved_model): Formato padrão do TensorFlow para servir modelos em servidores escaláveis com TensorFlow Serving.
  • TF GraphDef (pb): Um formato estático de grafo congelado do TensorFlow para ambientes que necessitam de um grafo de computação fixo.
  • TF Lite (tflite): Um tempo de execução leve do TensorFlow para inferência em dispositivos móveis e hardware embebido.
  • TF Edge TPU (edgetpu): Compila modelos TF Lite para aceleradores Google Coral Edge TPU.
  • TF.js (tfjs): Executa modelos diretamente no navegador sem backend, acelerado através de WebGL.
  • PaddlePaddle (paddle): Framework de deep learning da Baidu, popular na China, com amplo suporte de hardware.
  • MNN (mnn): Um motor de inferência leve e de alto desempenho otimizado para sistemas móveis e embebidos ARM e x86-64.
  • NCNN (ncnn): Um framework de inferência de alto desempenho e leve, ajustado para dispositivos móveis ARM.
  • Sony IMX500 (imx): Exportações para o sensor de visão inteligente IMX500 da Sony com processamento no chip, como a Raspberry Pi AI Camera.
  • Rockchip RKNN (rknn): Destinado a NPUs Rockchip em placas embebidas com quantização FP16 e INT8.
  • ExecuTorch (executorch): Tempo de execução nativo de dispositivo do PyTorch para dispositivos móveis (iOS e Android) e sistemas embebidos via XNNPACK.
  • Axelera AI (axelera): Compila para o Metis AIPU da Axelera (até 856 TOPS) via PCIe ou M.2 para inferência de borda de alto rendimento.
  • DEEPX (deepx): Destinado ao hardware NPU DEEPX com quantização INT8 para inferência de borda embebida.
  • Qualcomm QNN (qnn): Inferência no dispositivo na NPU Snapdragon Hexagon, GPU Adreno e CPU através da stack de IA da Qualcomm.

Para um alvo de borda adicional, a integração Hailo compila modelos de deteção YOLO para Hailo HEF. Não é um alvo direto de model.export(): os modelos de deteção são exportados primeiro para ONNX e depois compilados para HEF com o Hailo Dataflow Compiler externo para aceleradores Hailo-8, Hailo-8L e Hailo-15.

Link to this sectionComparação das Opções de Implantação#

A tabela seguinte resume as opções de implantação para modelos YOLO26 de acordo com os critérios que geralmente orientam a escolha. Para uma visão detalhada de cada formato, consulta a documentação de formatos de exportação.

Opção de ImplantaçãoBenchmarks de DesempenhoCompatibilidade e IntegraçãoSuporte da Comunidade e EcossistemaEstudos de CasoManutenção e AtualizaçõesConsiderações de SegurançaAceleração de Hardware
PyTorchBoa flexibilidade; pode sacrificar o desempenho brutoExcelente com bibliotecas PythonRecursos extensos e comunidadePesquisa e protótiposDesenvolvimento regular e ativoDependente do ambiente de implantaçãoSuporte CUDA para aceleração de GPU
TorchScriptMelhor para produção do que o PyTorchTransição suave do PyTorch para C++Especializado, mas mais restrito que o PyTorchIndústria onde o Python é um gargaloAtualizações consistentes com PyTorchSegurança aprimorada sem o Python completoHerda suporte CUDA do PyTorch
ONNXVariável dependendo do runtimeAlta em diferentes estruturasEcossistema amplo, suportado por muitas organizaçõesFlexibilidade entre estruturas de MLAtualizações regulares para novas operaçõesGaranta práticas seguras de conversão e implantaçãoVárias otimizações de hardware
OpenVINOOtimizado para hardware IntelMelhor dentro do ecossistema IntelSólido no domínio de visão computacionalIoT e borda com hardware IntelAtualizações regulares para hardware IntelRecursos robustos para aplicações sensíveisAdaptado para hardware Intel
TensorRTNível superior em GPUs NVIDIAMelhor para hardware NVIDIARede forte através da NVIDIAInferência de vídeo e imagem em tempo realAtualizações frequentes para novas GPUsÊnfase na segurançaProjetado para GPUs NVIDIA
CoreMLOtimizado para hardware Apple no dispositivoExclusivo para o ecossistema AppleForte suporte da Apple e da comunidade de desenvolvedoresML no dispositivo em produtos AppleAtualizações regulares da AppleFoco em privacidade e segurançaApple neural engine e GPU
TF SavedModelEscalável em ambientes de servidorAmpla compatibilidade no ecossistema TensorFlowGrande suporte devido à popularidade do TensorFlowServindo modelos em escalaAtualizações regulares pelo Google e pela comunidadeRecursos robustos para empresasVárias acelerações de hardware
TF GraphDefEstável para grafos de computação estáticosIntegra-se bem com a infraestrutura TensorFlowRecursos para otimização de grafos estáticosCenários que requerem grafos estáticosAtualizações junto com o núcleo do TensorFlowPráticas de segurança estabelecidas do TensorFlowOpções de aceleração do TensorFlow
TF LiteVelocidade e eficiência em dispositivos móveis/embarcadosAmpla gama de suporte a dispositivosComunidade robusta, com o respaldo do GoogleAplicações móveis com footprint mínimoRecursos mais recentes para dispositivos móveisAmbiente seguro em dispositivos do usuário finalGPU e DSP, entre outros
TF Edge TPUOtimizado para o hardware Edge TPU do GoogleExclusivo para dispositivos Edge TPUCrescendo com recursos do Google e de terceirosDispositivos IoT que requerem processamento em tempo realMelhorias para o novo hardware Edge TPUSegurança de IoT robusta do GoogleProjetado sob medida para o Google Coral
TF.jsDesempenho razoável no navegadorAlto com tecnologias webSuporte para desenvolvedores Web e Node.jsAplicações web interativasContribuições da equipe e da comunidade do TensorFlowModelo de segurança da plataforma webAprimorado com WebGL e outras APIs
PaddlePaddleCompetitivo, fácil de usar e escalávelEcossistema Baidu, amplo suporte a aplicaçõesCrescimento rápido, especialmente na ChinaMercado chinês e processamento de linguagemFoco em aplicações de IA chinesasEnfatiza a privacidade e segurança de dadosIncluindo chips Kunlun da Baidu
MNNAlto desempenho para dispositivos móveisSistemas ARM móveis e embarcados e CPU X86-64Comunidade de ML móvel/embarcadaEficiência de sistemas móveisManutenção de alto desempenho em dispositivos móveisVantagens de segurança no dispositivoOtimizações de CPUs e GPUs ARM
NCNNOtimizado para dispositivos móveis baseados em ARMSistemas ARM móveis e embarcadosComunidade de ML móvel/embarcada de nicho, porém ativaEficiência de sistemas Android e ARMManutenção de alto desempenho em ARMVantagens de segurança no dispositivoOtimizações de CPUs e GPUs ARM
Sony IMX500Inferência no sensor com consumo de energia muito baixoSensor Sony IMX500, Raspberry Pi AI CameraEcossistema Sony AITRIOSIA de borda na câmaraAtualizações do SDK da Sony e cadeia de ferramentas MCTOs dados permanecem no sensorAcelerador no chip Sony IMX500
Rockchip RKNNOtimizado para NPUs RockchipPlacas SoC Rockchip (ex: RK3588)Comunidade de programadores RockchipSBC embebidas e dispositivos de bordaAtualizações do Rockchip RKNN-ToolkitInferência local no dispositivoNPU Rockchip
ExecuTorchTempo de execução PyTorch eficiente no dispositivoiOS, Android, embebido via XNNPACKApoiado pelo projeto PyTorchAplicações móveis e embebidasMantido em paralelo com o PyTorchInferência no dispositivo mantém os dados locaisBackends de CPU/GPU móveis e XNNPACK
Axelera AIRendimento muito elevado (até 856 TOPS)Metis AIPU via PCIe ou M.2Axelera Voyager SDKInferência de borda de alto rendimentoAtualizações do SDK da AxeleraInferência de borda localAxelera Metis AIPU
DEEPXInferência de NPU otimizada para INT8Hardware NPU DEEPXFerramentas de desenvolvimento DEEPX (dx_com, dx_engine)Inferência de borda embebidaAtualizações do SDK e tempo de execução da DEEPXInferência local no dispositivoNPU DEEPX
Qualcomm QNNInferência rápida no dispositivo SnapdragonSnapdragon Hexagon NPU, Adreno GPU, CPUEcossistema Qualcomm AI HubDispositivos Snapdragon móveis e de bordaAtualizações da stack de IA da Qualcomm (QAIRT)Inferência no dispositivo mantém os dados locaisNPU Snapdragon Hexagon

Esta comparação dá-te uma visão geral de alto nível. Para a implantação, avalia os requisitos e restrições específicos do teu projeto face a cada opção e consulta o guia de integração linkado para o formato que escolheres.

Link to this sectionConclusão#

A ampla gama de formatos de exportação do YOLO26 permite-te adaptar um modelo a quase qualquer ambiente, desde um servidor GPU na nuvem até uma câmara de borda no sensor. Depois de escolheres um formato, segue as melhores práticas de implantação de modelos para otimização, resolução de problemas e segurança, e conta com a comunidade Ultralytics quando encontrares um obstáculo.

Link to this sectionFAQ#

Link to this sectionQuais são as opções de implantação disponíveis para o YOLO26 em diferentes plataformas de hardware?#

O Ultralytics YOLO26 suporta vários formatos de implantação, cada um projetado para ambientes e plataformas de hardware específicos. Os principais formatos incluem:

  • PyTorch para pesquisa e prototipagem, com excelente integração com Python.
  • TorchScript para ambientes de produção onde o Python não está disponível.
  • ONNX para compatibilidade entre plataformas e aceleração de hardware.
  • OpenVINO para desempenho otimizado em hardware Intel.
  • TensorRT para inferência de alta velocidade em GPUs NVIDIA.

Cada formato tem vantagens únicas. Para um passo a passo detalhado, consulte nossa documentação do processo de exportação.

Link to this sectionComo posso melhorar a velocidade de inferência do meu modelo YOLO26 em uma CPU Intel?#

Para melhorar a velocidade de inferência em CPUs Intel, você pode implantar seu modelo YOLO26 usando o kit de ferramentas OpenVINO da Intel. O OpenVINO oferece aumentos significativos de desempenho ao otimizar modelos para aproveitar o hardware Intel de forma eficiente.

  1. Converta seu modelo YOLO26 para o formato OpenVINO usando a função model.export().
  2. Siga o guia de configuração detalhado na documentação de exportação do Intel OpenVINO.

Para mais insights, confira nossa postagem no blog.

Link to this sectionPosso implantar modelos YOLO26 em dispositivos móveis?#

Sim, modelos YOLO26 podem ser implantados em dispositivos móveis usando TensorFlow Lite (TF Lite) para plataformas Android e iOS. O TF Lite é projetado para dispositivos móveis e embarcados, fornecendo inferência eficiente no dispositivo.

Exemplo
# Export command for TFLite format
model.export(format="tflite")

Para mais detalhes sobre a implantação de modelos em dispositivos móveis, consulte nosso guia de integração TF Lite.

Link to this sectionQuais fatores devo considerar ao escolher um formato de implantação para meu modelo YOLO26?#

Ao escolher um formato de implantação para o YOLO26, considere os seguintes fatores:

  • Desempenho: Alguns formatos como o TensorRT oferecem velocidades excepcionais em GPUs NVIDIA, enquanto o OpenVINO é otimizado para hardware Intel.
  • Compatibilidade: O ONNX oferece ampla compatibilidade entre diferentes plataformas.
  • Facilidade de Integração: Formatos como CoreML ou TF Lite são adaptados para ecossistemas específicos como iOS e Android, respectivamente.
  • Suporte da Comunidade: Formatos como PyTorch e TensorFlow possuem recursos e suporte extensivos da comunidade.

Para uma análise comparativa, consulte nossa documentação de formatos de exportação.

Link to this sectionComo posso implantar modelos YOLO26 em uma aplicação web?#

Para implantar modelos YOLO26 em uma aplicação web, você pode usar o TensorFlow.js (TF.js), que permite executar modelos de machine learning diretamente no navegador. Essa abordagem elimina a necessidade de infraestrutura de backend e fornece desempenho em tempo real.

  1. Exporte o modelo YOLO26 para o formato TF.js.
  2. Integre o modelo exportado à sua aplicação web.

Para instruções passo a passo, consulte nosso guia sobre integração TensorFlow.js.

Comentários