Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 vs YOLOv10#

O campo da visão computacional testemunhou avanços notáveis nos últimos anos, com a família de modelos YOLO (You Only Look Once) liderando a carga na detecção de objetos em tempo real. Escolher a arquitetura certa para os teus projetos de visão computacional requer uma compreensão profunda das opções disponíveis. Nesta comparação técnica abrangente, exploraremos as principais diferenças entre duas arquiteturas emblemáticas: YOLOv7 e YOLOv10.

Link to this sectionIntrodução aos Modelos#

Ambos os modelos representam marcos significativos na história da inteligência artificial, mas adotam abordagens fundamentalmente diferentes para resolver os desafios da detecção de objetos.

Link to this sectionYOLOv7: O Pioneiro do Bag-of-Freebies#

Lançado a 6 de julho de 2022, pelos investigadores Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao do Institute of Information Science, Academia Sinica, o YOLOv7 introduziu uma mudança de paradigma na forma como as redes neuronais são otimizadas. A pesquisa original, detalhada no seu artigo académico e alojada no seu repositório oficial do GitHub, focou-se fortemente na reparametrização arquitetónica e num "bag-of-freebies" treinável.

O YOLOv7 utiliza uma rede de agregação de camadas eficiente estendida (E-ELAN) para orientar a rede na aprendizagem de características diversas sem destruir o caminho original do gradiente. Isto torna-o uma escolha robusta para benchmarks de investigação académica e sistemas que dependem fortemente de GPUs padrão de alta performance.

Saiba mais sobre o YOLOv7

Link to this sectionYOLOv10: Detecção de Ponta a Ponta em Tempo Real#

Desenvolvido por Ao Wang e a sua equipa na Tsinghua University, o YOLOv10 foi lançado a 23 de maio de 2024. Conforme detalhado na sua publicação arxiv e no repositório GitHub da Tsinghua, este modelo elimina um gargalo de longa data na detecção de objetos: Non-Maximum Suppression (NMS).

O YOLOv10 introduziu atribuições duplas consistentes para treino sem NMS, alterando fundamentalmente o pipeline de pós-processamento. Ao implementar uma estratégia de design de modelo holística orientada para eficiência-precisão, o YOLOv10 reduz a redundância computacional. Isto resulta numa arquitetura especificamente adaptada para dispositivos de borda (edge) que requerem latência extremamente baixa.

Saiba mais sobre o YOLOv10

Arquitetura Sem NMS

A remoção do Non-Maximum Suppression (NMS) no YOLOv10 permite que todo o modelo seja exportado como um único grafo computacional. Isto simplifica vastamente a implementação usando runtimes como TensorRT ou OpenVINO.

Link to this sectionComparação de desempenho e métricas#

Ao analisar o desempenho do modelo, é crucial avaliar os equilíbrios entre precisão, velocidade e peso computacional. A tabela seguinte mostra como diferentes tamanhos destes modelos se comparam entre si.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053,1-11.5771.3189.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256,9160.4

Link to this sectionAnalisando os Equilíbrios#

As métricas acima revelam uma lacuna geracional acentuada. Embora o YOLOv7x entregue um mAPval muito forte de 53,1%, requer 71,3M de parâmetros e 189,9B de FLOPs. Em contraste, o YOLOv10l excede essa precisão (53,3% mAP) enquanto requer menos de metade dos parâmetros (29,5M) e significativamente menos FLOPs (120,3B). Além disso, o YOLOv10n altamente otimizado proporciona uma velocidade de inferência surpreendente de 1,56ms, tornando-o ideal para análises de vídeo em tempo real e aplicações móveis.

Link to this sectionCasos de Uso no Mundo Real#

As diferenças arquitetónicas entre estes modelos ditam os seus casos de uso ideais.

Link to this sectionQuando utilizar o YOLOv7#

Devido à sua rica representação de características, o YOLOv7 destaca-se em ambientes altamente complexos. Casos de uso como monitorização de fluxo de tráfego em áreas urbanas densas, análise de imagens de satélite ou identificação de defeitos na automação industrial beneficiam da sua robusta reparametrização estrutural. Também é fortemente favorecido em ambientes legados já profundamente integrados com pipelines específicos do PyTorch 1.12.

Link to this sectionQuando utilizar o YOLOv10#

O design leve e sem NMS do YOLOv10 brilha em ambientes restritos. É altamente recomendado para dispositivos de computação de borda, como o NVIDIA Jetson Nano ou Raspberry Pi. O seu desempenho de baixa latência torna-o perfeito para aplicações de movimento rápido, como análise desportiva, navegação autónoma de drones e triagem robótica de alta velocidade em tapetes rolantes.

Link to this sectionA Vantagem do Ecossistema Ultralytics#

Embora ambos os modelos tenham fortes raízes académicas, o seu verdadeiro potencial é desbloqueado quando utilizados dentro da Ultralytics Platform unificada. Desenvolver modelos de visão computacional de raiz é notoriamente difícil, mas o ecossistema Ultralytics proporciona uma experiência inigualável para engenheiros de machine learning.

  • Facilidade de Uso: A API Python da Ultralytics fornece uma interface unificada. Podes treinar, validar e exportar modelos com apenas algumas linhas de código, evitando os pesadelos de dependências complexas associados aos repositórios académicos típicos.
  • Ecossistema Bem Mantido: A Ultralytics garante que o código subjacente é ativamente desenvolvido. Os utilizadores beneficiam de integrações perfeitas com ferramentas de ML populares, como Weights & Biases para registo, ou Hugging Face para demonstrações web rápidas.
  • Requisitos de Memória: Detetores de objetos baseados em Transformer consomem frequentemente quantidades massivas de memória CUDA durante o treino. Em contraste, os modelos YOLO da Ultralytics requerem muito menos memória, permitindo batch sizes muito maiores em hardware de nível de consumo.
  • Versatilidade: O pipeline da Ultralytics não se restringe a caixas delimitadoras padrão. Suporta perfeitamente estimativa de pose, segmentação de instâncias e caixas delimitadoras orientadas em famílias de modelos suportadas, como YOLO11 e YOLOv8.

Link to this sectionExemplo de Treino Simplificado#

Executar um pipeline de treino com a Ultralytics é notavelmente direto. Independentemente de estares a aproveitar a robustez histórica do YOLOv7 ou a velocidade sem NMS do YOLOv10, a sintaxe permanece consistente:

from ultralytics import YOLO

# Load the preferred model (e.g., YOLOv10 Nano)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an inference prediction on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to an edge-friendly format like ONNX
model.export(format="onnx")

Link to this sectionCasos de uso e recomendações#

Escolher entre o YOLOv7 e o YOLOv10 depende dos requisitos específicos do teu projeto, restrições de implementação e preferências de ecossistema.

Link to this sectionQuando escolher o YOLOv7#

O YOLOv7 é uma escolha forte para:

  • Benchmarking Acadêmico: Reproduzir resultados de ponta da era de 2022 ou estudar os efeitos das técnicas de E-ELAN e trainable bag-of-freebies.
  • Pesquisa em Reparametrização: Investigar convoluções reparametrizadas planejadas e estratégias de escalonamento composto de modelos.
  • Pipelines Personalizados Existentes: Projetos com pipelines altamente customizados construídos em torno da arquitetura específica do YOLOv7 que não podem ser facilmente refatorados.

Link to this sectionQuando escolher o YOLOv10#

O YOLOv10 é recomendado para:

  • Detecção em tempo real sem NMS: Aplicações que se beneficiam da detecção de ponta a ponta sem Non-Maximum Suppression, reduzindo a complexidade da implementação.
  • Equilíbrio entre velocidade e precisão: Projetos que exigem um forte equilíbrio entre velocidade de inferência e precisão de detecção em diversas escalas de modelo.
  • Aplicações de latência consistente: Cenários de implementação onde tempos de inferência previsíveis são críticos, como em robótica ou sistemas autônomos.

Link to this sectionQuando escolher a Ultralytics (YOLO26)#

Para a maioria dos novos projetos, o Ultralytics YOLO26 oferece a melhor combinação de desempenho e experiência para o desenvolvedor:

  • Implantação de borda sem NMS: Aplicações que requerem inferência consistente e de baixa latência sem a complexidade do pós-processamento de Supressão de Não-Máximos.
  • Ambientes apenas com CPU: Dispositivos sem aceleração de GPU dedicada, onde a inferência em CPU até 43% mais rápida do YOLO26 oferece uma vantagem decisiva.
  • Detecção de objetos pequenos: Cenários desafiadores como imagens de drone aéreo ou análise de sensores IoT onde ProgLoss e STAL aumentam significativamente a precisão em objetos minúsculos.

Link to this sectionO Futuro: Apresentando o YOLO26#

Embora o YOLOv7 e o YOLOv10 sejam marcos impressionantes, a fronteira da IA está sempre a avançar. Lançado em janeiro de 2026, o Ultralytics YOLO26 é o novo padrão incontestável de eficiência e precisão em todos os cenários de implementação de borda e nuvem.

Se estás a começar um novo projeto de visão computacional hoje, o YOLO26 é a arquitetura recomendada. Baseia-se no legado dos seus antecessores incorporando várias inovações inovadoras:

  • Design de Ponta a Ponta Sem NMS: Inspirando-se no YOLOv10, o YOLO26 elimina nativamente o pós-processamento NMS, garantindo inferência de latência ultra-baixa para robótica determinística em tempo real.
  • Inferência de CPU Até 43% Mais Rápida: Ao remover estrategicamente o módulo Distribution Focal Loss (DFL), o YOLO26 acelera drasticamente a execução em hardware de computação de borda não-GPU, tornando-o uma potência para dispositivos IoT.
  • Otimizador MuSGD: Inspirado nas recentes inovações de treino de modelos de linguagem grandes, o YOLO26 incorpora um híbrido de SGD e Muon, estabilizando caminhos de treino e garantindo uma convergência mais rápida.
  • ProgLoss + STAL: Estas funções de perda avançadas produzem melhorias notáveis no reconhecimento de pequenos objetos, superando uma fraqueza histórica em gerações YOLO mais antigas.
  • Versatilidade Inigualável: O YOLO26 apresenta otimizações nativas e específicas da tarefa, tais como Residual Log-Likelihood Estimation (RLE) para rastreamento de pose e perdas angulares especializadas para detecção precisa de OBB em imagens aéreas.

Para engenheiros que procuram o equilíbrio definitivo entre velocidade, precisão e simplicidade de implementação, a transição de modelos legados para o YOLO26 proporciona uma vantagem competitiva imediata e mensurável.

Contribuidores

Comentários