Ir para o conteúdo

YOLOv9 . YOLO26: Evolução da deteção de objetos em tempo real

No campo da visão computacional, que avança rapidamente, selecionar a arquitetura de modelo certa é fundamental para equilibrar desempenho, eficiência e facilidade de implementação. Esta comparação explora as diferenças técnicas entre YOLOv9, um modelo poderoso introduzido no início de 2024, e o YOLO26, a mais recente iteração de última geração da Ultralytics em janeiro de 2026. Embora ambos os modelos representem marcos significativos na YOLO , eles atendem a diferentes necessidades em relação à velocidade, estabilidade de treinamento e complexidade de implementação.

Visão geral do modelo e autoria

Compreender a linhagem dessas arquiteturas fornece contexto para as suas filosofias de design.

YOLOv9: Informação de Gradiente Programável

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organização:Instituto de Ciência da Informação, Academia Sinica
Data: 21/02/2024
Links:Artigo Arxiv | Repositório GitHub

YOLOv9 o conceito de Informação de Gradiente Programável (PGI) e a Rede Generalizada de Agregação de Camadas Eficientes (GELAN). Essas inovações resolveram o problema do «gargalo de informação» nas redes neurais profundas, onde os dados são perdidos à medida que passam por camadas sucessivas. O PGI garante que as informações críticas sejam preservadas em toda a rede profunda, permitindo detecções altamente precisas, especialmente em cenas complexas.

YOLO26: O especialista em borda de ponta a ponta

Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 14/01/2026
Links:Documentação oficial | Repositório GitHub

Com base no legado do YOLOv8 e YOLO11, o YOLO26 representa uma mudança em direção a uma implementação simplificada e de alta velocidade. É nativamente NMS de ponta a ponta, eliminando a necessidade de pós-processamento de supressão não máxima. Essa escolha de design, combinada com a remoção da perda focal de distribuição (DFL), torna o YOLO26 excepcionalmente rápido em dispositivos CPU de ponta. Ele também é pioneiro no uso do otimizador MuSGD, um híbrido de SGD Muon (inspirado no treinamento LLM), para garantir uma convergência estável.

Saiba mais sobre YOLO26

Comparação de desempenho e métricas

A tabela a seguir compara o desempenho dos modelos padrão no conjunto de dados COCO . Observe a vantagem significativa em termos de velocidade do YOLO26 no CPU , resultado da otimização da sua arquitetura.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Análise de Desempenho

O YOLO26 demonstra uma clara vantagem em termos de latência e eficiência computacional. Por exemplo, o YOLO26n atinge um mAP 40,9%) mais alto do que o YOLOv9t (38,3%), utilizando significativamente menos FLOPs (5,4B contra 7,7B). Essa eficiência é crucial para aplicações executadas em dispositivos de ponta alimentados por bateria.

Análise Arquitetural Detalhada

Arquitetura YOLOv9

YOLOv9 em reter o fluxo de informações. A sua estrutura GELAN combina os pontos fortes do CSPNet (planeamento do caminho do gradiente) e do ELAN (velocidade de inferência) para criar um extrator de recursos leve, mas poderoso. O ramo auxiliar PGI fornece informações confiáveis sobre o gradiente durante o treinamento para camadas mais profundas, que são então removidas durante a inferência para manter o modelo leve.

  • Prós: Precisão excecional em benchmarks difíceis; excelente retenção de informação para cenas complexas.
  • Contras: Requer NMS ; a arquitetura pode ser complexa de modificar para tarefas não padrão; carga computacional mais pesada para rendimento equivalente em comparação com as gerações mais recentes.

Arquitetura YOLO26

O YOLO26 prioriza a velocidade de inferência e a simplicidade de implementação.

  1. DesignNMS: Ao treinar o modelo para prever correspondências um-para-um de forma nativa, o YOLO26 elimina a NMS heurística NMS . Isso reduz a variabilidade da latência e simplifica TensorRT , já que NMS eficientes não são mais uma dependência.
  2. Otimizador MuSGD: Inspirado no Kimi K2 da Moonshot AI, este otimizador combina o momentum do SGD as propriedades adaptativas do otimizador Muon. Isso traz estabilidade ao treinamento de modelos de linguagem grandes (LLM) para a visão computacional.
  3. ProgLoss + STAL: A introdução da Progressive Loss (Perda Progressiva) e da Soft-Target Assignment Loss (STAL) (Perda de Atribuição de Alvo Suave) melhora significativamente a detecção de pequenos objetos, uma fraqueza comum em detectores sem âncora.

Treinamento e Ecossistema

A experiência do programador difere significativamente entre os dois modelos, em grande parte devido aos ecossistemas de software em que habitam.

Facilidade de Uso com Ultralytics

Embora YOLOv9 sido integrado à Ultralytics , o YOLO26 é um cidadão nativo. Isso garante suporte imediato para todos os recursos, incluindo:

  • API Unificada: Alterne entre tarefas como Estimativa de Pose ou Caixas Delimitadoras Orientadas (OBB) simplesmente alterando o ficheiro de peso do modelo (por exemplo, yolo26n-pose.pt).
  • Ultralytics : Carregue conjuntos de dados sem complicações, faça anotações com assistentes de IA e treine na nuvem usando a Ultralytics .
  • Flexibilidade de exportação: Suporte nativo para exportação com um clique para formatos como CoreML para iOS, TFLite Android e OpenVINO Intel .
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for simplified deployment (no NMS plugin needed)
path = model.export(format="onnx")

Eficiência de Memória e Recursos

O YOLO26 normalmente requer menos GPU durante o treino em comparação com a arquitetura de ramificação dupla (PGI) YOLOv9. Isso permite que os investigadores utilizem tamanhos de lote maiores em hardware de nível consumidor, como o NVIDIA 3060 ou 4090, acelerando o ciclo de experimentação.

Casos de Uso no Mundo Real

Quando Escolher YOLOv9

YOLOv9 um forte concorrente para cenários em que a precisão máxima em benchmarks estáticos é a única prioridade e os recursos computacionais são abundantes.

  • Investigação académica: Estudo da teoria do gargalo de informação e do fluxo gradiente em CNNs.
  • Processamento do lado do servidor: GPU de alta potência que analisam imagens de vídeo arquivadas, onde a latência em tempo real é menos crítica.

Quando Escolher o YOLO26

O YOLO26 é a escolha recomendada para ambientes de produção e computação de ponta.

  • Sistemas incorporados: CPU sua CPU até 43% mais rápida torna-o ideal para implementações Raspberry Pi ou NVIDIA em robótica.
  • Análise em tempo real: O design NMS garante latência determinística, fundamental para sistemas de condução autónoma e segurança.
  • Aplicações multimodais: com suporte nativo para segmentação de instâncias e pose, serve como uma espinha dorsal versátil para pipelines complexos, como análise de comportamento humano no retalho ou desporto.

Conclusão

Enquanto YOLOv9 conceitos teóricos inovadores com o PGI, o YOLO26 refina essas lições em um pacote pragmático e de alto desempenho. Sua arquitetura ponta a ponta, a remoção de gargalos de pós-processamento e a integração com o robusto Ultralytics tornam-no a escolha superior para desenvolvedores que estão a construir a próxima geração de aplicações de IA.

Explore Outros Modelos

Se estiver interessado em explorar outras opções, considere verificar YOLO11, o predecessor do YOLO26, ou YOLOv10, que foi pioneiro na abordagem NMS.


Comentários