YOLOv9 . YOLO26: Evolução da deteção de objetos em tempo real

No campo da visão computacional, que avança rapidamente, selecionar a arquitetura de modelo certa é fundamental para equilibrar desempenho, eficiência e facilidade de implementação. Esta comparação explora as diferenças técnicas entre YOLOv9, um modelo poderoso introduzido no início de 2024, e o YOLO26, a mais recente iteração de última geração da Ultralytics em janeiro de 2026. Embora ambos os modelos representem marcos significativos na YOLO , eles atendem a diferentes necessidades em relação à velocidade, estabilidade de treinamento e complexidade de implementação.

Visão geral do modelo e autoria

Compreender a linhagem dessas arquiteturas fornece contexto para as suas filosofias de design.

YOLOv9: Informação de Gradiente Programável

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organização:Instituto de Ciência da Informação, Academia Sinica
Data: 21/02/2024
Links:Artigo Arxiv | Repositório GitHub

YOLOv9 o conceito de Informação de Gradiente Programável (PGI) e a Rede Generalizada de Agregação de Camadas Eficientes (GELAN). Essas inovações resolveram o problema do «gargalo de informação» nas redes neurais profundas, onde os dados são perdidos à medida que passam por camadas sucessivas. O PGI garante que as informações críticas sejam preservadas em toda a rede profunda, permitindo detecções altamente precisas, especialmente em cenas complexas.

YOLO26: O especialista em borda de ponta a ponta

Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 14/01/2026
Links:Documentação oficial | Repositório GitHub

Com base no legado do YOLOv8 e YOLO11, o YOLO26 representa uma mudança em direção a uma implementação simplificada e de alta velocidade. É nativamente NMS de ponta a ponta, eliminando a necessidade de pós-processamento de supressão não máxima. Essa escolha de design, combinada com a remoção da perda focal de distribuição (DFL), torna o YOLO26 excepcionalmente rápido em dispositivos CPU de ponta. Ele também é pioneiro no uso do otimizador MuSGD, um híbrido de SGD Muon (inspirado no treinamento LLM), para garantir uma convergência estável.

Saiba mais sobre YOLO26

Comparação de desempenho e métricas

A tabela a seguir compara o desempenho dos modelos padrão no conjunto de dados COCO . Observe a vantagem significativa em termos de velocidade do YOLO26 no CPU , resultado da otimização da sua arquitetura.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Análise de Desempenho

O YOLO26 demonstra uma clara vantagem em termos de latência e eficiência computacional. Por exemplo, o YOLO26n atinge um mAP 40,9%) mais alto do que o YOLOv9t (38,3%), utilizando significativamente menos FLOPs (5,4B contra 7,7B). Essa eficiência é crucial para aplicações executadas em dispositivos de ponta alimentados por bateria.

Análise Arquitetural Detalhada

Arquitetura YOLOv9

YOLOv9 em reter o fluxo de informações. A sua estrutura GELAN combina os pontos fortes do CSPNet (planeamento do caminho do gradiente) e do ELAN (velocidade de inferência) para criar um extrator de recursos leve, mas poderoso. O ramo auxiliar PGI fornece informações confiáveis sobre o gradiente durante o treinamento para camadas mais profundas, que são então removidas durante a inferência para manter o modelo leve.

Prós: Precisão excecional em benchmarks difíceis; excelente retenção de informação para cenas complexas.
Contras: Requer NMS ; a arquitetura pode ser complexa de modificar para tarefas não padrão; carga computacional mais pesada para rendimento equivalente em comparação com as gerações mais recentes.

Arquitetura YOLO26

O YOLO26 prioriza a velocidade de inferência e a simplicidade de implementação.

DesignNMS: Ao treinar o modelo para prever correspondências um-para-um de forma nativa, o YOLO26 elimina a NMS heurística NMS . Isso reduz a variabilidade da latência e simplifica TensorRT , já que NMS eficientes não são mais uma dependência.
Otimizador MuSGD: Inspirado no Kimi K2 da Moonshot AI, este otimizador combina o momentum do SGD as propriedades adaptativas do otimizador Muon. Isso traz estabilidade ao treinamento de modelos de linguagem grandes (LLM) para a visão computacional.
ProgLoss + STAL: A introdução da Progressive Loss (Perda Progressiva) e da Soft-Target Assignment Loss (STAL) (Perda de Atribuição de Alvo Suave) melhora significativamente a detecção de pequenos objetos, uma fraqueza comum em detectores sem âncora.

Treinamento e Ecossistema

A experiência do programador difere significativamente entre os dois modelos, em grande parte devido aos ecossistemas de software em que habitam.

Facilidade de Uso com Ultralytics

Embora YOLOv9 sido integrado à Ultralytics , o YOLO26 é um cidadão nativo. Isso garante suporte imediato para todos os recursos, incluindo:

API Unificada: Alterne entre tarefas como Estimativa de Pose ou Caixas Delimitadoras Orientadas (OBB) simplesmente alterando o ficheiro de peso do modelo (por exemplo, yolo26n-pose.pt).
Ultralytics : Carregue conjuntos de dados sem complicações, faça anotações com assistentes de IA e treine na nuvem usando a Ultralytics .
Flexibilidade de exportação: Suporte nativo para exportação com um clique para formatos como CoreML para iOS, TFLite Android e OpenVINO Intel .

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for simplified deployment (no NMS plugin needed)
path = model.export(format="onnx")

Eficiência de Memória e Recursos

O YOLO26 normalmente requer menos GPU durante o treino em comparação com a arquitetura de ramificação dupla (PGI) YOLOv9. Isso permite que os investigadores utilizem tamanhos de lote maiores em hardware de nível consumidor, como o NVIDIA 3060 ou 4090, acelerando o ciclo de experimentação.

Casos de Uso no Mundo Real

Quando Escolher YOLOv9

YOLOv9 um forte concorrente para cenários em que a precisão máxima em benchmarks estáticos é a única prioridade e os recursos computacionais são abundantes.

Investigação académica: Estudo da teoria do gargalo de informação e do fluxo gradiente em CNNs.
Processamento do lado do servidor: GPU de alta potência que analisam imagens de vídeo arquivadas, onde a latência em tempo real é menos crítica.

Quando Escolher o YOLO26

O YOLO26 é a escolha recomendada para ambientes de produção e computação de ponta.

Sistemas incorporados: CPU sua CPU até 43% mais rápida torna-o ideal para implementações Raspberry Pi ou NVIDIA em robótica.
Análise em tempo real: O design NMS garante latência determinística, fundamental para sistemas de condução autónoma e segurança.
Aplicações multimodais: com suporte nativo para segmentação de instâncias e pose, serve como uma espinha dorsal versátil para pipelines complexos, como análise de comportamento humano no retalho ou desporto.

Conclusão

Enquanto YOLOv9 conceitos teóricos inovadores com o PGI, o YOLO26 refina essas lições em um pacote pragmático e de alto desempenho. Sua arquitetura ponta a ponta, a remoção de gargalos de pós-processamento e a integração com o robusto Ultralytics tornam-no a escolha superior para desenvolvedores que estão a construir a próxima geração de aplicações de IA.

Explore Outros Modelos

Se estiver interessado em explorar outras opções, considere verificar YOLO11, o predecessor do YOLO26, ou YOLOv10, que foi pioneiro na abordagem NMS.