Ir para o conteúdo

YOLOX vs. YOLOv9: Evolução da deteção de objetos de alto desempenho

No campo da visão computacional, que avança rapidamente, selecionar o modelo certo de deteção de objetos é fundamental para equilibrar precisão, velocidade e complexidade de implementação. Esta comparação explora dois marcos significativos na YOLO : o YOLOX, um detetor robusto sem âncora lançado em 2021, e o YOLOv9, uma arquitetura de 2024 que introduz a Informação de Gradiente Programável (PGI) para uma retenção superior de características.

YOLOX: O Pioneiro Sem Anchor

O YOLOX representou uma grande mudança na YOLO , ao afastar-se dos mecanismos baseados em âncoras para um design sem âncoras. Essa simplificação eliminou a necessidade de ajuste manual da caixa de âncoras, tornando o modelo mais adaptável a diversos conjuntos de dados e proporções. Ao incorporar uma cabeça desacoplada e a estratégia avançada de atribuição de rótulos SimOTA, o YOLOX alcançou resultados de ponta após o seu lançamento, preenchendo a lacuna entre a pesquisa académica e a aplicação industrial.

Saiba mais sobre o YOLOX.

Principais Características Arquitetônicas

  • Mecanismo sem âncora: elimina a complexidade do agrupamento de caixas de âncora, reduzindo o número de parâmetros de design e melhorando a generalização.
  • Cabeça desacoplada: Separa as tarefas de classificação e regressão em diferentes ramos, resolvendo o conflito entre esses dois objetivos e melhorando a velocidade de convergência.
  • Atribuição de rótulos SimOTA: uma estratégia dinâmica de atribuição de rótulos que encara o processo de treino como um problema de transporte ideal, atribuindo verdades fundamentais às previsões de forma mais eficaz do que IoU estáticos IoU .

YOLOv9: Gradientes programáveis para aprendizagem profunda

YOLOv9 aborda a questão fundamental da perda de informação nas redes neurais profundas. À medida que as redes se tornam mais profundas, informações essenciais podem desaparecer durante a propagação para a frente. YOLOv9 a Informação de Gradiente Programável (PGI) e a Rede de Agregação de Camadas Eficiente Generalizada (GELAN) para preservar dados críticos em todas as camadas da rede. Isso resulta em melhorias significativas na precisão da detecção, particularmente para modelos leves, mantendo alta eficiência.

Saiba mais sobre o YOLOv9

Principais Características Arquitetônicas

  • Arquitetura GELAN: Combina os princípios de design CSPNet e ELAN para maximizar a eficiência dos parâmetros e a velocidade computacional, permitindo que o modelo funcione eficazmente em vários tipos de hardware.
  • Informação de Gradiente Programável (PGI): Uma estrutura de supervisão auxiliar que gera gradientes confiáveis para atualizar os pesos da rede, garantindo que o ramo principal aprenda características completas, mesmo em arquiteturas muito profundas.
  • Funções reversíveis: Mitiga o problema do gargalo de informação, garantindo que os dados possam ser reconstruídos de forma eficaz, preservando a informação semântica entre as camadas.

Comparação de Desempenho

Ao avaliar esses modelos, YOLOv9 geralmente supera o YOLOX em termos de relação precisão-parâmetro. Enquanto o YOLOX-x atinge respeitáveis 51,1% mAP, o mais recente YOLOv9c o supera com 53,0% mAP, usando significativamente menos parâmetros (25,3 milhões contra 99,1 milhões) e menos poder computacional. Essa eficiência torna YOLOv9 candidato mais forte para aplicações em tempo real, nas quais os recursos de hardware são limitados, mas é necessária alta precisão.

No entanto, o YOLOX continua a ser altamente relevante para dispositivos de ponta legados. O seu design mais simples e sem âncoras pode, por vezes, ser mais fácil de otimizar para chipsets móveis específicos ou arquiteturas NPU que podem não suportar totalmente as agregações de camadas complexas encontradas em modelos mais recentes, como o GELAN.

Métricas detalhadas

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Destaque em eficiência

Observe que o YOLOv9c alcança maior precisão (53,0% mAP) do que o maior YOLOX-x (51,1% mAP), usando cerca de 75% menos parâmetros. Isso demonstra o rápido avanço na eficiência arquitetónica ao longo dos três anos entre esses lançamentos.

Treinamento e Facilidade de Uso com Ultralytics

Um diferencial importante para os programadores é o ecossistema em torno do modelo. YOLOv9 está totalmente integrado ao Ultralytics , proporcionando uma vantagem significativa em termos de usabilidade.

A Vantagem Ultralytics

A utilização daPython Ultralytics permite-lhe aceder a modelos de última geração com sintaxe unificada. Não precisa de clonar repositórios complexos ou compilar manualmente operadores C++, o que muitas vezes é um obstáculo em implementações de pesquisa originais como o YOLOX.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

Esta integração oferece:

  1. Fluxo de trabalho simplificado: alterne facilmente entre tarefas de deteção, segmentação e estimativa de pose.
  2. Eficiência de memória: os pipelines Ultralytics são otimizados para hardware de consumo, geralmente exigindo menos GPU do que alternativas baseadas em transformadores ou bases de código de pesquisa não otimizadas.
  3. Preparação para implementação: as funções de exportação integradas permitem converter modelos treinados para ONNX, TensorRT, CoreML e TFLite um único comando.

Aplicações no Mundo Real

A escolha entre esses modelos depende das suas restrições específicas de implementação.

Análise de retalho de alta velocidade

Para ambientes de retalho que exigem reconhecimento de produtos em tempo real em dispositivos de ponta, YOLOv9 é frequentemente a melhor escolha. A sua arquitetura GELAN permite um alto rendimento em dispositivos como o NVIDIA Orin Nano, possibilitando recursos como checkout automatizado ou análise de estoque em prateleiras sem atrasos significativos.

Implantação móvel legada

Em cenários que envolvem hardware móvel mais antigo ou arquiteturas NPU específicas que favorecem padrões de convolução simples, o YOLOX-Nano ou o YOLOX-Tiny ainda podem ser preferíveis. O seu design puro, sem âncoras e sem blocos de agregação complexos, pode, por vezes, ser mais fácil de quantizar e implementar em microcontroladores muito restritos ou Android antigos.

Robótica autónoma

Para aplicações robóticas em que maximizar a precisão é fundamental para evitar colisões, a retenção superior de características do YOLOv9e oferece uma margem de segurança que os modelos mais antigos não conseguem igualar. A estrutura PGI garante que pequenos obstáculos não sejam perdidos no processo de extração de características, o que é fundamental para a navegação em ambientes desorganizados.

O futuro: entre no YOLO26

Embora YOLOv9 um desempenho excepcional, o campo da IA nunca fica parado. O recém-lançado YOLO26 baseia-se nesses fundamentos para oferecer o equilíbrio definitivo entre velocidade e precisão.

O YOLO26 apresenta um design nativo de ponta a ponta NMS, eliminando completamente a necessidade de supressão não máxima durante a inferência. Isso resulta em pipelines de implementação significativamente mais simples e velocidades de execução mais rápidas. Além disso, ao remover a perda focal de distribuição (DFL) e utilizar o novo otimizador MuSGD (um híbrido de SGD Muon), o YOLO26 alcança CPU até 43% mais rápida em comparação com as gerações anteriores, tornando-o a escolha ideal para a computação de ponta moderna.

Para os programadores que procuram o melhor da categoria, recomendamos avaliar o YOLO26 para o seu próximo projeto, a fim de aproveitar esses avanços de ponta em visão computacional.

Modelos semelhantes para explorar

  • YOLO11: Um poderoso predecessor do YOLO26, oferecendo excelente versatilidade em várias tarefas de visão.
  • RT-DETR: Um detetor baseado em transformador que também elimina NMS, ideal para cenários em que a alta precisão é priorizada em relação à velocidade de inferência pura.
  • YOLOv10: O primeiro YOLO a introduzir o paradigma de treino NMS, servindo como uma ponte para a arquitetura moderna YOLO26.

Comentários