Ir para o conteúdo

YOLOv10 . YOLOv9: Avanços na deteção de objetos em tempo real

O ano de 2024 marcou um período de rápida inovação no panorama da deteção de objetos, com o lançamento de duas arquiteturas significativas: YOLOv10 e YOLOv9. Embora ambos os modelos tenham como objetivo ultrapassar os limites de velocidade e precisão, eles alcançam isso por meio de filosofias arquitetónicas fundamentalmente diferentes.

YOLOv10 em eliminar a latência de inferência causada pelo pós-processamento através de um design NMS, enquanto YOLOv9 a retenção de informações em redes profundas usando Informação de Gradiente Programável (PGI).

Comparação de Desempenho

A tabela a seguir fornece uma visão detalhada de como esses modelos se comparam em benchmarks padrão. Os dados destacam as compensações entre eficiência de parâmetros, velocidade de inferência e precisão de detecção (mAP).

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv10: O Pioneiro Ponta a Ponta

YOLOv10, desenvolvido por investigadores da Universidade de Tsinghua, representa uma mudança em direção ao processamento de ponta a ponta. Lançado em 23 de maio de 2024 por Ao Wang, Hui Chen e colegas, ele aborda o gargalo da supressão não máxima (NMS).

Saiba mais sobre o YOLOv10

Principais Características Arquitetônicas

  • TreinamentoNMS: Ao empregar atribuições duplas consistentes, YOLOv10 a necessidade de NMS a inferência. Isso reduz a latência e simplifica os pipelines de implementação, especialmente para aplicações de computação de ponta.
  • Design de eficiência holística: a arquitetura otimiza vários componentes para reduzir a sobrecarga computacional (FLOPs) enquanto mantém alta capacidade.
  • Latência melhorada: conforme mostrado na tabela, YOLOv10 geralmente oferecem tempos de inferência mais baixos em comparação com os seus YOLOv9 para níveis de precisão semelhantes.

Para detalhes técnicos, pode consultar o artigoYOLOv10 .

YOLOv9: Dominando o fluxo de informações

YOLOv9, lançado em 21 de fevereiro de 2024 por Chien-Yao Wang e Hong-Yuan Mark Liao, da Academia Sinica, concentra-se na questão teórica da perda de informação em redes neurais profundas.

Saiba mais sobre o YOLOv9

Principais Características Arquitetônicas

  • Arquitetura GELAN: A Rede Generalizada de Agregação de Camadas Eficientes combina os pontos fortes da CSPNet e da ELAN para maximizar a utilização dos parâmetros.
  • Informação de gradiente programável (PGI): Este mecanismo de supervisão auxiliar garante que as camadas profundas retenham informações críticas para uma deteção precisa, tornando o modelo altamente eficaz para tarefas que exigem alta precisão.
  • Alta precisão: O modelo YOLOv9e atinge um impressionantemAPval de 55,6%, superando muitos concorrentes contemporâneos em precisão de detecção pura.

Para uma análise mais aprofundada, leia o artigoYOLOv9 .

Treino e Facilidade de Uso

Ambos os modelos estão totalmente integrados ao Ultralytics , proporcionando uma experiência unificada e perfeita para os programadores. Quer esteja a utilizar YOLOv10 YOLOv9, a Python Ultralytics abstrai a complexidade dos pipelines de treino, aumento de dados e registo.

Exemplo de Código

Treinar um modelo em um conjunto de dados personalizado ou em um benchmark padrão como COCO8 muito simples. A estrutura lida automaticamente com as diferenças na arquitetura.

from ultralytics import YOLO

# Load a model (Choose YOLOv10 or YOLOv9)
model = YOLO("yolov10n.pt")  # or "yolov9c.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Eficiência de Memória

YOLO Ultralytics são projetados para otimizar o uso GPU . Em comparação com arquiteturas baseadas em transformadores ou modelos de detecção mais antigos, eles permitem tamanhos de lote maiores em hardware de nível consumidor, tornando a IA de última geração acessível a um público mais amplo.

Casos de Uso Ideais

A escolha entre YOLOv10 YOLOv9 depende YOLOv9 das restrições específicas do seu ambiente de implementação.

Quando Escolher YOLOv10

  • Restrições de baixa latência: se a sua aplicação é executada em dispositivos móveis ou sistemas incorporados, onde cada milésimo de segundo conta, o design NMS do YOLOv10 uma vantagem significativa.
  • Implementação simples: a remoção das etapas de pós-processamento simplifica a exportação para formatos como ONNX ou TensorRT, reduzindo o risco de incompatibilidade do operador.
  • Vídeo em tempo real: Ideal para gestão de tráfego ou linhas de produção de alta velocidade, onde o rendimento é fundamental.

Quando Escolher YOLOv9

  • Precisão máxima: para aplicações de pesquisa ou cenários em que a precisão é fundamental (por exemplo, análise de imagens médicas), a arquitetura aprimorada com PGI do YOLOv9e oferece resultados superiores.
  • Detecção de pequenos objetos: A rica preservação de recursos do GELAN torna YOLOv9 robusto para detectar objetos pequenos ou ocultos em imagens aéreas.
  • Cenas complexas: em ambientes com grande confusão visual, as informações de gradiente programáveis ajudam o modelo a distinguir características relevantes de forma mais eficaz.

O futuro está aqui: YOLO26

Embora YOLOv9 YOLOv10 ferramentas poderosas, o campo da visão computacional evolui rapidamente. Ultralytics lançou Ultralytics o YOLO26, um modelo que sintetiza as melhores características das gerações anteriores e introduz otimizações inovadoras.

Saiba mais sobre YOLO26

O YOLO26 é a escolha recomendada para novos projetos, oferecendo um equilíbrio superior entre velocidade, precisão e versatilidade.

Por que Atualizar para o YOLO26?

  • NMS de ponta a ponta: Assim como YOLOv10, o YOLO26 é nativamente de ponta a ponta. Ele elimina NMS , garantindo uma inferência mais rápida e pipelines de implementação simplificados.
  • Otimizador MuSGD: Inspirado nas inovações no treinamento de Modelos de Linguagem Grande (LLM) (especificamente o Kimi K2 da Moonshot AI), o YOLO26 utiliza um híbrido de SGD o otimizador Muon. Isso resulta em um treinamento significativamente mais estável e uma convergência mais rápida.
  • Remoção de DFL: Ao remover a perda focal de distribuição, o YOLO26 simplifica a arquitetura do modelo, tornando-o mais fácil de exportar e compatível com uma gama mais ampla de dispositivos de ponta/baixo consumo de energia.
  • Aumento de desempenho: otimizações específicas para CPU proporcionam velocidades até 43% mais rápidas do que as gerações anteriores, tornando-o uma potência para IA de ponta.
  • Versatilidade de tarefas: Ao contrário das versões v9 e v10, focadas na detecção, o YOLO26 inclui melhorias especializadas para todas as tarefas:
    • Segmentação: Nova perda de segmentação semântica e proto multiescala.
    • Pose: Estimativa da Log-Verossimilhança Residual (RLE) para pontos-chave de alta precisão.
    • OBB: Perda de ângulo especializada para lidar com questões de limites em tarefas de Oriented Bounding Box.

Fluxo de trabalho simplificado com Ultralytics

Os programadores podem aproveitar a Ultralytics (anteriormente HUB) para gerir todo o ciclo de vida dos seus modelos YOLO26. Desde a anotação de conjuntos de dados até ao treino na nuvem e à implementação em dispositivos de ponta, a Plataforma oferece uma interface unificada que acelera o tempo de comercialização.

Conclusão

Ambos YOLOv10 e YOLOv9 representam marcos significativos na história da detecção de objetos. YOLOv10 que arquiteturas NMS poderiam atingir um desempenho de ponta, enquanto YOLOv9 a importância do fluxo de informações de gradiente em redes profundas.

No entanto, para os programadores que procuram a solução mais robusta, versátil e preparada para o futuro, o YOLO26 destaca-se como a melhor escolha. Ao combinar um design NMS com o revolucionário otimizador MuSGD e um amplo suporte a tarefas, o YOLO26 oferece o melhor equilíbrio de desempenho para aplicações modernas de visão computacional.

  • YOLO11 - O robusto antecessor do YOLO26, conhecido pela sua estabilidade.
  • YOLOv8 - Um clássico versátil amplamente utilizado na indústria.
  • RT-DETR - Um detetor em tempo real baseado em transformador.

Comentários