Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs DAMO-YOLO#

A rápida evolução da visão computacional produziu uma série de arquiteturas poderosas adaptadas para diversas restrições de implementação e requisitos de precisão. Duas entradas notáveis neste espaço são o YOLOv9, celebrado por seu tratamento robusto de gargalos de informação, e o DAMO-YOLO, que foca fortemente em Neural Architecture Search (NAS) e pirâmides de recursos eficientes.

Este guia fornece uma comparação técnica aprofundada do YOLOv9 e DAMO-YOLO, destacando suas diferenças arquiteturais, metodologias de treinamento e cenários ideais de implementação. Também exploraremos como o ecossistema Ultralytics fornece um caminho contínuo do desenvolvimento à produção, e por que modelos modernos como o YOLO26 tornaram-se o padrão recomendado para novos projetos.

Link to this sectionAnálise Arquitetural Aprofundada#

Entender os mecanismos centrais que impulsionam cada modelo revela por que eles apresentam desempenhos diferentes em várias métricas.

Link to this sectionYOLOv9: Informação de Gradiente Programável#

O YOLOv9 foi projetado para abordar diretamente a perda de informação que ocorre à medida que os dados fluem através de redes neurais profundas.

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organização: Institute of Information Science, Academia Sinica, Taiwan
Data: 21 de fevereiro de 2024
Links: Arxiv, GitHub, Docs

Saiba mais sobre o YOLOv9

O YOLOv9 introduz a Programmable Gradient Information (PGI) e a Generalized Efficient Layer Aggregation Network (GELAN). A PGI garante que informações espaciais e semânticas vitais sejam retidas durante o processo feed-forward, evitando a degradação dos gradientes usados para atualizações de pesos. A GELAN complementa isso maximizando a eficiência dos parâmetros, permitindo que o modelo alcance um mean Average Precision (mAP) de ponta com menos FLOPs do que muitas CNNs convencionais.

Link to this sectionDAMO-YOLO: Eficiência Impulsionada por NAS#

Desenvolvido pelo Alibaba Group, o DAMO-YOLO adota uma abordagem diferente, aproveitando a busca arquitetural automatizada para encontrar o equilíbrio ideal entre velocidade e precisão.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização: Alibaba Group
Data: 23 de novembro de 2022
Links: Arxiv, GitHub

Saiba mais sobre o DAMO-YOLO

O DAMO-YOLO baseia-se em um backbone MAE-NAS (Masked Autoencoders for Neural Architecture Search) para gerar automaticamente estruturas de rede eficientes. Ele utiliza uma RepGFPN (Reparameterized Generalized Feature Pyramid Network) para uma fusão robusta de características e um design "ZeroHead" para minimizar a carga computacional do detection head. Além disso, incorpora o AlignedOTA para atribuição de rótulos e destilação de conhecimento para impulsionar o desempenho de suas variantes menores.

O Papel da NAS na Visão Computacional

A Neural Architecture Search (NAS) automatiza o design de redes neurais artificiais. Embora possa produzir modelos altamente eficientes como o DAMO-YOLO, ela frequentemente requer recursos computacionais massivos para pesquisar o espaço da arquitetura, contrastando com a filosofia de design mais determinística de modelos como o YOLOv9.

Link to this sectionComparação de desempenho e métricas#

Ao selecionar um modelo de detecção de objetos, equilibrar precisão, velocidade e pegada computacional é crítico.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionAnálise#

  • Precisão vs. Parâmetros: O YOLOv9 geralmente demonstra uma relação parâmetro-precisão superior. Por exemplo, o YOLOv9c atinge 53,0% de mAP com 25,3M de parâmetros, enquanto o DAMO-YOLOl atinge 50,8% de mAP, mas requer significativamente mais parâmetros (42,1M).
  • Velocidade de Inferência: A arquitetura do DAMO-YOLO fornece velocidades de inferência TensorRT competitivas em GPUs T4, superando levemente o YOLOv9 nos níveis médios. No entanto, a eficiência do YOLOv9 em FLOPs e contagem de parâmetros traduz-se em uma excepcional eficiência de memória de GPU.
  • Requisitos de Memória: Os modelos Ultralytics YOLO, incluindo o YOLOv9, normalmente exibem menor uso de memória durante o treinamento e a inferência em comparação com modelos complexos gerados por NAS ou arquiteturas pesadas de Transformer, tornando-os altamente acessíveis para implantação em hardware de ponta com restrições.

Link to this sectionA Vantagem do Ecossistema Ultralytics#

Embora as métricas teóricas sejam importantes, a implementação prática dita fortemente o sucesso de um projeto. É aqui que a Plataforma Ultralytics e seu ecossistema de software abrangente superam repositórios autônomos como o DAMO-YOLO.

Link to this sectionFacilidade de Uso e Eficiência de Treinamento#

Treinar um modelo YOLOv9 personalizado requer um boilerplate mínimo. A Python API da Ultralytics abstrai processos complexos como aumento de dados, treinamento distribuído e otimização de hardware.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Por outro lado, utilizar o DAMO-YOLO frequentemente requer navegar por arquivos de configuração rígidos e cadeias de dependência complexas específicas para seu pipeline de treinamento exclusivo, resultando em uma curva de aprendizado mais íngreme.

Link to this sectionVersatilidade em Tarefas#

Uma marca registrada dos modelos Ultralytics é sua versatilidade inerente. Além da detecção padrão de caixas delimitadoras, o framework Ultralytics suporta perfeitamente tarefas como Segmentação de Instância, Estimativa de Pose, Classificação de Imagem e detecção de Oriented Bounding Box (OBB). O DAMO-YOLO é estritamente otimizado para detecção de objetos 2D, exigindo reengenharia significativa para se adaptar a outros paradigmas visuais.

Exportando para Dispositivos de Borda (Edge Devices)

A Ultralytics simplifica o pipeline de implementação oferecendo exportação de modelo com um clique para formatos como TensorRT, OpenVINO e CoreML, garantindo o máximo desempenho, independentemente do seu hardware de destino.

Link to this sectionCasos de uso e recomendações#

Escolher entre o YOLOv9 e o DAMO-YOLO depende dos requisitos específicos do seu projeto, restrições de implementação e preferências de ecossistema.

Link to this sectionQuando escolher o YOLOv9#

O YOLOv9 é uma escolha forte para:

  • Pesquisa sobre o Gargalo de Informação: Projetos acadêmicos que estudam as arquiteturas Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).
  • Estudos de Otimização de Fluxo de Gradiente: Pesquisas focadas em entender e mitigar a perda de informação em camadas de rede profundas durante o treino.
  • Benchmarking de Detecção de Alta Precisão: Cenários onde o forte desempenho do YOLOv9 no benchmark COCO é necessário como ponto de referência para comparações arquiteturais.

Link to this sectionQuando Escolher o DAMO-YOLO#

O DAMO-YOLO é recomendado para:

  • Análise de Vídeo de Alto Rendimento: Processamento de fluxos de vídeo de alto FPS em infraestrutura GPU NVIDIA fixa onde o rendimento batch-1 é a métrica principal.
  • Linhas de Produção Industrial: Cenários com restrições rígidas de latência de GPU em hardware dedicado, como inspeção de qualidade em tempo real em linhas de montagem.
  • Investigação em Neural Architecture Search: Estudar os efeitos da pesquisa automatizada de arquitetura (MAE-NAS) e backbones reparametrizados eficientes no desempenho da detecção.

Link to this sectionQuando escolher a Ultralytics (YOLO26)#

Para a maioria dos novos projetos, o Ultralytics YOLO26 oferece a melhor combinação de desempenho e experiência para o desenvolvedor:

  • Implantação de borda sem NMS: Aplicações que requerem inferência consistente e de baixa latência sem a complexidade do pós-processamento de Supressão de Não-Máximos.
  • Ambientes apenas com CPU: Dispositivos sem aceleração de GPU dedicada, onde a inferência em CPU até 43% mais rápida do YOLO26 oferece uma vantagem decisiva.
  • Detecção de objetos pequenos: Cenários desafiadores como imagens de drone aéreo ou análise de sensores IoT onde ProgLoss e STAL aumentam significativamente a precisão em objetos minúsculos.

Link to this sectionO Futuro: Indo para o YOLO26#

Embora o YOLOv9 e o DAMO-YOLO representem marcos históricos fortes, a visão computacional moderna mudou para arquiteturas nativamente de ponta a ponta (end-to-end). Para qualquer novo desenvolvimento, o YOLO26 é o padrão recomendado.

Lançado em 2026, o YOLO26 baseia-se nos sucessos de seus antecessores, oferecendo um salto tanto na precisão quanto na simplicidade de implementação.

Link to this sectionPrincipais inovações do YOLO26#

  • Design End-to-End NMS-Free: O YOLO26 elimina completamente o pós-processamento de Non-Maximum Suppression (NMS). Isso cria um pipeline de implementação simplificado que é nativamente de ponta a ponta, um avanço pioneiro no YOLOv10.
  • Remoção de DFL: Distribution Focal Loss removida para exportação simplificada e melhor compatibilidade com dispositivos de borda/baixo consumo.
  • Inferência de CPU até 43% mais rápida: Ao remover o pós-processamento complexo e otimizar as convoluções centrais, o YOLO26 é adaptado de forma única para cenários de computação de borda que não possuem GPUs dedicadas.
  • Otimizador MuSGD: Inspirado pelas inovações no treinamento de LLM, o YOLO26 utiliza um híbrido de SGD e Muon (MuSGD) para garantir execuções de treinamento mais estáveis e tempos de convergência visivelmente mais rápidos.
  • ProgLoss + STAL: Essas funções de perda avançadas fornecem melhorias notáveis no reconhecimento de pequenos objetos, tornando o YOLO26 ideal para imagens aéreas de alta altitude e dispositivos IoT.

Se você está atualmente pesquisando o YOLO11 ou YOLOv8 para seu próximo projeto, atualizar para o YOLO26 garante que você esteja utilizando o framework de visão AI mais otimizado e de ponta disponível hoje.

Link to this sectionResumo#

Escolher o modelo certo depende das suas restrições operacionais específicas:

  • DAMO-YOLO oferece um vislumbre fascinante da otimização impulsionada por NAS, proporcionando velocidades competitivas para perfis de hardware muito específicos onde sua arquitetura RepGFPN brilha.
  • YOLOv9 é uma excelente escolha para pesquisadores focados em reter detalhes visuais de granulação fina, aproveitando sua arquitetura PGI para evitar a perda de informações em redes profundas.
  • Ultralytics YOLO26 destaca-se como a escolha definitiva para aplicações empresariais e de pesquisa modernas. Sua facilidade de uso inigualável, arquitetura livre de NMS e otimizações de treinamento MuSGD de ponta tornam-no o modelo mais confiável, preciso e facilmente implantável no cenário de visão computacional.
Contribuidores

Comentários