Ir para o conteúdo

DAMO-YOLO vs. YOLOv9: Uma Comparação Técnica

Escolher o modelo de detecção de objetos certo é uma decisão crítica que equilibra a necessidade de precisão, velocidade e eficiência computacional. Esta página oferece uma comparação técnica detalhada entre dois modelos poderosos: DAMO-YOLO do Alibaba Group e YOLOv9. Exploraremos suas inovações arquitetônicas, métricas de desempenho e casos de uso ideais para ajudá-lo a selecionar o melhor modelo para seus projetos de visão computacional. Embora ambos os modelos introduzam avanços significativos, YOLOv9, particularmente dentro do ecossistema Ultralytics, oferece uma combinação atraente de desempenho de última geração e recursos amigáveis para desenvolvedores.

DAMO-YOLO: Um Método Rápido e Preciso da Alibaba

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização: Alibaba Group
Data: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO é um modelo de detecção de objetos desenvolvido pela Alibaba que se concentra em alcançar um equilíbrio superior entre velocidade e precisão. Ele introduz várias técnicas inovadoras para melhorar o desempenho em uma ampla gama de hardware, desde dispositivos de borda até GPUs de nuvem. A arquitetura é o resultado de uma metodologia "única para todos", onde uma super-rede é treinada e, em seguida, sub-redes especializadas são derivadas usando a Pesquisa de Arquitetura Neural (NAS) para se adequar a diferentes restrições computacionais.

Arquitetura e Principais Características

A arquitetura do DAMO-YOLO incorpora várias inovações importantes:

  • Backbones Gerados por NAS: Em vez de um backbone projetado manualmente, o DAMO-YOLO usa backbones descobertos através de NAS, que são otimizados para a eficiência da extração de características.
  • Neck RepGFPN Eficiente: Emprega um novo neck de rede de pirâmide de características, RepGFPN, projetado para uma fusão de características eficiente e compatível com técnicas de reparametrização para aumentar a velocidade durante a inferência.
  • ZeroHead: Um head de detecção simplificado e leve que reduz a sobrecarga computacional, mantendo o alto desempenho.
  • Atribuição de Rótulos AlignedOTA: Uma estratégia de atribuição de rótulos aprimorada que aborda problemas de desalinhamento entre as tarefas de classificação e regressão, levando a predições mais precisas.
  • Aprimoramento por Destilação: A destilação de conhecimento é usada para transferir conhecimento de um modelo professor maior para um modelo aluno menor, melhorando ainda mais a precisão dos modelos compactos.

Pontos Fortes

  • Alta Velocidade na GPU: DAMO-YOLO é altamente otimizado para inferência rápida em GPUs, tornando-o adequado para processamento de vídeo em tempo real e outras aplicações sensíveis à latência.
  • Modelos Escaláveis: Ele oferece uma família de modelos (Tiny, Small, Medium, Large) que fornecem uma clara relação entre velocidade e precisão, permitindo que os desenvolvedores escolham a melhor opção para seu hardware.
  • Técnicas Inovadoras: O uso de NAS, um neck eficiente e um atribuidor de rótulos avançado demonstra uma abordagem moderna para o design de detectores.

Fraquezas

  • Especificidade da Tarefa: O DAMO-YOLO foi projetado principalmente para detecção de objetos e não possui a versatilidade integrada para outras tarefas, como segmentação de instâncias ou estimativa de pose, encontradas em estruturas abrangentes como o Ultralytics.
  • Ecossistema e Usabilidade: Embora poderoso, seu ecossistema é menos maduro do que o da Ultralytics. Os usuários podem achar que requer mais esforço para treinamento, implementação e integração em pipelines de produção.
  • Suporte da Comunidade: A comunidade e os recursos disponíveis podem ser menores em comparação com modelos mais amplamente adotados, como os da série YOLO.

Saiba mais sobre o DAMO-YOLO.

YOLOv9: Avançando na Precisão e Eficiência

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentação: https://docs.ultralytics.com/models/yolov9/

YOLOv9 representa um avanço significativo na deteção de objetos em tempo real, introduzindo conceitos inovadores para abordar a perda de informação em redes neurais profundas. As suas principais inovações, Programmable Gradient Information (PGI) e a Generalized Efficient Layer Aggregation Network (GELAN), permitem-lhe alcançar uma precisão superior e eficiência de parâmetros. Quando integrado na estrutura Ultralytics, o YOLOv9 combina este desempenho de última geração com uma experiência de utilizador incomparável.

Arquitetura e Principais Características

A força do YOLOv9 reside em seus novos componentes arquitetônicos:

  • Informação de Gradiente Programável (PGI): Este mecanismo ajuda a mitigar o problema do gargalo de informação, gerando gradientes confiáveis por meio de uma ramificação reversível auxiliar, garantindo que as camadas mais profundas recebam informações de entrada completas para atualizações precisas.
  • Rede de Agregação de Camadas Eficiente Generalizada (GELAN): Uma arquitetura de rede avançada que se baseia nos princípios do CSPNet e ELAN. O GELAN foi projetado para utilização ideal de parâmetros e eficiência computacional, tornando-o poderoso e rápido.

Pontos Fortes

  • Precisão de Última Geração: O YOLOv9 define um novo padrão de precisão no conjunto de dados COCO, superando muitos modelos anteriores com custos computacionais semelhantes ou inferiores.
  • Eficiência Superior: Conforme mostrado na tabela de desempenho, os modelos YOLOv9 geralmente alcançam maior precisão com menos parâmetros e FLOPs em comparação com os concorrentes, tornando-os ideais para implantação em uma variedade de hardware, desde dispositivos de borda até servidores poderosos.
  • Ecosistema Bem Mantido: Integrado ao ecossistema Ultralytics, o YOLOv9 beneficia-se da facilidade de uso através de uma API Python e CLI otimizadas, extensa documentação e apoio ativo da comunidade.
  • Eficiência no Treinamento: A implementação da Ultralytics garante processos de treinamento eficientes com pesos pré-treinados prontamente disponíveis, menores requisitos de memória e integração perfeita com ferramentas como o Ultralytics HUB para treinamento sem código e MLOps.
  • Versatilidade: Embora o artigo original se concentre na detecção, a arquitetura GELAN é altamente adaptável. O ecossistema Ultralytics estende suas capacidades para outras tarefas de visão, alinhando-se com o suporte multi-tarefa encontrado em modelos como o YOLOv8.

Fraquezas

  • Modelo Mais Recente: Como uma arquitetura mais recente, o número de tutoriais contribuídos pela comunidade e integrações de terceiros ainda está crescendo, embora sua inclusão na biblioteca Ultralytics tenha acelerado significativamente sua adoção.
  • Requisitos de Recursos: As maiores variantes do YOLOv9, como o YOLOv9-E, exigem recursos computacionais substanciais para treinamento, embora forneçam precisão de alto nível para seu tamanho.

Saiba mais sobre o YOLOv9.

Análise de Desempenho: Precisão e Velocidade

Ao comparar DAMO-YOLO e YOLOv9, fica claro que ambas as famílias de modelos ultrapassam os limites da detecção de objetos em tempo real. No entanto, uma análise mais detalhada das métricas revela a eficiência superior do YOLOv9.

Modelo tamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT
(ms)
parâmetros
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Pela tabela, podemos tirar várias conclusões:

  • Precisão: Os modelos YOLOv9 alcançam consistentemente pontuações de mAP mais altas. Por exemplo, o YOLOv9m supera o DAMO-YOLOl com um mAP de 51,4 contra 50,8 mAP. O maior modelo, YOLOv9-E, atinge um impressionante 55,6 mAP, estabelecendo um novo benchmark.
  • Eficiência: O YOLOv9 demonstra notável parâmetro e eficiência computacional. O YOLOv9m oferece melhor precisão do que o DAMO-YOLOl, usando menos da metade dos parâmetros (20,0M vs. 42,1M) e menos FLOPs (76,3B vs. 97,3B). Isso torna o YOLOv9 uma escolha mais eficiente para alcançar alto desempenho.
  • Velocidade de Inferência: Em uma GPU T4, as velocidades de inferência são competitivas. Por exemplo, DAMO-YOLOs (3,45 ms) e YOLOv9s (3,54 ms) são muito próximos em velocidade, mas o YOLOv9s atinge um mAP mais alto (46,8 vs. 46,0).

Conclusão: Qual Modelo Você Deve Escolher?

Tanto o DAMO-YOLO quanto o YOLOv9 são excelentes detectores de objetos com pontos fortes exclusivos. O DAMO-YOLO oferece uma solução rápida e escalável com técnicas inovadoras como NAS e um neck RepGFPN eficiente, tornando-o uma escolha sólida para aplicações que exigem inferência de GPU de alta velocidade.

No entanto, para a maioria dos desenvolvedores e pesquisadores, YOLOv9 é a escolha recomendada, especialmente quando usado dentro do ecossistema Ultralytics. Ele não apenas oferece precisão de última geração e eficiência superior, mas também oferece vantagens significativas em usabilidade e suporte. A estrutura Ultralytics abstrai a complexidade, oferecendo um fluxo de trabalho simplificado desde o treinamento até a implementação. A combinação de PGI e GELAN no YOLOv9 fornece uma arquitetura mais avançada e eficiente, enquanto o robusto ecossistema Ultralytics garante que você tenha as ferramentas, a documentação e o suporte da comunidade necessários para ter sucesso.

Explore Outros Modelos

Se você estiver interessado em como o DAMO-YOLO e o YOLOv9 se comparam a outros modelos líderes, confira estas outras comparações na documentação Ultralytics:



📅 Criado há 1 ano ✏️ Atualizado há 1 mês

Comentários