Ir para o conteúdo

DAMO-YOLO vs. YOLO11: Uma Comparação Técnica

No cenário da visão computacional, que evolui rapidamente, escolher o modelo de detecção de objetos certo é fundamental para o sucesso da aplicação. Esta comparação abrangente analisa duas arquiteturas significativas: DAMO-YOLO, desenvolvido pelo Alibaba Group, e Ultralytics YOLO11, o mais recente modelo de última geração da Ultralytics. Embora ambos os modelos visem otimizar o equilíbrio entre velocidade e precisão, eles atendem a diferentes propósitos primários e oferecem vantagens distintas, dependendo do cenário de implementação.

Este guia fornece uma visão aprofundada de suas arquiteturas, métricas de desempenho e casos de uso ideais para ajudar desenvolvedores e pesquisadores a tomar decisões informadas.

DAMO-YOLO

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Documentação:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO é uma estrutura de detecção de objetos que integra diversas tecnologias de ponta para alcançar alto desempenho. Ele se concentra na redução da latência, mantendo a precisão competitiva por meio de uma série de inovações arquitetônicas impulsionadas pela pesquisa da Alibaba.

Saiba mais sobre o DAMO-YOLO.

Arquitetura e Inovação

DAMO-YOLO introduz uma abordagem de "Destilação e Seleção" e incorpora os seguintes componentes-chave:

  • Backbone MAE-NAS: Utilizando a Pesquisa de Arquitetura Neural (NAS), o backbone é otimizado sob restrições específicas para garantir uma extração de características eficiente.
  • Efficient RepGFPN: Uma Rede Piramidal de Características Generalizada (GFPN) utiliza fortemente mecanismos de reparametrização para melhorar a fusão de características em diferentes escalas sem incorrer em custos computacionais pesados durante a inferência.
  • ZeroHead: Este cabeçalho de detecção leve desacopla as tarefas de classificação e regressão, visando maximizar a velocidade de inferência.
  • AlignedOTA: Uma estratégia de atribuição de rótulos que resolve o desalinhamento entre os alvos de classificação e regressão, melhorando a convergência durante o treinamento.

Embora o DAMO-YOLO apresente avanços teóricos impressionantes, é principalmente uma estrutura orientada à pesquisa focada em detecção de objetos. Normalmente, carece do suporte nativo multi-tarefa encontrado em ecossistemas mais abrangentes.

Ultralytics YOLO11

Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Documentação:https://docs.ultralytics.com/models/yolo11/

O Ultralytics YOLO11 representa o auge da visão computacional em tempo real, refinando o legado da série YOLO com melhorias significativas em arquitetura, eficiência e facilidade de uso. Ele foi projetado não apenas como um modelo, mas como uma ferramenta versátil para implantação prática no mundo real em diversos ambientes de hardware.

Saiba mais sobre o YOLO11.

Arquitetura e Ecossistema

O YOLO11 se baseia em sucessos anteriores com uma arquitetura refinada sem âncoras. Ele apresenta um backbone aprimorado para extração de recursos superior e um design de neck modificado que aprimora o fluxo de informações em várias escalas.

As principais vantagens da framework Ultralytics YOLO11 incluem:

  • Versatilidade: Ao contrário de muitos concorrentes, o YOLO11 suporta nativamente uma ampla gama de tarefas, incluindo object detection, instance segmentation, pose estimation, image classification e oriented bounding boxes (OBB).
  • Facilidade de Uso: O modelo está envolto em uma API Python e CLI amigáveis, tornando-o acessível tanto para iniciantes quanto para especialistas.
  • Eficiência do Treinamento: Otimizado para uma convergência mais rápida, o YOLO11 utiliza aumento de dados eficiente e funções de perda, permitindo que os usuários treinem modelos personalizados em datasets como o COCO com menor sobrecarga de recursos.
  • Ecossistema Bem Mantido: Apoiado pela equipe Ultralytics, os usuários se beneficiam de atualizações frequentes, documentação extensa e integração perfeita com ferramentas MLOps como o Ultralytics HUB.

Você sabia?

O YOLO11 foi projetado para ser altamente eficiente em dispositivos Edge AI. Sua arquitetura otimizada garante baixo uso de memória e altas velocidades de inferência em hardware como o NVIDIA Jetson e Raspberry Pi, tornando-o uma escolha superior para aplicações embarcadas em comparação com modelos baseados em transformadores mais pesados.

Comparação de Desempenho

O gráfico e a tabela a seguir ilustram as diferenças de desempenho entre DAMO-YOLO e YOLO11. O Ultralytics YOLO11 demonstra consistentemente precisão superior (mAP) e velocidades de inferência favoráveis, particularmente no hardware da CPU, onde o DAMO-YOLO carece de benchmarks oficiais.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Análise de Resultados

  • Precisão: O YOLO11 supera significativamente os modelos DAMO-YOLO comparáveis. Por exemplo, o YOLO11m alcança um 51,5 mAP, notavelmente superior ao DAMO-YOLOm com 49,2 mAP, apesar de ter menos parâmetros (20,1M vs 28,2M).
  • Velocidade de Inferência: Na GPU (T4 TensorRT), o YOLO11 oferece uma latência altamente competitiva. O YOLO11n é incrivelmente rápido, com 1,5 ms, tornando-o adequado para aplicações de latência ultrabaixa.
  • Desempenho da CPU: Uma grande vantagem dos modelos Ultralytics é a sua transparência em relação ao desempenho da CPU. YOLO11 é otimizado para inferência de CPU via ONNX e OpenVINO, enquanto o DAMO-YOLO se concentra fortemente na GPU, muitas vezes deixando o desempenho da implantação da CPU indefinido.
  • Eficiência do Modelo: O YOLO11 demonstra um melhor equilíbrio de parâmetros para desempenho. A eficiência arquitetural permite arquivos de modelo menores, o que se traduz em downloads mais rápidos e menores requisitos de armazenamento em dispositivos de borda.

Principais Diferenciadores e Casos de Uso

Forças do Ultralytics YOLO11

Os desenvolvedores que utilizam o Ultralytics YOLO11 têm acesso a um ambiente robusto de nível de produção.

  • Equilíbrio de Desempenho: A arquitetura do modelo é meticulosamente ajustada para oferecer a melhor relação entre velocidade de inferência e precisão, crucial para análise de vídeo em tempo real.
  • Capacidades Multi-Tarefa: Se o escopo do seu projeto se expandir da detecção para o track ou segmentação, o YOLO11 lida com isso perfeitamente dentro da mesma base de código.
  • Facilidade de Uso: O ultralytics pacote simplifica todo o pipeline. Carregar um modelo, executar previsões e exportar para formatos como CoreML, TFLite ou TensorRT pode ser feito com apenas algumas linhas de código.
  • Menores Requisitos de Memória: Comparado com detectores baseados em transformer ou arquiteturas não otimizadas, o YOLO11 normalmente requer menos memória CUDA durante o treinamento, permitindo que pesquisadores treinem em GPUs de nível de consumidor.
from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Forças do DAMO-YOLO

DAMO-YOLO é um forte concorrente nos círculos de pesquisa acadêmica.

  • Inovação em Pesquisa: Recursos como MAE-NAS e ZeroHead oferecem insights interessantes sobre a pesquisa de arquitetura neural e o desacoplamento de cabeçalhos.
  • Throughput da GPU: Para aplicações industriais específicas executadas exclusivamente em GPUs suportadas, o DAMO-YOLO fornece um alto throughput, embora muitas vezes fique atrás do YOLO11 em eficiência de precisão por parâmetro puro.

Conclusão

Embora o DAMO-YOLO introduza conceitos novos da equipe de pesquisa da Alibaba, o Ultralytics YOLO11 se destaca como a escolha superior para a vasta maioria dos desenvolvedores e empresas. Seu domínio é definido não apenas por pontuações de mAP mais altas e inferência mais rápida, mas pelo ecossistema abrangente que o suporta.

Desde a facilidade de uso e versatilidade até uma base de código bem mantida e suporte ativo da comunidade, o YOLO11 diminui a barreira de entrada para a criação de soluções avançadas de IA. Seja implantando em servidores de nuvem ou dispositivos de borda com recursos limitados, o YOLO11 fornece a confiabilidade e o desempenho necessários para aplicações modernas de visão computacional.

Explore Outras Comparações de Modelos

Para entender melhor como os modelos Ultralytics se comparam a outras arquiteturas, explore nossas páginas de comparação detalhadas:


Comentários