Ir para o conteúdo

DAMO-YOLO vs. YOLO11: Uma Comparação Técnica

No panorama em rápida evolução da visão computacional, a escolha do modelo de deteção de objectos correto é fundamental para o sucesso da aplicação. Esta comparação abrangente analisa duas arquitecturas importantes: YOLO, desenvolvida pelo Alibaba Group, e Ultralytics YOLO11o mais recente modelo topo de gama da Ultralytics. Embora ambos os modelos visem otimizar o compromisso entre velocidade e precisão, servem objectivos primários diferentes e oferecem vantagens distintas, dependendo do cenário de implementação.

Este guia fornece uma análise aprofundada das suas arquitecturas, métricas de desempenho e casos de utilização ideais para ajudar os programadores e investigadores a tomar decisões informadas.

DAMO-YOLO

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO

A YOLO é uma estrutura de deteção de objectos que integra várias tecnologias de ponta para obter um elevado desempenho. Centra-se na redução da latência, mantendo a precisão competitiva através de uma série de inovações arquitectónicas impulsionadas pela investigação da Alibaba.

Saiba mais sobre o DAMO-YOLO.

Arquitetura e inovação

A YOLO introduz uma abordagem "Distill-and-Select" e incorpora os seguintes componentes-chave:

  • Backbone MAE-NAS: Utilizando a Pesquisa de Arquitetura Neural (NAS), o backbone é otimizado sob restrições específicas para garantir a extração eficiente de recursos.
  • RepGFPN eficiente: Uma rede de pirâmide de caraterísticas generalizada (GFPN) utiliza fortemente mecanismos de re-parametrização para melhorar a fusão de caraterísticas em diferentes escalas sem incorrer em custos computacionais pesados durante a inferência.
  • ZeroHead: Esta cabeça de deteção leve separa as tarefas de classificação e regressão, com o objetivo de maximizar a velocidade de inferência.
  • AlignedOTA: Uma estratégia de atribuição de etiquetas que resolve o desalinhamento entre os objectivos de classificação e regressão, melhorando a convergência durante o treino.

Embora a YOLO apresente avanços teóricos impressionantes, é sobretudo uma estrutura orientada para a investigação centrada na deteção de objectos. Normalmente, não tem o suporte multitarefa nativo encontrado em ecossistemas mais abrangentes.

Ultralytics YOLO11

Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11

Ultralytics YOLO11 representa o auge da visão computacional em tempo real, refinando o legado da série YOLO com melhorias significativas na arquitetura, eficiência e facilidade de utilização. Foi concebido não apenas como um modelo, mas como uma ferramenta versátil para uma implementação prática e real em diversos ambientes de hardware.

Saiba mais sobre o YOLO11.

Arquitetura e ecossistema

YOLO11 baseia-se em sucessos anteriores com uma arquitetura refinada sem âncoras. Apresenta uma espinha dorsal melhorada para uma extração de caraterísticas superior e um design de pescoço modificado que melhora o fluxo de informação a várias escalas.

As principais vantagens da estrutura Ultralytics YOLO11 incluem:

  • Versatilidade: Ao contrário de muitos concorrentes, YOLO11 suporta nativamente uma vasta gama de tarefas, incluindo deteção de objectos, segmentação de instâncias, estimativa de pose, classificação de imagens e caixas delimitadoras orientadas (OBB).
  • Facilidade de utilização: O modelo está integrado numa APIPython de fácil utilização e numa CLItornando-o acessível tanto para iniciantes como para especialistas.
  • Eficiência de treinamento: Optimizado para uma convergência mais rápida, YOLO11 utiliza funções eficientes de aumento e perda de dados, permitindo aos utilizadores treinar modelos personalizados em conjuntos de dados como COCO com menor sobrecarga de recursos.
  • Ecossistema bem conservado: Apoiado pelo Ultralytics os utilizadores beneficiam de actualizações frequentes, documentação extensa e integração perfeita com ferramentas MLOps como o Ultralytics HUB.

Sabia que?

YOLO11 foi concebido para ser altamente eficiente em dispositivos Edge AI. A sua arquitetura optimizada garante uma baixa utilização de memória e altas velocidades de inferência em hardware como o NVIDIA Jetson e o Raspberry Pi, tornando-o uma escolha superior para aplicações incorporadas em comparação com modelos mais pesados baseados em transformadores.

Comparação de Desempenho

O gráfico e a tabela seguintes ilustram as diferenças de desempenho entre o YOLO e YOLO11. Ultralytics YOLO11 demonstra consistentemente uma exatidão superiormAP) e velocidades de inferência favoráveis, particularmente em hardware CPU onde o YOLO não tem referências oficiais.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Análise dos resultados

  • Precisão: YOLO11 supera significativamente os modelos YOLO comparáveis. Por exemplo, o YOLO11m atinge um valor de 51,5 mAP, visivelmente superior ao DAMO-YOLOm com 49,2 mAP, apesar de ter menos parâmetros (20,1M vs 28,2M).
  • Velocidade de inferência: Na GPU (T4 TensorRT), YOLO11 oferece uma latência altamente competitiva. O YOLO11n é incrivelmente rápido, com 1,5 ms, tornando-o adequado para aplicações de latência ultrabaixa.
  • DesempenhoCPU : Uma das principais vantagens dos modelos Ultralytics é a sua transparência relativamente ao desempenho CPU . YOLO11 está optimizado para inferência CPU através de ONNX e OpenVINO, enquanto o YOLO se concentra fortemente na GPU, muitas vezes deixando o desempenho da implantação CPU indefinido.
  • Eficiência do modelo: YOLO11 demonstra um melhor equilíbrio entre parâmetros e desempenho. A eficiência arquitetónica permite ficheiros de modelo mais pequenos, o que se traduz em descarregamentos mais rápidos e menores requisitos de armazenamento em dispositivos de ponta.

Principais Diferenciadores e Casos de Uso

Pontos fortes do Ultralytics YOLO11

Desenvolvedores que utilizam Ultralytics YOLO11 obtêm acesso a um ambiente robusto de nível de produção.

  • Equilíbrio de desempenho: A arquitetura do modelo é meticulosamente ajustada para oferecer o melhor compromisso entre a velocidade de inferência e a precisão, crucial para a análise de vídeo em tempo real.
  • Capacidades Multi-Tarefa: Se o âmbito do seu projeto se expandir da deteção para o rastreio ou segmentação, YOLO11 lida com isso sem problemas dentro da mesma base de código.
  • Facilidade de Uso: O ultralytics simplifica todo o pipeline. Carregar um modelo, executar previsões e exportar para formatos como CoreML, TFLite ou TensorRT pode ser feito com apenas algumas linhas de código.
  • Menores requisitos de memória: Em comparação com os detectores baseados em transformadores ou arquitecturas não optimizadas, YOLO11 requer normalmente menos memória CUDA durante o treino, permitindo aos investigadores treinar em GPUs de consumo.
from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Pontos fortes da YOLO

YOLO é um forte concorrente nos círculos de investigação académica.

  • Inovação na investigação: Funcionalidades como o MAE-NAS e o ZeroHead oferecem perspectivas interessantes sobre a pesquisa de arquitetura neural e a dissociação de cabeças.
  • Taxa de transferênciaGPU : Para aplicações industriais específicas executadas exclusivamente em GPUs suportadas, o YOLO proporciona um elevado rendimento, embora muitas vezes fique atrás do YOLO11 em termos de eficiência de precisão pura por parâmetro.

Conclusão

Enquanto a YOLO apresenta novos conceitos da equipa de investigação da Alibaba, Ultralytics YOLO11 destaca-se como a escolha superior para a grande maioria dos programadores e empresas. O seu domínio é definido não só pelo maior mAP e inferência mais rápida, mas pelo ecossistema abrangente que o suporta.

Desde a facilidade de utilização e versatilidade até uma base de código bem mantida e apoio ativo da comunidade, YOLO11 reduz a barreira à entrada para a criação de soluções avançadas de IA. Quer seja implementado em servidores na nuvem ou em dispositivos de ponta com recursos limitados, YOLO11 fornece a fiabilidade e o desempenho necessários para aplicações modernas de visão por computador.

Explore Outras Comparações de Modelos

Para compreender melhor a comparação dos modelos Ultralytics com outras arquitecturas, explore as nossas páginas de comparação detalhadas:


Comentários