Ir para o conteúdo

YOLO11 vs. DAMO-YOLO: Uma Comparação Técnica

No panorama em rápida evolução da visão por computador, a escolha do modelo de deteção de objectos correto é fundamental para o sucesso do projeto. Esta página apresenta uma comparação técnica pormenorizada entre Ultralytics YOLO11 e o YOLO, duas arquitecturas de elevado desempenho concebidas para velocidade e precisão. Enquanto o YOLO introduz técnicas inovadoras da investigação académica, YOLO11 destaca-se como uma solução versátil e pronta para produção, apoiada por um ecossistema robusto.

Resumo executivo

Ultralytics YOLO11 representa a mais recente evolução da série YOLO , otimizando a inferência em tempo real em diversos hardwares, desde dispositivos de borda até servidores em nuvem. Ele suporta nativamente várias tarefas - incluindo deteção, segmentação e estimativa de pose - tornando-o uma solução unificada para pipelines de IA complexos.

O YOLO, desenvolvido pelo Alibaba Group, centra-se no equilíbrio entre a velocidade e a precisão da deteção utilizando a Pesquisa de Arquitetura Neural (NAS) e novas técnicas de fusão de caraterísticas. É principalmente um detetor orientado para a investigação, optimizado para o rendimento GPU .

Ultralytics YOLO11

Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11

YOLO11 aperfeiçoa o estado da arte através da introdução de melhorias arquitectónicas que melhoram a extração de caraterísticas, mantendo uma elevada eficiência. Utiliza uma espinha dorsal CSPNet modificada e uma cabeça avançada sem âncoras para proporcionar uma precisão superior com menos parâmetros em comparação com as gerações anteriores.

Principais Características e Pontos Fortes

  • Versatilidade: Ao contrário de muitos modelos especializados, YOLO11 é uma estrutura multitarefa. Suporta deteção de objectos, segmentação de instâncias, classificação de imagens, estimativa de pose e caixas delimitadoras orientadas (OBB).
  • Arquitetura refinada: Incorpora blocos C3k2 e módulos C2PSA (Cross-Stage Partial with Spatial Attention) para captar padrões complexos de forma eficaz, melhorando o desempenho em objectos pequenos e fundos difíceis.
  • Amplo suporte de hardware: Optimizado para CPU e GPU , oferecendo escalas de modelos variadas (Nano a X-Large) para atender a restrições que vão desde Raspberry Pi até clusters NVIDIA A100.
  • Facilidade de uso: A APIPython e CLI Ultralytics permitem que os desenvolvedores treinem, validem e implantem modelos com o mínimo de código.

Ecossistema pronto para a produção

YOLO11 integra-se perfeitamente no ecossistemaUltralytics , incluindo ferramentas para gestão de dados, formação de modelos através do Ultralytics HUB e exportações com um clique para formatos como ONNX, TensorRTe CoreML.

Saiba mais sobre o YOLO11.

DAMO-YOLO

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO

O YOLO foi concebido com o objetivo de reduzir a latência e aumentar o rendimento das aplicações industriais. Introduz vários componentes de "nova tecnologia" na família YOLO para ultrapassar os limites da relação velocidade-precisão.

Inovações arquitectónicas

  • Backbone MAE-NAS: Utiliza a Pesquisa de Arquitetura Neural (NAS) guiada pelo Erro Absoluto Médio (MAE) para descobrir automaticamente uma topologia de rede eficiente.
  • RepGFPN Eficiente: Uma rede de pirâmide de caraterísticas generalizada (GFPN) que emprega re-parametrização, permitindo a fusão de caraterísticas complexas durante o treinamento, enquanto colapsa em uma estrutura mais rápida e simples durante a inferência.
  • ZeroHead: Uma cabeça de deteção leve que dissocia as tarefas de classificação e regressão, reduzindo significativamente a sobrecarga computacional das camadas de saída finais.
  • AlignedOTA: Uma estratégia de atribuição de etiquetas melhorada que resolve o desalinhamento entre a confiança da classificação e a precisão da regressão durante o treino.

Embora o YOLO se destaque em métricas específicas, é sobretudo um repositório de investigação. Falta-lhe a extensa documentação, as actualizações contínuas e o amplo apoio da comunidade que se encontra no ecossistema Ultralytics .

Saiba mais sobre o DAMO-YOLO.

Métricas de desempenho: Frente a frente

A tabela seguinte compara o desempenho do YOLO11 e do YOLO no conjunto de dadosCOCO val2017. As principais métricas incluem precisão médiamAP) e velocidade de inferência em hardware CPU e GPU .

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Análise dos resultados

  1. Domínio da eficiência: YOLO11 demonstra uma eficiência de parâmetros superior. Por exemplo, o modelo YOLO11m alcança 51,5 mAP com apenas 20,1 milhões de parâmetros, enquanto o modelo comparável DAMO-YOLOm fica atrás com 49,2 mAP com uma pegada maior de 28,2 milhões de parâmetros.
  2. Precisão máxima: A maior variante, YOLO11x, atinge uns notáveis 54,7 mAP, ultrapassando o maior modelo YOLO listado. Isto torna YOLO11 a escolha preferível para tarefas de alta precisão, como imagiologia médica ou deteção de falhas.
  3. Implantação na borda: O modelo YOLO11n (Nano) é excecionalmente leve (2,6 M de parâmetros) e rápido (1,5 ms em T4), o que o torna perfeito para sistemas incorporados onde a memória é escassa. Em contrapartida, o modelo YOLO mais pequeno é significativamente mais pesado (8,5 M de parâmetros).
  4. DesempenhoCPU : Ultralytics fornece benchmarks CPU transparentes, destacando a viabilidade do YOLO11 para implantações sem aceleradores dedicados. O YOLO não comunica oficialmente as velocidades CPU , o que limita a sua avaliação para aplicações IoT de baixo consumo.

Mergulho técnico profundo

Formação e arquitetura

O YOLO baseia-se fortemente na Pesquisa de Arquitetura Neural (NAS) para definir a sua espinha dorsal. Embora isto possa produzir estruturas teoricamente óptimas, resulta frequentemente em blocos irregulares que podem não ser compatíveis com o hardware em todos os dispositivos. Em contraste, YOLO11 utiliza blocos refinados e feitos à mão (C3k2, C2PSA) que são intuitivamente concebidos para GPU e bibliotecas de aceleração de CPU .

YOLO11 também enfatiza a eficiência do treinamento. Converge rapidamente graças aos hiperparâmetros optimizados e às estratégias de aumento de dados. Os seus requisitos de memória durante o treino são geralmente inferiores aos das arquitecturas complexas baseadas em transformadores ou em NAS, permitindo aos investigadores treinar modelos eficazes em hardware de consumo.

Ecossistema e usabilidade

Um dos factores de diferenciação mais significativos é o ecossistema. A YOLO é essencialmente um repositório de código para reproduzir resultados de trabalhos de investigação.

Ultralytics YOLO11, no entanto, é uma plataforma de serviço completo:

  • Documentação: Guias abrangentes sobre todos os aspectos do pipeline.
  • Integrações: Suporte nativo para MLFlow, TensorBoard e Weights & Biases para acompanhamento de experiências.
  • Comunidade: Uma comunidade enorme e ativa no GitHub e no Discord que garante que os erros são corrigidos rapidamente e que as perguntas são respondidas.
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
path = model.export(format="onnx")

Recomendações de casos de utilização

Quando escolher Ultralytics YOLO11

  • Implantação no mundo real: Se precisar de implementar em hardware diverso (iOS, Android, Edge TPU, Jetson), as capacidades de exportação do YOLO11 são inigualáveis.
  • Pipelines de visão complexos: Quando seu projeto requer mais do que apenas caixas delimitadoras - como rastrear objetos ou estimar a YOLO11 do corpo - o YOLO11lida com isso nativamente.
  • Prototipagem rápida: A facilidade de utilização permite que os programadores passem dos dados para uma demonstração funcional em minutos.
  • Restrições de recursos: Os modelos Nano e Small oferecem a melhor relação precisão/tamanho para dispositivos alimentados por bateria.

Quando considerar DAMO-YOLO

  • Investigação académica: Os investigadores que estudam a eficácia do NAS em técnicas de deteção de objectos ou de re-parametrização podem considerar o YOLO uma base de referência valiosa.
  • Configurações específicas GPU : Em cenários onde os blocos arquitectónicos específicos do YOLO se alinham perfeitamente com a hierarquia de cache de um acelerador alvo, pode oferecer um rendimento competitivo.

Conclusão

Enquanto YOLO introduz conceitos académicos impressionantes como MAE-NAS e RepGFPN, Ultralytics YOLO11 continua a ser a escolha superior para a grande maioria dos programadores e empresas. A sua combinação de precisão de última geração, arquitetura leve e um ecossistema próspero garante que os projectos não só têm um bom desempenho, como também podem ser mantidos e escalados.

Para os programadores que procuram uma solução de visão por computador fiável, versátil e de elevado desempenho, YOLO11 fornece as ferramentas e as métricas necessárias para ter sucesso em 2025 e mais além.

Explore Outras Comparações de Modelos

Para compreender melhor o panorama dos modelos de deteção de objectos, explore estas comparações relacionadas:


Comentários