DAMO-YOLO vs. YOLO11: Uma Comparação Técnica
No panorama em rápida evolução da visão computacional, a escolha do modelo de deteção de objectos correto é fundamental para o sucesso da aplicação. Esta comparação abrangente analisa duas arquitecturas importantes: YOLO, desenvolvida pelo Alibaba Group, e Ultralytics YOLO11o mais recente modelo topo de gama da Ultralytics. Embora ambos os modelos visem otimizar o compromisso entre velocidade e precisão, servem objectivos primários diferentes e oferecem vantagens distintas, dependendo do cenário de implementação.
Este guia fornece uma análise aprofundada das suas arquitecturas, métricas de desempenho e casos de utilização ideais para ajudar os programadores e investigadores a tomar decisões informadas.
DAMO-YOLO
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO
A YOLO é uma estrutura de deteção de objectos que integra várias tecnologias de ponta para obter um elevado desempenho. Centra-se na redução da latência, mantendo a precisão competitiva através de uma série de inovações arquitectónicas impulsionadas pela investigação da Alibaba.
Arquitetura e inovação
A YOLO introduz uma abordagem "Distill-and-Select" e incorpora os seguintes componentes-chave:
- Backbone MAE-NAS: Utilizando a Pesquisa de Arquitetura Neural (NAS), o backbone é otimizado sob restrições específicas para garantir a extração eficiente de recursos.
- RepGFPN eficiente: Uma rede de pirâmide de caraterísticas generalizada (GFPN) utiliza fortemente mecanismos de re-parametrização para melhorar a fusão de caraterísticas em diferentes escalas sem incorrer em custos computacionais pesados durante a inferência.
- ZeroHead: Esta cabeça de deteção leve separa as tarefas de classificação e regressão, com o objetivo de maximizar a velocidade de inferência.
- AlignedOTA: Uma estratégia de atribuição de etiquetas que resolve o desalinhamento entre os objectivos de classificação e regressão, melhorando a convergência durante o treino.
Embora a YOLO apresente avanços teóricos impressionantes, é sobretudo uma estrutura orientada para a investigação centrada na deteção de objectos. Normalmente, não tem o suporte multitarefa nativo encontrado em ecossistemas mais abrangentes.
Ultralytics YOLO11
Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11
Ultralytics YOLO11 representa o auge da visão computacional em tempo real, refinando o legado da série YOLO com melhorias significativas na arquitetura, eficiência e facilidade de utilização. Foi concebido não apenas como um modelo, mas como uma ferramenta versátil para uma implementação prática e real em diversos ambientes de hardware.
Arquitetura e ecossistema
YOLO11 baseia-se em sucessos anteriores com uma arquitetura refinada sem âncoras. Apresenta uma espinha dorsal melhorada para uma extração de caraterísticas superior e um design de pescoço modificado que melhora o fluxo de informação a várias escalas.
As principais vantagens da estrutura Ultralytics YOLO11 incluem:
- Versatilidade: Ao contrário de muitos concorrentes, YOLO11 suporta nativamente uma vasta gama de tarefas, incluindo deteção de objectos, segmentação de instâncias, estimativa de pose, classificação de imagens e caixas delimitadoras orientadas (OBB).
- Facilidade de utilização: O modelo está integrado numa APIPython de fácil utilização e numa CLItornando-o acessível tanto para iniciantes como para especialistas.
- Eficiência de treinamento: Optimizado para uma convergência mais rápida, YOLO11 utiliza funções eficientes de aumento e perda de dados, permitindo aos utilizadores treinar modelos personalizados em conjuntos de dados como COCO com menor sobrecarga de recursos.
- Ecossistema bem conservado: Apoiado pelo Ultralytics os utilizadores beneficiam de actualizações frequentes, documentação extensa e integração perfeita com ferramentas MLOps como o Ultralytics HUB.
Sabia que?
YOLO11 foi concebido para ser altamente eficiente em dispositivos Edge AI. A sua arquitetura optimizada garante uma baixa utilização de memória e altas velocidades de inferência em hardware como o NVIDIA Jetson e o Raspberry Pi, tornando-o uma escolha superior para aplicações incorporadas em comparação com modelos mais pesados baseados em transformadores.
Comparação de Desempenho
O gráfico e a tabela seguintes ilustram as diferenças de desempenho entre o YOLO e YOLO11. Ultralytics YOLO11 demonstra consistentemente uma exatidão superiormAP) e velocidades de inferência favoráveis, particularmente em hardware CPU onde o YOLO não tem referências oficiais.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Análise dos resultados
- Precisão: YOLO11 supera significativamente os modelos YOLO comparáveis. Por exemplo, o YOLO11m atinge um valor de 51,5 mAP, visivelmente superior ao DAMO-YOLOm com 49,2 mAP, apesar de ter menos parâmetros (20,1M vs 28,2M).
- Velocidade de inferência: Na GPU (T4 TensorRT), YOLO11 oferece uma latência altamente competitiva. O YOLO11n é incrivelmente rápido, com 1,5 ms, tornando-o adequado para aplicações de latência ultrabaixa.
- DesempenhoCPU : Uma das principais vantagens dos modelos Ultralytics é a sua transparência relativamente ao desempenho CPU . YOLO11 está optimizado para inferência CPU através de ONNX e OpenVINO, enquanto o YOLO se concentra fortemente na GPU, muitas vezes deixando o desempenho da implantação CPU indefinido.
- Eficiência do modelo: YOLO11 demonstra um melhor equilíbrio entre parâmetros e desempenho. A eficiência arquitetónica permite ficheiros de modelo mais pequenos, o que se traduz em descarregamentos mais rápidos e menores requisitos de armazenamento em dispositivos de ponta.
Principais Diferenciadores e Casos de Uso
Pontos fortes do Ultralytics YOLO11
Desenvolvedores que utilizam Ultralytics YOLO11 obtêm acesso a um ambiente robusto de nível de produção.
- Equilíbrio de desempenho: A arquitetura do modelo é meticulosamente ajustada para oferecer o melhor compromisso entre a velocidade de inferência e a precisão, crucial para a análise de vídeo em tempo real.
- Capacidades Multi-Tarefa: Se o âmbito do seu projeto se expandir da deteção para o rastreio ou segmentação, YOLO11 lida com isso sem problemas dentro da mesma base de código.
- Facilidade de Uso: O
ultralyticssimplifica todo o pipeline. Carregar um modelo, executar previsões e exportar para formatos como CoreML, TFLite ou TensorRT pode ser feito com apenas algumas linhas de código. - Menores requisitos de memória: Em comparação com os detectores baseados em transformadores ou arquitecturas não optimizadas, YOLO11 requer normalmente menos memória CUDA durante o treino, permitindo aos investigadores treinar em GPUs de consumo.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Pontos fortes da YOLO
YOLO é um forte concorrente nos círculos de investigação académica.
- Inovação na investigação: Funcionalidades como o MAE-NAS e o ZeroHead oferecem perspectivas interessantes sobre a pesquisa de arquitetura neural e a dissociação de cabeças.
- Taxa de transferênciaGPU : Para aplicações industriais específicas executadas exclusivamente em GPUs suportadas, o YOLO proporciona um elevado rendimento, embora muitas vezes fique atrás do YOLO11 em termos de eficiência de precisão pura por parâmetro.
Conclusão
Enquanto a YOLO apresenta novos conceitos da equipa de investigação da Alibaba, Ultralytics YOLO11 destaca-se como a escolha superior para a grande maioria dos programadores e empresas. O seu domínio é definido não só pelo maior mAP e inferência mais rápida, mas pelo ecossistema abrangente que o suporta.
Desde a facilidade de utilização e versatilidade até uma base de código bem mantida e apoio ativo da comunidade, YOLO11 reduz a barreira à entrada para a criação de soluções avançadas de IA. Quer seja implementado em servidores na nuvem ou em dispositivos de ponta com recursos limitados, YOLO11 fornece a fiabilidade e o desempenho necessários para aplicações modernas de visão por computador.
Explore Outras Comparações de Modelos
Para compreender melhor a comparação dos modelos Ultralytics com outras arquitecturas, explore as nossas páginas de comparação detalhadas: