YOLOv6.0 vs. YOLO: Uma comparação técnica para a deteção de objectos
A seleção da arquitetura de visão por computador correta é uma decisão fundamental para engenheiros e investigadores. O panorama da deteção de objectos é competitivo, com os gigantes da indústria a ultrapassarem constantemente os limites da velocidade e da precisão. Esta página fornece uma comparação técnica abrangente entre YOLOv6.0, um modelo eficiente em termos de hardware da Meituan, e o YOLO, uma arquitetura repleta de tecnologia do Alibaba Group.
Descrição geral do YOLOv6.0
YOLOv6.0 serve como uma estrutura robusta adaptada especificamente para aplicações industriais. Lançado pelo Vision AI Department da Meituan, dá prioridade à eficiência no mundo real, com o objetivo de proporcionar um elevado desempenho em restrições de hardware padrão encontradas no fabrico e na automação.
- Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
- Organização:Meituan
- Data: 2023-01-13
- Arxiv:YOLOv6 v3.0: Uma recarga à escala real
- GitHub:YOLOv6
- Documentos:DocumentaçãoUltralytics YOLOv6
Arquitetura e Inovações Chave
YOLOv6.0 refina o paradigma do detetor de estágio único com foco na reparametrização. Esta técnica permite que o modelo tenha uma estrutura complexa durante o treino para uma melhor aprendizagem, mas colapsa para uma estrutura mais simples e rápida durante a inferência.
- Backbone EfficientRep: O backbone utiliza blocos distintos para diferentes tamanhos de modelos (EfficientRep para modelos pequenos e CSPStackRep para modelos maiores), optimizando a utilização das capacidades de hardware GPU .
- Pescoço Rep-PAN: O pescoço emprega uma topologia Rep-PAN, melhorando a fusão de caraterísticas enquanto mantém altas velocidades de inferência.
- Destilação automática: Uma metodologia de formação fundamental em que o modelo aprende com as suas próprias previsões (especificamente, um ramo de professor dentro da mesma rede) para melhorar a precisão sem o custo computacional de um modelo de professor separado durante a implementação.
Otimização industrial
YOLOv6 foi explicitamente concebido tendo em conta a quantização. A sua arquitetura é compatível com a Quantização Pós-Formação (PTQ) e com a Formação Consciente da Quantização (QAT), o que a torna uma forte candidata à implantação em dispositivos periféricos em que a precisão INT8 é preferida em termos de velocidade.
Visão Geral do DAMO-YOLO
A YOLO, desenvolvida pelo Grupo Alibaba, introduz um conjunto de novas tecnologias para otimizar o compromisso entre desempenho e latência. Distingue-se por incorporar a Pesquisa de Arquitetura Neural (NAS) e técnicas avançadas de fusão de caraterísticas.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
- Organização:Grupo Alibaba
- Data: 2022-11-23
- Arxiv:YOLO: Um relatório sobre o projeto de deteção de objectos em tempo real
- GitHub:YOLO
- Documentos:YOLO GitHub README
Arquitetura e Inovações Chave
A YOLO afasta-se das arquitecturas puramente manuais, baseando-se em parte em estratégias de pesquisa automatizadas para encontrar estruturas eficientes.
- Backbone alimentado por NAS (MazeNet): O backbone é gerado usando MAE-NAS (Neural Architecture Search), resultando em uma estrutura chamada MazeNet que é altamente otimizada para orçamentos computacionais variados.
- RepGFPN eficiente: Utiliza uma rede de pirâmide de caraterísticas generalizadas (GFPN) combinada com reparametrização. Isto permite uma fusão rica de caraterísticas multi-escala, que é crítica para a deteção de objectos de vários tamanhos.
- ZeroHead: Uma conceção simplificada da cabeça de deteção que reduz a contagem de parâmetros e a complexidade computacional na fase final da rede.
- AlignedOTA: Uma estratégia dinâmica de atribuição de etiquetas que resolve o desalinhamento entre as tarefas de classificação e regressão durante o processo de formação.
Fusão avançada de funcionalidades
O pescoço RepGFPN em YOLO é particularmente eficaz no tratamento de cenas complexas com objectos sobrepostos. Ao permitir ligações por saltos em diferentes níveis de escala, preserva melhor a informação semântica do que as estruturas FPN normais.
Análise de Desempenho: Velocidade vs. Precisão
A comparação que se segue utiliza dados do conjunto de dadosCOCO val2017. As métricas destacam as soluções de compromisso entre os dois modelos em diferentes escalas.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Principais Conclusões
- Líder em latência:YOLOv6.0n é o modelo mais rápido nesta comparação, com um clock de 1,17 ms em uma GPU T4. Isso o torna excecionalmente adequado para requisitos de alto FPS em cenários de inferência em tempo real.
- Pico de Precisão:YOLOv6.0l atinge a maior precisão com um mAP de 52,8, demonstrando a eficácia da sua espinha dorsal pesada e estratégia de auto-destilação, embora à custa de parâmetros e FLOPs mais elevados em comparação com o YOLO.
- Eficiência do ponto ideal:DAMO-YOLOs supera YOLOv6.0s em precisão (46.0 vs 45.0 mAP) enquanto tem menos parâmetros (16.3M vs 18.5M). Isto realça a eficiência da espinha dorsal pesquisada pelo NAS no regime de modelos pequenos.
- Eficiência dos parâmetros: Em geral, os modelos YOLO apresentam FLOPs e contagens de parâmetros mais baixos para uma precisão comparável na gama média a grande, validando a eficácia da conceção ZeroHead.
A vantagem Ultralytics
Enquanto YOLOv6.0 e o YOLO oferecem caraterísticas interessantes para nichos específicos, Ultralytics YOLO11 oferece uma solução mais holística para o desenvolvimento moderno de IA. A escolha de um modelo Ultralytics desbloqueia um ecossistema abrangente concebido para otimizar todo o ciclo de vida da aprendizagem automática.
Porquê escolher o Ultralytics YOLO?
- Facilidade de utilização inigualável: Ao contrário dos repositórios de investigação que requerem frequentemente configurações de ambiente complexas e a compilação de operadores C++ personalizados, os modelos Ultralytics podem ser instalados através de um simples
pip install ultralytics. A intuição API Python permite-lhe treinar e implementar modelos com apenas algumas linhas de código. - Equilíbrio de desempenho: YOLO11 foi concebido para proporcionar o equilíbrio ideal entre a velocidade de inferência e a precisão, superando frequentemente os concorrentes em benchmarks do mundo real e mantendo requisitos de memória mais baixos durante o treino.
- Versatilidade de tarefas: Enquanto YOLOv6 e o YOLO são essencialmente detectores de objectos,YOLO Ultralytics YOLO suporta nativamente uma vasta gama de tarefas, incluindo a segmentação de instâncias, a estimativa de pose, a classificação e a deteção de caixas delimitadoras orientadas (OBB).
- Ecossistema bem mantido: Ultralytics fornece um ecossistema vivo com actualizações frequentes, documentação extensa e apoio da comunidade através do Discord e do GitHub. Isso garante que seu projeto permaneça preparado para o futuro e compatível com as bibliotecas de hardware e software mais recentes.
- Flexibilidade de implantação: Exporte facilmente seus modelos treinados para vários formatos, como ONNXTensorRT, CoreML e OpenVINO usando o modo de exportação integrado, facilitando a implantação em tudo, desde servidores em nuvem até dispositivos Raspberry Pi.
Exemplo: Executar a deteção de objectos com o YOLO11
Começar a utilizar a deteção de ponta é extremamente simples com o Ultralytics:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Conclusão
Tanto YOLOv6.0 como o YOLO representam marcos significativos na evolução da deteção de objectos. YOLOv6.0 destaca-se em ambientes industriais onde a velocidade bruta e o suporte de quantização são fundamentais, particularmente com a sua variante Nano. O YOLO mostra o poder da Pesquisa de Arquitetura Neural e a fusão inovadora de caraterísticas, oferecendo uma elevada eficiência e precisão na gama de modelos pequenos a médios.
No entanto, para os programadores que procuram uma solução pronta para produção que combine um desempenho de ponta com versatilidade e facilidade de utilização, Ultralytics YOLO11 continua a ser a escolha recomendada. O seu ecossistema robusto, as capacidades multitarefa e a integração perfeita em fluxos de trabalho MLOps modernos proporcionam uma vantagem distinta para garantir o sucesso do projeto.
Explore Outros Modelos
Para alargar a sua compreensão do panorama da deteção de objectos, considere explorar estas comparações de modelos relacionados:
- YOLO11 vs. YOLOv6
- DAMO-YOLO vs. YOLOv8
- DAMO-YOLO vs. RT-DETR
- YOLOv6 vs. EfficientDet
- DAMO-YOLO vs. YOLOX