YOLOv7 vs YOLO11: Do legado em tempo real à eficiência de ponta
Navegar no panorama dos modelos de visão por computador implica compreender as nuances entre as arquitecturas estabelecidas e as mais recentes inovações de ponta (SOTA). Este guia fornece uma comparação técnica abrangente entre YOLOv7, um marco significativo na série YOLO , e o Ultralytics YOLO11o modelo de ponta concebido para um desempenho e versatilidade superiores.
Exploraremos as suas diferenças arquitectónicas, métricas de referência e aplicações práticas para ajudar os programadores e investigadores a selecionar a ferramenta ideal para tarefas que vão desde a deteção de objectos à segmentação de instâncias complexas.
YOLOv7: Uma referência em arquitetura eficiente
Lançado em julho de 2022, YOLOv7 representou um grande salto em frente no equilíbrio entre a eficiência da formação e a velocidade de inferência. Foi concebido para superar os detectores anteriores, concentrando-se em optimizações arquitectónicas que reduzem a contagem de parâmetros sem sacrificar a precisão.
Autores: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organização:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Destaques arquitectónicos
YOLOv7 introduziu a Rede de Agregação de Camadas Eficiente Alargada (E-ELAN). Esta arquitetura permite que o modelo aprenda caraterísticas mais diversas através do controlo dos caminhos de gradiente mais curtos e mais longos, melhorando a convergência durante o treino. Além disso, utilizou o "trainable bag-of-freebies", um conjunto de estratégias de otimização como a re-parametrização do modelo e a atribuição dinâmica de etiquetas, que melhoram a precisão sem aumentar o custo de inferência.
Embora seja principalmente um modelo de deteção de objectos, a comunidade de código aberto explorou a extensão do YOLOv7 para a estimativa de pose. No entanto, estas implementações carecem frequentemente da integração perfeita encontrada em estruturas unificadas.
Pontos fortes e limitações
YOLOv7 é respeitado pela sua:
- Desempenho sólido: Estabeleceu uma nova linha de base para detectores em tempo real aquando do seu lançamento, com um bom desempenho no conjunto de dadosCOCO .
- Inovação arquitetónica: A introdução do E-ELAN influenciou a investigação subsequente no domínio da conceção de redes.
No entanto, enfrenta desafios nos fluxos de trabalho modernos:
- Complexidade: O pipeline de formação pode ser complexo, exigindo uma configuração manual significativa em comparação com os padrões modernos.
- Versatilidade limitada: Não suporta nativamente tarefas como a classificação ou caixas delimitadoras orientadas (OBB).
- Utilização de recursos: O treino de variantes maiores, como o YOLOv7x, exige uma GPU o que pode ser um estrangulamento para investigadores com hardware limitado.
Ultralytics YOLO11: Redefinir a velocidade, a precisão e a facilidade de utilização
Ultralytics YOLO11 é a mais recente evolução da renomada linha YOLO , projetada para oferecer desempenho SOTA em uma ampla gama de tarefas de visão computacional. Construído com base num legado de melhoria contínua, YOLO11 oferece uma arquitetura refinada que maximiza a eficiência para a implementação no mundo real.
Autores: Glenn Jocher e Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11
Arquitetura avançada e versatilidade
YOLO11 emprega uma espinha dorsal modernizada que utiliza blocos C3k2 e um módulo SPPF melhorado para captar caraterísticas em várias escalas de forma mais eficaz. Este design resulta num modelo que não só é mais preciso, mas também significativamente mais leve em termos de parâmetros e FLOPs em comparação com os seus antecessores e concorrentes.
Uma caraterística que define o YOLO11 é o seu suporte multitarefa nativo. Dentro de uma única estrutura, os utilizadores podem executar:
- Deteção: Identificação de objectos com caixas delimitadoras.
- Segmentação: Mascaramento ao nível do pixel para uma análise precisa da forma.
- Classificação: atribuição de etiquetas de classe a imagens inteiras.
- Estimativa de pose: Deteção de pontos-chave em corpos humanos.
- OBB: Deteção de objectos rodados, crucial para imagens aéreas.
Ecossistema unificado
Ultralytics YOLO11 integra-se perfeitamente ao Ultralytics HUB, uma plataforma para gerenciamento de conjuntos de dados, treinamento sem código e implantação com um clique. Essa integração acelera significativamente o ciclo de vida do MLOps.
Porque é que os programadores escolhem YOLO11
- Facilidade de utilização: Com um design centrado no utilizador, YOLO11 pode ser implementado em apenas algumas linhas de código Python ou através de um simples CLI.
- Ecossistema bem mantido: Apoiado por uma comunidade ativa e pela equipa Ultralytics , o modelo recebe actualizações frequentes, garantindo a compatibilidade com as últimas versões do PyTorch e aceleradores de hardware.
- Equilíbrio de desempenho: Atinge um equilíbrio excecional entre a velocidade de inferência e a precisão média média (mAP), tornando-o ideal para dispositivos de ponta e servidores em nuvem.
- Eficiência de memória: Os modelos YOLO11 normalmente requerem menos memória CUDA durante o treinamento em comparação com arquiteturas mais antigas ou modelos baseados em transformadores, permitindo tamanhos de lote maiores ou treinamento em hardware modesto.
Comparação de desempenho: Referências técnicas
A tabela seguinte ilustra as diferenças de desempenho entre YOLOv7 e YOLO11. Os dados destacam como as optimizações modernas permitem que YOLO11 atinja uma precisão superior com uma fração do custo computacional.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Análise:
- Eficiência: O YOLO11m iguala a precisão do YOLOv7l (51,5 vs 51,4 mAP), utilizando quase metade dos parâmetros (20,1M vs 36,9M) e significativamente menos FLOPs.
- Velocidade: Para aplicações em tempo real, o YOLO11n é drasticamente mais rápido, com um relógio de 1,5 ms numa GPU T4, o que o torna perfeito para o processamento de vídeo de elevado FPS.
- Exatidão: O maior modelo, YOLO11x, ultrapassa o YOLOv7x em termos de exatidão (54,7 vs 53,1 mAP), mantendo uma contagem de parâmetros competitiva.
Casos de Uso no Mundo Real
Agricultura e monitorização ambiental
Na agricultura de precisão, a deteção de doenças das culturas ou a monitorização do crescimento requerem modelos que possam funcionar em dispositivos com potência limitada, como drones ou sensores de campo.
- YOLO11: A sua arquitetura leve (especificamente YOLO11n/s) permite a implantação em dispositivos Raspberry Pi ou NVIDIA Jetson, permitindo a monitorização em tempo real do estado das culturas.
- YOLOv7: Embora exacta, a sua maior exigência computacional limita a sua utilidade em dispositivos periféricos alimentados por bateria.
Fabrico inteligente e controlo de qualidade
Os sistemas automatizados de inspeção visual requerem uma elevada precisão para detect defeitos mínimos nas linhas de fabrico.
- YOLO11: A capacidade do modelo para efetuar segmentação e OBB é crucial neste caso. Por exemplo, o OBB é essencial para detetar componentes rodados numa correia transportadora, uma caraterística suportada nativamente pelo YOLO11 mas que requer implementações personalizadas no YOLOv7.
- YOLOv7: Adequado para a deteção de caixas delimitadoras padrão, mas menos adaptável a defeitos geométricos complexos sem modificações significativas.
Vigilância e segurança
Os sistemas de segurança processam frequentemente vários fluxos de vídeo em simultâneo.
- YOLO11: A elevada velocidade de inferência permite que um único servidor processe mais fluxos em paralelo, reduzindo os custos de infraestrutura.
- YOLOv7: Eficaz, mas a latência mais elevada por fotograma reduz o número total de canais que uma única unidade pode suportar.
Eficiência na implementação e formação
Uma das caraterísticas de destaque do ecossistema Ultralytics é a experiência simplificada do programador. Abaixo está uma comparação de como começar.
Simplicidade no código
Ultralytics YOLO11 foi concebido para ser "incluído nas pilhas", abstraindo o complexo código padrão.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Em contrapartida, os repositórios mais antigos requerem frequentemente a clonagem do repositório, o ajuste manual dos ficheiros de configuração e a execução de scripts shell complexos para formação e inferência.
Flexibilidade de exportação
YOLO11 suporta a exportação com um clique para vários formatos para implantação, incluindo ONNX, TensorRT, CoreML e TFLite. Essa flexibilidade garante que seu modelo esteja pronto para produção em qualquer ambiente.
Conclusão: O claro vencedor
Enquanto YOLOv7 continua a ser um modelo respeitável na história da visão por computador, Ultralytics YOLO11 representa o futuro. Para os programadores e investigadores, YOLO11 oferece um pacote atrativo:
- Métricas superiores: Maior mAP e velocidades de inferência mais rápidas.
- Ecossistema rico: Acesso ao HUBUltralytics , documentos abrangentes e suporte da comunidade.
- Versatilidade: Uma única estrutura para deteção, segmentação, pose, classificação e OBB.
- Preparado para o futuro: Actualizações e manutenção contínuas garantem a compatibilidade com novas bibliotecas de hardware e software.
Para qualquer novo projeto, tirar partido da eficiência e da facilidade de utilização do YOLO11 é o caminho recomendado para obter resultados de ponta com o mínimo de fricção.
Explore Outros Modelos
Se estiver interessado em mais comparações, explore estas páginas relacionadas na documentação:
- YOLO11 vs YOLOv8
- YOLO11 vs YOLOv10
- YOLOv7 vs RT-DETR
- YOLOv7 vs YOLOv5
- Explorar o YOLOv9 arquitetura.