Ir para o conteúdo

YOLOv7 vs YOLO11: Do legado em tempo real à eficiência de ponta

Navegar no panorama dos modelos de visão por computador implica compreender as nuances entre as arquitecturas estabelecidas e as mais recentes inovações de ponta (SOTA). Este guia fornece uma comparação técnica abrangente entre YOLOv7, um marco significativo na série YOLO , e o Ultralytics YOLO11o modelo de ponta concebido para um desempenho e versatilidade superiores.

Exploraremos as suas diferenças arquitectónicas, métricas de referência e aplicações práticas para ajudar os programadores e investigadores a selecionar a ferramenta ideal para tarefas que vão desde a deteção de objectos à segmentação de instâncias complexas.

YOLOv7: Uma referência em arquitetura eficiente

Lançado em julho de 2022, YOLOv7 representou um grande salto em frente no equilíbrio entre a eficiência da formação e a velocidade de inferência. Foi concebido para superar os detectores anteriores, concentrando-se em optimizações arquitectónicas que reduzem a contagem de parâmetros sem sacrificar a precisão.

Autores: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organização:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Destaques arquitectónicos

YOLOv7 introduziu a Rede de Agregação de Camadas Eficiente Alargada (E-ELAN). Esta arquitetura permite que o modelo aprenda caraterísticas mais diversas através do controlo dos caminhos de gradiente mais curtos e mais longos, melhorando a convergência durante o treino. Além disso, utilizou o "trainable bag-of-freebies", um conjunto de estratégias de otimização como a re-parametrização do modelo e a atribuição dinâmica de etiquetas, que melhoram a precisão sem aumentar o custo de inferência.

Embora seja principalmente um modelo de deteção de objectos, a comunidade de código aberto explorou a extensão do YOLOv7 para a estimativa de pose. No entanto, estas implementações carecem frequentemente da integração perfeita encontrada em estruturas unificadas.

Pontos fortes e limitações

YOLOv7 é respeitado pela sua:

  • Desempenho sólido: Estabeleceu uma nova linha de base para detectores em tempo real aquando do seu lançamento, com um bom desempenho no conjunto de dadosCOCO .
  • Inovação arquitetónica: A introdução do E-ELAN influenciou a investigação subsequente no domínio da conceção de redes.

No entanto, enfrenta desafios nos fluxos de trabalho modernos:

  • Complexidade: O pipeline de formação pode ser complexo, exigindo uma configuração manual significativa em comparação com os padrões modernos.
  • Versatilidade limitada: Não suporta nativamente tarefas como a classificação ou caixas delimitadoras orientadas (OBB).
  • Utilização de recursos: O treino de variantes maiores, como o YOLOv7x, exige uma GPU o que pode ser um estrangulamento para investigadores com hardware limitado.

Saiba mais sobre o YOLOv7

Ultralytics YOLO11: Redefinir a velocidade, a precisão e a facilidade de utilização

Ultralytics YOLO11 é a mais recente evolução da renomada linha YOLO , projetada para oferecer desempenho SOTA em uma ampla gama de tarefas de visão computacional. Construído com base num legado de melhoria contínua, YOLO11 oferece uma arquitetura refinada que maximiza a eficiência para a implementação no mundo real.

Autores: Glenn Jocher e Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11

Arquitetura avançada e versatilidade

YOLO11 emprega uma espinha dorsal modernizada que utiliza blocos C3k2 e um módulo SPPF melhorado para captar caraterísticas em várias escalas de forma mais eficaz. Este design resulta num modelo que não só é mais preciso, mas também significativamente mais leve em termos de parâmetros e FLOPs em comparação com os seus antecessores e concorrentes.

Uma caraterística que define o YOLO11 é o seu suporte multitarefa nativo. Dentro de uma única estrutura, os utilizadores podem executar:

  • Deteção: Identificação de objectos com caixas delimitadoras.
  • Segmentação: Mascaramento ao nível do pixel para uma análise precisa da forma.
  • Classificação: atribuição de etiquetas de classe a imagens inteiras.
  • Estimativa de pose: Deteção de pontos-chave em corpos humanos.
  • OBB: Deteção de objectos rodados, crucial para imagens aéreas.

Ecossistema unificado

Ultralytics YOLO11 integra-se perfeitamente ao Ultralytics HUB, uma plataforma para gerenciamento de conjuntos de dados, treinamento sem código e implantação com um clique. Essa integração acelera significativamente o ciclo de vida do MLOps.

Porque é que os programadores escolhem YOLO11

  • Facilidade de utilização: Com um design centrado no utilizador, YOLO11 pode ser implementado em apenas algumas linhas de código Python ou através de um simples CLI.
  • Ecossistema bem mantido: Apoiado por uma comunidade ativa e pela equipa Ultralytics , o modelo recebe actualizações frequentes, garantindo a compatibilidade com as últimas versões do PyTorch e aceleradores de hardware.
  • Equilíbrio de desempenho: Atinge um equilíbrio excecional entre a velocidade de inferência e a precisão média média (mAP), tornando-o ideal para dispositivos de ponta e servidores em nuvem.
  • Eficiência de memória: Os modelos YOLO11 normalmente requerem menos memória CUDA durante o treinamento em comparação com arquiteturas mais antigas ou modelos baseados em transformadores, permitindo tamanhos de lote maiores ou treinamento em hardware modesto.

Saiba mais sobre o YOLO11.

Comparação de desempenho: Referências técnicas

A tabela seguinte ilustra as diferenças de desempenho entre YOLOv7 e YOLO11. Os dados destacam como as optimizações modernas permitem que YOLO11 atinja uma precisão superior com uma fração do custo computacional.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Análise:

  • Eficiência: O YOLO11m iguala a precisão do YOLOv7l (51,5 vs 51,4 mAP), utilizando quase metade dos parâmetros (20,1M vs 36,9M) e significativamente menos FLOPs.
  • Velocidade: Para aplicações em tempo real, o YOLO11n é drasticamente mais rápido, com um relógio de 1,5 ms numa GPU T4, o que o torna perfeito para o processamento de vídeo de elevado FPS.
  • Exatidão: O maior modelo, YOLO11x, ultrapassa o YOLOv7x em termos de exatidão (54,7 vs 53,1 mAP), mantendo uma contagem de parâmetros competitiva.

Casos de Uso no Mundo Real

Agricultura e monitorização ambiental

Na agricultura de precisão, a deteção de doenças das culturas ou a monitorização do crescimento requerem modelos que possam funcionar em dispositivos com potência limitada, como drones ou sensores de campo.

  • YOLO11: A sua arquitetura leve (especificamente YOLO11n/s) permite a implantação em dispositivos Raspberry Pi ou NVIDIA Jetson, permitindo a monitorização em tempo real do estado das culturas.
  • YOLOv7: Embora exacta, a sua maior exigência computacional limita a sua utilidade em dispositivos periféricos alimentados por bateria.

Fabrico inteligente e controlo de qualidade

Os sistemas automatizados de inspeção visual requerem uma elevada precisão para detect defeitos mínimos nas linhas de fabrico.

  • YOLO11: A capacidade do modelo para efetuar segmentação e OBB é crucial neste caso. Por exemplo, o OBB é essencial para detetar componentes rodados numa correia transportadora, uma caraterística suportada nativamente pelo YOLO11 mas que requer implementações personalizadas no YOLOv7.
  • YOLOv7: Adequado para a deteção de caixas delimitadoras padrão, mas menos adaptável a defeitos geométricos complexos sem modificações significativas.

Vigilância e segurança

Os sistemas de segurança processam frequentemente vários fluxos de vídeo em simultâneo.

  • YOLO11: A elevada velocidade de inferência permite que um único servidor processe mais fluxos em paralelo, reduzindo os custos de infraestrutura.
  • YOLOv7: Eficaz, mas a latência mais elevada por fotograma reduz o número total de canais que uma única unidade pode suportar.

Eficiência na implementação e formação

Uma das caraterísticas de destaque do ecossistema Ultralytics é a experiência simplificada do programador. Abaixo está uma comparação de como começar.

Simplicidade no código

Ultralytics YOLO11 foi concebido para ser "incluído nas pilhas", abstraindo o complexo código padrão.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Em contrapartida, os repositórios mais antigos requerem frequentemente a clonagem do repositório, o ajuste manual dos ficheiros de configuração e a execução de scripts shell complexos para formação e inferência.

Flexibilidade de exportação

YOLO11 suporta a exportação com um clique para vários formatos para implantação, incluindo ONNX, TensorRT, CoreML e TFLite. Essa flexibilidade garante que seu modelo esteja pronto para produção em qualquer ambiente.

Conclusão: O claro vencedor

Enquanto YOLOv7 continua a ser um modelo respeitável na história da visão por computador, Ultralytics YOLO11 representa o futuro. Para os programadores e investigadores, YOLO11 oferece um pacote atrativo:

  1. Métricas superiores: Maior mAP e velocidades de inferência mais rápidas.
  2. Ecossistema rico: Acesso ao HUBUltralytics , documentos abrangentes e suporte da comunidade.
  3. Versatilidade: Uma única estrutura para deteção, segmentação, pose, classificação e OBB.
  4. Preparado para o futuro: Actualizações e manutenção contínuas garantem a compatibilidade com novas bibliotecas de hardware e software.

Para qualquer novo projeto, tirar partido da eficiência e da facilidade de utilização do YOLO11 é o caminho recomendado para obter resultados de ponta com o mínimo de fricção.

Explore Outros Modelos

Se estiver interessado em mais comparações, explore estas páginas relacionadas na documentação:


Comentários