Ir para o conteúdo

YOLOv7 vs. PP-YOLOE+: Uma comparação técnica para a deteção de objectos

A seleção da arquitetura ideal de deteção de objectos é uma decisão fundamental no desenvolvimento da visão por computador, influenciando fortemente o desempenho e a eficiência das aplicações a jusante. Esta análise fornece um mergulho técnico profundo no YOLOv7 e PP-YOLOE+, dois modelos ilustres que moldaram o panorama da deteção em tempo real. Examinamos as suas inovações arquitectónicas, metodologias de formação e métricas de desempenho para orientar investigadores e engenheiros na tomada de decisões informadas.

YOLOv7: Definir a velocidade e a precisão em tempo real

YOLOv7 surgiu como um marco significativo na evolução da família You Only Look Once, concebida para ultrapassar os limites da velocidade e da precisão das aplicações em tempo real. Introduziu estratégias arquitectónicas que melhoraram a aprendizagem de caraterísticas sem aumentar os custos de inferência, estabelecendo efetivamente uma nova referência de topo de gama aquando do seu lançamento.

Saiba mais sobre o YOLOv7

Inovações arquitectónicas

O núcleo do design do YOLOv7 é a Rede de Agregação de Camada Eficiente Estendida (E-ELAN). Esta nova arquitetura de backbone controla os caminhos de gradiente mais curtos e mais longos para aprender eficazmente as caraterísticas sem interromper o fluxo de gradiente. Ao otimizar o caminho do gradiente, a rede atinge capacidades de aprendizagem mais profundas, mantendo a eficiência.

Além disso, YOLOv7 utiliza uma estratégia "bag-of-freebies" durante o treino. Estes são métodos de otimização que aumentam a precisão sem adicionar custos computacionais durante a fase do motor de inferência. As técnicas incluem a re-parametrização do modelo, que funde módulos separados num único módulo distinto para implementação, e perda guiada de chumbo grosso a fino para supervisão de cabeça auxiliar.

Forças e Fraquezas

  • Pontos fortes: YOLOv7 oferece uma relação excecional entre velocidade e precisão, tornando-o altamente eficaz para inferência em tempo real em GPUs. A sua abordagem baseada em âncoras está bem ajustada para conjuntos de dados padrão como COCO.
  • Pontos fracos: Como detetor baseado em âncoras, requer a configuração predefinida de caixas de âncoras, o que pode não ser o ideal para conjuntos de dados personalizados com rácios de aspeto de objectos invulgares. O escalonamento eficiente do modelo em restrições de hardware muito diferentes também pode ser complexo em comparação com iterações mais recentes.

PP-YOLOE+: O desafiador sem âncora

O PP-YOLOE+ é a evolução do PP-YOLOE, desenvolvido pela Baidu como parte do conjunto PaddleDetection. Distingue-se por uma arquitetura sem âncoras, com o objetivo de simplificar o processo de deteção e reduzir o número de hiperparâmetros que os programadores têm de afinar.

Saiba mais sobre o PP-YOLOE+.

Inovações arquitectónicas

O PP-YOLOE+ adopta um mecanismo de deteção sem âncoras, eliminando a necessidade de agrupamento de caixas de âncoras. Utiliza um backbone CSPRepResNet e um design de cabeça simplificado. A chave para o seu desempenho é a Aprendizagem de Alinhamento de Tarefas (TAL), que atribui dinamicamente amostras positivas com base no alinhamento da qualidade de classificação e localização.

O modelo também integra a perda VariFocal, uma função de perda especializada concebida para dar prioridade à formação de exemplos de alta qualidade. A versão "+" inclui melhorias nas estruturas do pescoço e da cabeça, optimizando a pirâmide de caraterísticas para uma melhor deteção em várias escalas.

Forças e Fraquezas

  • Pontos fortes: O design sem âncoras simplifica a configuração do treino e melhora a generalização em diversas formas de objectos. Escala bem em diferentes tamanhos (s, m, l, x) e é fortemente optimizado para a estrutura PaddlePaddle .
  • Pontos fracos: A sua dependência primária do ecossistema PaddlePaddle pode criar fricção para as equipas estabelecidas no ecossistema PyTorch ou TensorFlow ecossistemas. O suporte da comunidade e as ferramentas de terceiros fora da China são geralmente menos extensos em comparação com a comunidade YOLO global.

Comparação de Desempenho

Ao comparar estes modelos, é crucial observar o equilíbrio entre a precisão média (mAP) e a latência da inferência. A tabela abaixo destaca as principais métricas no conjunto de dados COCO .

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Análise

Como observado, o YOLOv7l demonstra uma eficiência impressionante, atingindo 51,4% de mAP com uma velocidade de TensorRT de 6,84 ms. Em contrapartida, o PP-YOLOE+l atinge um valor ligeiramente superior de 52,9% de mAP , mas a uma velocidade mais lenta de 8,36 ms e com parâmetros significativamente mais elevados (52,2M vs 36,9M). Isto realça a eficiência superior do YOLOv7 na utilização de parâmetros e na velocidade de inferência para níveis de precisão comparáveis. Embora o PP-YOLOE+x ultrapasse os limites de precisão, fá-lo à custa de quase o dobro dos parâmetros de modelos YOLO comparáveis.

A eficiência é importante

Para implementações de IA de ponta em que a memória e a computação são limitadas, a menor contagem de parâmetros e FLOPs das arquitecturas YOLO traduzem-se frequentemente num funcionamento mais frio e num menor consumo de energia em comparação com alternativas mais pesadas.

A vantagem Ultralytics : Por que modernizar?

Embora YOLOv7 e o PP-YOLOE+ sejam modelos capazes, o domínio da visão por computador evolui rapidamente. Adotar os modelos Ultralytics mais recentes, tais como YOLO11oferece vantagens distintas que vão além das métricas brutas.

1. Experiência do utilizador simplificada

Ultralytics prioriza a facilidade de uso. Ao contrário dos complexos ficheiros de configuração e gestão de dependências frequentemente exigidos por outras estruturas, os modelos Ultralytics podem ser utilizados com algumas linhas de Python. Isso reduz a barreira de entrada para os desenvolvedores e acelera o ciclo de implantação do modelo.

2. Ecossistema unificado e versatilidade

Os modelos Ultralytics modernos não se limitam à deteção de objectos. Suportam nativamente uma vasta gama de tarefas numa única estrutura:

Esta versatilidade permite às equipas padronizar uma biblioteca para várias tarefas de visão por computador, simplificando a manutenção.

3. Treino e eficiência da memória

Os modelos Ultralytics são projectados para eficiência de memória. Normalmente, requerem menos VRAM durante o treino em comparação com arquitecturas mais antigas ou modelos baseados em transformadores como o RT-DETR. Isso permite o treinamento de lotes maiores em GPUs de consumo padrão, tornando a criação de modelos de alto desempenho acessível a mais pesquisadores.

4. Exemplo de código: A maneira moderna

A execução da inferência com um modelo Ultralytics moderno é intuitiva. Abaixo está um exemplo completo e executável usando YOLO11, demonstrando como poucas linhas de código são necessárias para carregar um modelo pré-treinado e executar a previsão.

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Run inference on a local image
# This automatically downloads the model weights if not present
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    boxes = result.boxes  # Boxes object for bbox outputs
    result.show()  # Display results on screen
    result.save(filename="result.jpg")  # Save results to disk

5. Ecossistema bem conservado

Escolher Ultralytics significa juntar-se a uma comunidade vibrante. Com actualizações frequentes, documentação extensa e integrações com ferramentas MLOps como o Ultralytics HUB, os programadores são apoiados durante todo o ciclo de vida do seu projeto de IA.

Conclusão

Ambos YOLOv7 e o PP-YOLOE+ deram contributos significativos para o campo da deteção de objectos. YOLOv7 destaca-se por fornecer inferência de alta velocidade em hardware GPU através da sua eficiente arquitetura E-ELAN. O PP-YOLOE+ oferece uma alternativa robusta sem âncoras que é particularmente forte no ecossistema PaddlePaddle .

No entanto, para os programadores que procuram uma solução preparada para o futuro que equilibre o desempenho topo de gama com uma facilidade de utilização inigualável, Ultralytics YOLO11 é a escolha recomendada. A sua integração num ecossistema abrangente, o suporte para tarefas multimodais e a eficiência superior fazem dele a plataforma ideal para a criação de aplicações de visão por computador escaláveis em 2025 e mais além.

Explore Outros Modelos

Amplie os seus conhecimentos sobre o panorama da deteção de objectos com estas comparações:


Comentários