Ir para o conteúdo

YOLO11 vs PP-YOLOE+: Uma comparação técnica pormenorizada

A seleção da arquitetura ideal de deteção de objectos é uma decisão fundamental que influencia a velocidade, a precisão e a viabilidade de implementação de projectos de visão por computador. Este guia fornece uma comparação técnica aprofundada entre Ultralytics YOLO11o mais recente modelo de última geração da Ultralytics, e o PP-YOLOE+, um detetor robusto do ecossistema PaddlePaddle da Baidu. Embora ambos os modelos ofereçam um elevado desempenho, YOLO11 distingue-se pela sua excecional eficiência computacional, integração perfeita com PyTorch e um ecossistema abrangente concebido para acelerar o desenvolvimento para investigadores e engenheiros.

Ultralytics YOLO11: Eficiência e versatilidade

YOLO11 representa a mais recente evolução da célebre série YOLO (You Only Look Once), lançada pela Ultralytics para ultrapassar os limites da deteção de objectos em tempo real. Concebido por Glenn Jocher e Jing Qiu, este modelo aperfeiçoa a arquitetura sem âncoras para proporcionar uma precisão superior com uma sobrecarga computacional significativamente reduzida.

Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11

Arquitetura e principais pontos fortes

YOLO11 utiliza um design de rede simplificado que optimiza a extração e a fusão de caraterísticas. Ao contrário dos detectores tradicionais baseados em âncoras que dependem de caixas predefinidas, YOLO11 prevê diretamente os centros e as escalas dos objectos. Essa abordagem simplifica a cabeça do modelo e reduz o número de hiperparâmetros necessários para o ajuste.

A arquitetura do modelo é altamente versátil, suportando uma vasta gama de tarefas de visão computacional para além da simples deteção. Trata nativamente a segmentação de instâncias, a estimativa de pose, a classificação de imagens e as caixas delimitadoras orientadas (OBB), tudo numa estrutura única e unificada.

Experiência do programador

Uma das vantagens mais significativas do YOLO11 é a sua integração no ultralytics Pacote Python . Este fornece uma API consistente para formação, validação e implementação, permitindo aos programadores alternar entre tarefas ou exportar modelos para formatos como ONNX e TensorRT com uma única linha de código.

Principais vantagens

  • Equilíbrio de desempenho superior: YOLO11 alcança um equilíbrio líder no sector entre mAP e latência de inferência, tornando-o adequado para aplicações em tempo real em dispositivos de ponta.
  • Eficiência computacional: O modelo requer menos parâmetros e FLOPs (Floating Point Operations) em comparação com concorrentes como o PP-YOLOE+, o que resulta numa execução mais rápida e num menor consumo de energia.
  • Baixo consumo de memória: Optimizado para uma utilização eficiente da memória, YOLO11 treina mais rapidamente e pode ser executado em hardware com VRAM limitada, diferente dos modelos de transformadores com muitos recursos.
  • Ecossistema robusto: Os utilizadores beneficiam de manutenção ativa, documentação extensa e apoio da comunidade, garantindo a viabilidade a longo prazo dos projectos empresariais.

Saiba mais sobre o YOLO11.

PP-YOLOE+: Alta precisão no ecossistema PaddlePaddle

O PP-YOLOE+ é uma evolução da série YOLO desenvolvida por investigadores da Baidu. Lançado em 2022, ele faz parte do kit de ferramentas PaddleDetection e foi projetado para funcionar de forma eficiente dentro da estrutura de aprendizado profundo PaddlePaddle .

Autores: PaddlePaddle Autores
Organização:Baidu
Data: 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
Docs:PaddleDetection Documentação

Arquitetura e Funcionalidades

O PP-YOLOE+ utiliza uma espinha dorsal CSPRepResNet e uma cabeça de alinhamento de tarefas eficiente (ET-Head). Incorpora a atribuição dinâmica de etiquetas através da Aprendizagem de Alinhamento de Tarefas (TAL) e utiliza a Perda Varifocal para melhorar a qualidade da classificação de objectos. O modelo é optimizado especificamente para o motor de inferência PaddlePaddle , tirando partido da integração TensorRT para a implementação.

Pontos fortes e limitações

Enquanto o PP-YOLOE+ oferece uma precisão competitiva em parâmetros de referência como COCOenfrenta obstáculos de adoção devido à sua dependência da estrutura. A maior parte da comunidade de investigação mundial depende do PyTorchtornando a mudança para o PaddlePaddle uma fonte de fricção. Além disso, os modelos PP-YOLOE+ requerem geralmente contagens de parâmetros mais elevadas para corresponder à precisão de arquitecturas mais recentes como YOLO11, o que leva a um aumento dos custos computacionais durante o treino e a inferência.

Saiba mais sobre o PP-YOLOE+.

Análise de desempenho: Eficiência e velocidade

Uma comparação direta das métricas de desempenho revela que YOLO11 supera consistentemente o PP-YOLOE+ em termos de eficiência e velocidade, mantendo a precisão do estado da arte.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Observações críticas

  1. Domínio da eficiência: A eficiência dos parâmetros do YOLO11 é evidente. Por exemplo, o YOLO11x atinge um mAP correspondente de 54,7 em comparação com o PP-YOLOE+x, mas fá-lo com apenas 56,9M de parâmetros contra 98,42M. Isto implica que o YOLO11x é cerca de 42% mais pequeno, facilitando a implementação em dispositivos com limitações de armazenamento.
  2. Velocidade de inferência: Em cenários de implementação no mundo real, a velocidade é fundamental. O YOLO11n fornece um incrível tempo de inferência de 1,5 ms na GPU T4, significativamente mais rápido do que os 2,84 ms do PP-YOLOE+t comparável. Esta vantagem de velocidade permite um processamento com maior taxa de fotogramas em aplicações como veículos autónomos e robótica.
  3. DesempenhoCPU : A disponibilidade de benchmarks CPU optimizados para o YOLO11 realça a sua flexibilidade. A obtenção de 56,1 ms na CPU com o YOLO11n permite aplicações viáveis em tempo real, mesmo sem aceleração GPU dedicada, uma métrica frequentemente ausente ou menos optimizada nas estruturas da concorrência.

Casos de Uso no Mundo Real

As vantagens arquitectónicas do YOLO11 traduzem-se diretamente em benefícios para diversas indústrias.

  • Infraestrutura de cidade inteligente: O elevado débito do YOLO11 permite a monitorização do tráfego em tempo real e a análise do congestionamento em vários fluxos de câmaras utilizando menos servidores.
  • Fabrico industrial: Com uma precisão superior em latências mais baixas, YOLO11 destaca-se no controlo de qualidade e na deteção de defeitos em linhas de montagem de alta velocidade.
  • Análise de retalho: A capacidade do modelo para lidar eficazmente com a contagem de objectos e a geração de mapas de calor ajuda os retalhistas a otimizar a disposição das lojas e a gestão do inventário.
  • Imagiologia na área da saúde: A versatilidade para efetuar a segmentação ajuda na análise precisa de imagens médicas, como a identificação de tumores ou a análise de estruturas celulares.

Formação e integração do ecossistema

Um grande diferencial é a facilidade com que os desenvolvedores podem treinar e implantar modelos. O ecossistema Ultralytics foi criado para simplificar o percurso do utilizador.

Fluxo de trabalho simplificado

O treino de um modelo YOLO11 num conjunto de dados personalizado requer um código mínimo. A estrutura lida automaticamente com tarefas complexas como aumento de dados, evolução de hiperparâmetros e treinamento GPU .

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Em contraste, a utilização do PP-YOLOE+ envolve frequentemente a navegação nas complexidades do ecossistema PaddlePaddle , ficheiros de configuração e potenciais scripts de conversão se o pipeline de dados original for PyTorch.

Flexibilidade de implementação

Ultralytics fornece modos de exportação integrados para uma vasta gama de formatos, incluindo ONNX, OpenVINO, CoreML e TFLite. Isso garante que um modelo treinado uma vez possa ser implantado em qualquer lugar, desde um dispositivo de borda NVIDIA Jetson até um smartphone iOS ou uma API em nuvem.

Conclusão

Embora o PP-YOLOE+ continue a ser um modelo capaz no contexto do ecossistema da Baidu, Ultralytics YOLO11 destaca-se como a escolha superior para a comunidade de visão computacional mais ampla. A sua combinação de contagens de parâmetros significativamente mais baixas, velocidades de inferência mais rápidas e usabilidade PyTorch remove barreiras à entrada e acelera o tempo de colocação no mercado.

Para os programadores que procuram uma solução preparada para o futuro que equilibre o desempenho topo de gama com a facilidade de utilização, YOLO11 fornece uma plataforma robusta, versátil e altamente eficiente para a criação da próxima geração de aplicações de IA.

Explore Outros Modelos

Se estiver interessado em explorar outras arquitecturas no âmbito do ecossistema Ultralytics , considere estas comparações:


Comentários