PP-YOLOE+ vs. RTDETRv2: Comparação de deteção de objetos por aprendizagem profunda
A evolução das arquiteturas de detecção de objetos tem sido marcada por uma rivalidade acirrada entre as redes neurais convolucionais (CNNs) e os modelos baseados em transformadores. Dois marcos significativos nessa linha do tempo são o PP-YOLOE+, um detector refinado baseado em CNN do PaddlePaddle , e o RTDETRv2, um transformador de detecção em tempo real de última geração.
Esta comparação técnica avalia as suas arquiteturas, métricas de desempenho e adequação de implementação para ajudar investigadores e engenheiros a selecionar o modelo ideal para as suas aplicações específicas de visão computacional.
Resumo Executivo
O PP-YOLOE+ representa o auge daYOLO , com foco no aperfeiçoamento de mecanismos sem âncora e estratégias de atribuição de rótulos dentro de uma estrutura CNN pura. Ele se destaca em ambientes profundamente integrados com PaddlePaddle da Baidu, mas pode enfrentar atritos ao exportar para outros ecossistemas.
O RTDETRv2 (Real-Time Detection Transformer v2) vai além, introduzindo um descodificador flexível e ajustável e otimizando o codificador híbrido. Ele elimina com sucesso a necessidade de supressão não máxima (NMS), um gargalo comum no pós-processamento, aproveitando os recursos de atenção global dos transformadores.
No entanto, para os programadores que procuram uma solução unificada que combine a velocidade das CNNs com a conveniência dos transformadores NMS — sem a enorme sobrecarga computacional —,Ultralytics oferece uma alternativa superior. Com o seu design nativo de ponta a ponta e CPU até 43% mais rápida, o YOLO26 preenche a lacuna entre servidores de alto desempenho e dispositivos de ponta.
PP-YOLOE+: A Potência CNN Sem Âncoras
Lançado em 2022, o PP-YOLOE+ é uma versão atualizada do PP-YOLOE, incorporando uma estrutura robusta e atribuição dinâmica de rótulos para alcançar precisão competitiva.
Autores: PaddlePaddle
Organização:Baidu
Data: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection
Destaques Arquiteturais
O PP-YOLOE+ utiliza o CSPRepResStage, uma estrutura que combina os benefícios do fluxo gradiente do CSPNet com as técnicas de reparametrização observadas no RepVGG. Isso permite que o modelo tenha dinâmicas de treino complexas que se reduzem a convoluções simples durante a inferência, acelerando a implementação.
O modelo emprega uma cabeça sem âncora com uma estratégia de aprendizagem de alinhamento de tarefas (TAL). Ao contrário dos métodos mais antigos baseados em âncoras, que dependem de caixas predefinidas, o PP-YOLOE+ prevê o centro dos objetos e as suas distâncias em relação às bordas da caixa delimitadora. Isso simplifica a pesquisa de hiperparâmetros e melhora a generalização em diversos conjuntos de dados, como COCO.
Restrições herdadas
Embora o PP-YOLOE+ ofereça um desempenho robusto, a sua forte dependência da PaddlePaddle pode complicar os pipelines de implementação que padronizam o PyTorch ONNX. Os utilizadores frequentemente precisam de conversores especializados para transferir modelos para plataformas de ponta.
RTDETRv2: A Evolução do Transformer
O RTDETRv2 baseia-se no sucesso do RT-DETR original, com o objetivo de provar que os transformadores podem superar os YOLOs em cenários em tempo real. Ele resolve o alto custo computacional dos Vision Transformers (ViTs) padrão usando um codificador híbrido que processa recursos multiescala de forma eficiente.
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 17/04/2023 (Original), 24/07/2024 (Lançamento da v2)
Arxiv:2304.08069
GitHub:RT-DETR
Destaques Arquiteturais
A principal inovação do RTDETRv2 é o seu codificador híbrido e a seleção de consultasIoU. Os transformadores tradicionais enfrentam dificuldades com a complexidade quadrática dos mecanismos de atenção ao processar mapas de características de alta resolução. O RTDETRv2 mitiga isso ao dissociar a interação intraescala e a fusão entre escalas, reduzindo significativamente o uso de memória.
Fundamentalmente, o RTDETRv2 é um detetor de ponta a ponta. Ele usa um Hungarian Matcher durante o treinamento para atribuir previsões à verdade fundamental de forma individual. Isso significa que a saída do modelo não requer NMS , evitando picos de latência e ajuste de parâmetros associados aos YOLO tradicionais.
Comparação de Desempenho
A tabela a seguir compara o desempenho das duas arquiteturas. Enquanto o PP-YOLOE+ mostra competência em contagens de parâmetros mais baixas, o RTDETRv2 demonstra escalabilidade superior em tamanhos maiores, embora com demandas computacionais mais elevadas (FLOPs).
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
A Vantagem Ultralytics: Por Que Escolher o YOLO26?
Embora o RTDETRv2 tenha introduzido os benefícios da detecção NMS, isso teve como custo o uso de blocos transformadores pesados, que muitas vezes são lentos para treinar e difíceis de implementar emGPU . Ultralytics revoluciona esse cenário ao alcançar a detecção NMS de ponta a ponta usando uma arquitetura CNN pura.
Ao adotar uma estratégia de atribuição dupla consistente (CDA) durante o treinamento, o YOLO26 aprende a suprimir caixas duplicadas internamente. Isso elimina a sobrecarga de inferência do NMS incorrer nas penalidades de latência dos transformadores.
Principais vantagens do YOLO26
- Otimizador MuSGD: Inspirado em inovações de treinamento LLM, como o Kimi K2 da Moonshot AI, o otimizador MuSGD combina SGD Muon para uma convergência mais rápida e um treinamento estável, um recurso exclusivo da geração YOLO26.
- Eficiência otimizada para bordas: com a remoção da perda focal de distribuição (DFL) e das complexas camadas de atenção, o YOLO26 alcança CPU até 43% mais rápida em comparação com as iterações anteriores. Isso o torna ideal para execução no Raspberry Pi ou em dispositivos móveis, onde o RTDETR tem dificuldades.
- Versatilidade de tarefas: Ao contrário do PP-YOLOE+, que é principalmente um detetor, o YOLO26 suporta nativamente a estimativa de pose, a segmentação de instâncias e o OBB numa única biblioteca.
- ProgLoss + STAL: Novas funções de perda melhoram a deteção de pequenos objetos — uma fraqueza crítica em muitos modelos de transformadores — tornando o YOLO26 superior para a análise de imagens aéreas.
Fluxo de trabalho simplificado com Ultralytics
Esqueça os ficheiros de configuração complexos. Pode treinar, versionar e implementar modelos YOLO26 diretamente através da Ultralytics . O ecossistema trata de tudo, desde a anotação do conjunto de dados até à exportação com um clique para TensorRT, CoreML e TFLite.
Exemplo de Código: Primeiros Passos com YOLO26
Executar o modelo mais recente e avançado é incrivelmente simples com aPython Ultralytics :
from ultralytics import YOLO
# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for simplified deployment
model.export(format="onnx")
Casos de Uso Ideais
Quando utilizar PP-YOLOE+
- Sistemas Paddle legados: se a sua infraestrutura existente for totalmente construída no PaddlePaddle da Baidu, o PP-YOLOE+ oferece um caminho de atualização nativo sem alterar as estruturas.
- CNNs do lado do servidor: para cenários em que GPU é abundante, mas o suporte ao transformador (por exemplo, TensorRT para Multi-Head Attention) é insuficiente no ambiente de implementação.
Quando usar o RTDETRv2
- Cenas com muita gente: O mecanismo de atenção global dos transformadores ajuda em cenas com muita oclusão, onde as CNNs podem ter dificuldade em separar objetos sobrepostos.
- Hardware fixo: Adequado para GPUs de ponta (como NVIDIA ou A100), onde a sobrecarga da multiplicação matricial dos transformadores é insignificante em comparação com os ganhos de precisão.
Quando usar Ultralytics YOLO26
- IA de ponta e móvel: O baixo consumo de memória e CPU alta CPU tornam o YOLO26 a escolha definitiva para Android ou sistemas incorporados.
- Análise de vídeo em tempo real: para aplicações que exigem alta taxa de quadros por segundo (FPS), como monitoramento de tráfego ou linhas de produção, o design NMS garante latência determinística.
- Investigação e prototipagem rápida: A extensa documentação e o apoio ativo da comunidade permitem aos investigadores iterar rapidamente, aproveitando pesos pré-treinados para uma variedade de tarefas além da simples deteção de caixas delimitadoras.
Conclusão
Tanto o PP-YOLOE+ quanto o RTDETRv2 contribuíram significativamente para o campo da visão computacional. O PP-YOLOE+ ultrapassou os limites das CNNs dentro do ecossistema Paddle, enquanto o RTDETRv2 demonstrou a viabilidade dos transformadores para tarefas em tempo real. No entanto, Ultralytics representa a síntese desses avanços: oferecendo a simplicidade arquitetónica e a velocidade de uma CNN com a elegância de ponta a ponta e NMS de um transformador. Combinado com o robusto Ultralytics , ele se destaca como a ferramenta mais versátil para o desenvolvimento moderno de IA.