YOLO . RTDETRv2: Arquiteturas para detecção em tempo real
Selecionar a arquitetura ideal para detecção de objetos é uma decisão crucial que afeta tudo, desde a latência de inferência até os custos de implementação. Dois modelos inovadores que desafiaram o status quo são YOLO, da Alibaba, e o RTDETRv2, da Baidu. EnquantoYOLO na pesquisa de arquitetura neural (NAS) e na reparametrização eficiente, o RTDETRv2 amplia os limites dos transformadores em tempo real, refinando o paradigma DETR.
Este guia fornece uma análise técnica aprofundada das suas arquiteturas, métricas de desempenho e metodologias de treino para ajudá-lo a determinar qual modelo se adapta aos seus requisitos específicos de visão computacional. Também exploramos como a próxima geração Ultralytics , sintetiza o melhor dessas abordagens em uma estrutura unificada e fácil de usar.
Visão Geral do DAMO-YOLO
YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) foi desenvolvido pelo Alibaba Group para atender às necessidades específicas de aplicações industriais onde baixa latência e alta precisão são imprescindíveis. Ele introduz um conjunto de tecnologias projetadas para comprimir o modelo sem sacrificar o desempenho.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização: Alibaba Group
Data: 23 de novembro de 2022
Arxiv:Artigo DAMO-YOLO
GitHub:tinyvision/DAMO-YOLO
Principais Inovações Arquitetônicas
YOLO através de vários «pacotes de brindes» concebidos para aumentar a eficiência:
- Pesquisa de Arquitetura Neural (NAS): Ao contrário dos modelos com backbones projetados manualmente,YOLO NAS para descobrir automaticamente a estrutura mais eficiente para o backbone (MAE-NAS), otimizando o equilíbrio entre operações de ponto flutuante (FLOPs) e precisão.
- RepGFPN eficiente: utiliza uma Rede Piramidal de Características generalizada (RepGFPN) que aproveita a reparametrização. Isso permite que estruturas complexas utilizadas durante o treinamento sejam fundidas em convoluções mais simples e rápidas durante a inferência.
- ZeroHead: Um cabeçote de detecção leve que minimiza a carga computacional normalmente associada às camadas finais de previsão.
- AlignedOTA: Uma estratégia otimizada de atribuição de rótulos que resolve problemas de desalinhamento entre tarefas de classificação e regressão durante o treinamento.
Visão Geral do RTDETRv2
O RTDETRv2 (Real-Time Detection Transformer v2) baseia-se no sucesso do RT-DETR original, o primeiro detetor baseado em transformador a rivalizar verdadeiramente com YOLO em termos de velocidade. Desenvolvido pela Baidu, tem como objetivo eliminar a necessidade de pós-processamento de supressão não máxima (NMS), melhorando simultaneamente a velocidade de convergência e a flexibilidade.
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 17 de abril de 2023 (v1), julho de 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR
Principais Inovações Arquitetônicas
O RTDETRv2 aperfeiçoa a arquitetura do transformador para tarefas práticas de visão:
- Codificador híbrido: Combina uma estrutura CNN com um codificador híbrido eficiente que separa a interação intra-escala e a fusão entre escalas, resolvendo o elevado custo computacional dos mecanismos padrão de autoatenção.
- Seleção de consultasIoU: este mecanismo seleciona consultas de objetos iniciais de alta qualidade com base em pontuações de Intersection over Union (IoU), levando a uma convergência de treino mais rápida.
- Implementação flexível: Ao contrário do seu antecessor, o RTDETRv2 suporta formatos de entrada flexíveis e otimização melhorada para TensorRT, tornando-o mais viável para diversos back-ends de hardware.
- NMS: Ao prever um conjunto de objetos diretamente, elimina a variação de latência causada pelo NMS, uma vantagem crítica para a análise de vídeo em tempo real.
Comparação de Desempenho
Ao comparar essas arquiteturas, é fundamental observar o equilíbrio entre a precisão média (mAP) e a velocidade de inferência em diferentes configurações de hardware.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Análise
- Precisão: O RTDETRv2 geralmente alcança mAP mais altas, particularmente nas variantes média e grande. O modelo «X» atinge impressionantes 54,3% mAP, superando a maiorYOLO . Isso o torna adequado para aplicações que exigem detecção de alta fidelidade, como imagens médicas ou detecção de defeitos.
- Velocidade:YOLO em termos de rendimento bruto no TensorRT . A sua arquitetura CNN reparametrizada é inerentemente mais compatível com o hardware do que os blocos transformadores no RTDETRv2, resultando em menor latência para as variantes "Tiny" e "Small".
- Eficiência dos parâmetros:YOLO a ter menos parâmetros para níveis de desempenho semelhantes, o que pode ser vantajoso para dispositivos de ponta com restrições de armazenamento.
A Vantagem Ultralytics: Por Que Escolher o YOLO26?
EmboraYOLO o RTDETRv2 ofereçam pontos fortes especializados, os programadores frequentemente enfrentam desafios com pipelines de treinamento complexos, suporte limitado à plataforma e documentação fragmentada. Ultralytics resolve esses pontos críticos ao integrar inovações de ponta em um ecossistema contínuo e centrado no utilizador.
Excelência integrada
O YOLO26 unifica a velocidade das CNNs com a simplicidade ponta a ponta dos transformadores, oferecendo um design NMS que simplifica a implementação e supera os antecessores em GPU CPU GPU .
1. Experiência do utilizador e ecossistema superiores
A marca registrada dos Ultralytics é facilidade de uso. Embora os repositórios de pesquisa frequentemente exijam configurações de ambiente complexas, o YOLO26 pode ser instalado e executado em segundos através do ultralytics pacote. O Plataforma Ultralytics melhora ainda mais isso, fornecendo gestão de conjuntos de dados baseada na web, formação com um clique e implementação automatizada.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)
2. Arquitetura completa NMS
O YOLO26 adota um design nativo de ponta a ponta NMS, um recurso que compartilha com o RTDETRv2, mas implementa dentro de uma estrutura CNN altamente otimizada. Essa inovação elimina a necessidade da supressão não máxima, um gargalo comum em pipelines de implementação. Ao remover NMS, o YOLO26 garante tempos de inferência consistentes e simplifica a integração com ferramentas como o OpenVINO e CoreML.
3. Eficiência e estabilidade do treino
O YOLO26 apresenta o MuSGD Optimizer, um híbrido de SGD Muon (inspirado no treinamento LLM), que traz estabilidade sem precedentes para tarefas de visão. Isso permite uma convergência mais rápida e um ajuste reduzido de hiperparâmetros em comparação com os cronogramas complexos frequentemente exigidos por modelos baseados em transformadores, como o RTDETRv2.
4. Otimização Edge-First
Para programadores que fazem implementações em dispositivos de ponta, como o Raspberry Pi ou NVIDIA , o YOLO26 oferece CPU até 43% mais rápida. A remoção da Distribuição de Perda Focal (DFL) simplifica ainda mais o gráfico do modelo para exportação, garantindo melhor compatibilidade com aceleradores de baixa potência em comparação com os mecanismos de atenção de computação pesada em transformadores.
5. Versatilidade em todas as tarefas
Ao contrário de muitos detetores especializados, o YOLO26 é um verdadeiro aprendizado multitarefa. Ele suporta deteção de objetos, segmentação de instâncias, estimativa de pose, classificação e tarefas de Oriented Bounding Box (OBB) dentro de uma única base de código.
Recomendações de Casos de Uso
- EscolhaYOLO : estiver a trabalhar exclusivamente em tarefas de inspeção industrial, nas quais TensorRT em NVIDIA específico é o único objetivo de implementação, e precisar da menor latência possível para tarefas de deteção simples.
- Escolha RTDETRv2 se: Precisar de deteção de alta precisão para cenas complexas com oclusão e tiver acesso a GPUs potentes, onde o custo computacional dos transformadores é aceitável. Também é uma boa opção se a inferência NMS for um requisito rigoroso, mas preferir uma arquitetura de transformador.
- Escolha Ultralytics se: Você deseja o melhor desempenho geral com precisão de ponta, velocidade NMS e a capacidade de implantar facilmente em CPU, GPU e dispositivos móveis. Sua documentação robusta, suporte ativo da comunidade e integração com a Ultralytics tornam-no a escolha mais preparada para o futuro para sistemas de produção.
Conclusão
O panorama da deteção de objetos é rico em opções. YOLO demonstra o poder da Pesquisa de Arquitetura Neural para eficiência, enquanto o RTDETRv2 mostra o potencial dos transformadores em tempo real. No entanto, Ultralytics se destaca por sintetizar esses avanços, oferecendo inferência NMS, velocidade otimizada para bordas e estabilidade de treinamento inspirada em LLM, tudo envolto no ecossistema mais amigável para desenvolvedores do setor.
Para aqueles que estão prontos para iniciar o seu próximo projeto, explorar a documentação do YOLO26 é o primeiro passo recomendado para alcançar resultados SOTA com o mínimo de atrito.
Leitura Adicional
- Saiba mais sobre as métricas YOLO
- Explore conjuntos de dados de deteção de objetos
- Guia para exportação e implementação de modelos
- Comparação: YOLO26 vs. YOLOv10