YOLO vs. RTDETRv2: Equilíbrio entre Velocidade e Precisão do Transformador
A seleção da arquitetura ideal para a deteção de objectos envolve frequentemente a navegação no compromisso entre a latência da inferência e a precisão da deteção. Esta comparação técnica examina o YOLO, um detetor de alta velocidade optimizado pelo Alibaba Group, e o RTDETRv2, a segunda geração do Real-Time Detection Transformer da Baidu. Analisamos suas inovações arquitetônicas, benchmarks de desempenho e adequação de implantação para ajudá-lo a tomar decisões informadas para suas aplicações de visão computacional.
YOLO: Otimização para baixa latência
YOLO representa um passo significativo na evolução da YOLO concentrando-se fortemente na maximização da velocidade sem comprometer seriamente a precisão. Desenvolvida pelo Grupo Alibaba, utiliza técnicas avançadas de Pesquisa de Arquitetura Neural (NAS) para adaptar a estrutura da rede para obter eficiência.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
- Organização:Grupo Alibaba
- Data: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- Documentos:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Destaques arquitectónicos
A YOLO integra várias tecnologias inovadoras para simplificar a cadeia de deteção:
- Backbone alimentado por NAS: O modelo utiliza a Pesquisa de Arquitetura Neural (NAS) para descobrir automaticamente uma estrutura de backbone eficiente (MAE-NAS). Essa abordagem garante que a profundidade e a largura da rede sejam otimizadas para restrições específicas de hardware.
- RepGFPN Neck: Apresenta uma versão eficiente da Generalized Feature Pyramid Network (GFPN) conhecida como RepGFPN. Este componente melhora a fusão de caraterísticas em diferentes escalas, mantendo o controlo de baixa latência.
- ZeroHead: Um design simplificado da cabeça, denominado "ZeroHead", separa as tarefas de classificação e regressão, reduzindo a carga computacional das camadas de previsão finais.
- AlignedOTA: Para estabilidade do treino, o YOLO utiliza o AlignedOTA (Optimal Transport Assignment), uma estratégia de atribuição de etiquetas que alinha os objectivos de classificação e regressão para melhorar a convergência.
RTDETRv2: A evolução dos transformadores em tempo real
O RTDETRv2 baseia-se no sucesso do RT-DETR original, o primeiro detetor de objectos baseado em transformadores a atingir um desempenho em tempo real. Desenvolvido pela Baidu, o RTDETRv2 introduz um "saco de brindes" para melhorar a estabilidade e a precisão do treino sem incorrer em custos de inferência adicionais.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
- Organização:Baidu
- Data: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Documentos:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Destaques arquitectónicos
O RTDETRv2 aproveita os pontos fortes dos transformadores de visão, atenuando os seus tradicionais estrangulamentos de velocidade:
- Codificador híbrido: A arquitetura utiliza um codificador híbrido que processa caraterísticas multi-escala de forma eficiente, dissociando a interação intra-escala e a fusão multi-escala para poupar custos computacionais.
- Seleção de consultasIoU: Este mecanismo seleciona consultas de objectos iniciais de alta qualidade com base nas pontuações de Intersecção sobre UniãoIoU), levando a uma convergência mais rápida do treino.
- Configuração adaptável: O RTDETRv2 oferece configurações flexíveis para o descodificador e seleção de consultas, permitindo aos utilizadores ajustar o modelo para requisitos específicos de velocidade/precisão.
- Design sem âncoras: Tal como o seu antecessor, é totalmente livre de âncoras, eliminando a necessidade de afinação heurística da caixa de âncoras e Supressão Não MáximaNMS) durante o pós-processamento.
Comparação técnica: Desempenho e eficiência
A principal distinção entre estes dois modelos reside nas suas raízes arquitectónicas - CNN versus Transformer - e na forma como isso afecta o seu perfil de desempenho.
Análise métrica
A tabela abaixo descreve as principais métricas do conjunto de dadosCOCO . Enquanto o RTDETRv2 domina em termos de precisão médiamAP), o YOLO demonstra um rendimento superior (FPS) e contagens de parâmetros mais baixas para as suas variantes mais pequenas.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analisar as soluções de compromisso
O YOLO destaca-se em ambientes onde cada milissegundo conta, como a triagem industrial de alta frequência. A sua variante "Tiny" (t) é excecionalmente leve. Por outro lado, o RTDETRv2 oferece um limite máximo de precisão mais elevado, o que o torna preferível para cenas complexas em que a ausência de um objeto é crítica, como na navegação autónoma ou na vigilância detalhada.
Arquitetura vs. Aplicação no mundo real
Contexto global vs. caraterísticas locais: O mecanismo de atenção transformador do RTDETRv2 permite-lhe compreender melhor o contexto global do que o YOLO baseado na CNN. Isto resulta num melhor desempenho em cenas com muita gente ou quando os objectos estão ocultos. No entanto, esta atenção global tem o custo de um maior consumo de memória e de tempos de treino mais lentos.
Otimização de hardware: O backbone baseado em NAS do YOLO é altamente optimizado para inferência GPU , alcançando uma latência muito baixa. O RTDETRv2, embora em tempo real, geralmente requer um hardware mais potente para corresponder às taxas de quadros dos detectores YOLO.
A Vantagem Ultralytics: Por que escolher YOLO11?
Enquanto o YOLO e o RTDETRv2 oferecem benefícios especializados, Ultralytics YOLO11 destaca-se como a solução mais equilibrada e fácil de desenvolver para a grande maioria das aplicações do mundo real.
Experiência e ecossistema de desenvolvimento superiores
Um dos desafios mais significativos dos modelos académicos como o YOLO ou o RTDETRv2 é a integração. Ultralytics resolve este problema com um ecossistema robusto:
- Facilidade de uso: Com uma API Python e CLI unificadas, pode treinar, validar e implementar modelos com apenas algumas linhas de código.
- Ecossistema bem mantido: Os modelos Ultralytics são suportados por um desenvolvimento ativo, documentação extensa e uma grande comunidade. Isto assegura a compatibilidade com as bibliotecas de hardware e software mais recentes.
- Eficiência de treinamento: YOLO11 foi concebido para treinar mais rapidamente e requer significativamente menos memória GPU (VRAM) do que os modelos baseados em transformadores como o RTDETRv2. Isto torna a IA de alto desempenho acessível mesmo em hardware de nível de consumidor.
Versatilidade inigualável
Ao contrário do YOLO e do RTDETRv2, que se centram principalmente na deteção de caixas delimitadoras, YOLO11 suporta nativamente uma vasta gama de tarefas de visão computacional:
Equilíbrio de desempenho
YOLO11 atinge uma exatidão de ponta que rivaliza ou excede o RTDETRv2 em muitos parâmetros de referência, mantendo a velocidade de inferência e a eficiência caraterísticas da família YOLO .
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Conclusão
A escolha entre YOLO e RTDETRv2 depende dos seus condicionalismos específicos:
- Escolha YOLO se a sua principal restrição for a latência e se estiver a implementar em dispositivos de extremidade em que a contagem mínima de parâmetros é fundamental.
- Escolha o RTDETRv2 se necessitar da maior precisão possível em cenas complexas e tiver o orçamento computacional para suportar uma arquitetura de transformador.
No entanto, para uma solução holística que combina alto desempenho, facilidade de utilização e capacidade multitarefa, Ultralytics YOLO11 continua a ser a escolha recomendada. O seu menor consumo de memória durante a formação, combinado com um ecossistema maduro, acelera a passagem do protótipo à produção.
Explore Outros Modelos
Para compreender melhor o panorama da deteção de objectos, explore estas comparações: