YOLOv6.0 vs RTDETRv2: Equilíbrio entre velocidade industrial e precisão do transformador
A seleção da arquitetura ideal de deteção de objectos envolve frequentemente um compromisso entre a latência da inferência e a precisão da deteção. Esta comparação técnica examina duas abordagens distintas a este desafio: YOLOv6.0, um modelo baseado em CNN concebido pela Meituan para a velocidade industrial, e RTDETRv2, uma arquitetura Vision Transformer (ViT) da Baidu concebida para trazer a precisão do transformador para aplicações em tempo real.
YOLOv6.0
Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, e Xiangxiang Chu
Organização: Meituan
Data: 2023-01-13
Arxiv: YOLOv6 v3.0: A Full-Scale Reloading
GitHub: YOLOv6
Docs: DocumentaçãoUltralytics YOLOv6
YOLOv6.0 representa uma evolução significativa na linhagem de detectores de fase única, especificamente concebida para aplicações industriais em que a eficiência do hardware é fundamental. Introduz um "Full-Scale Reloading" da arquitetura, incorporando estratégias avançadas de fusão e formação de caraterísticas para maximizar o rendimento em GPUs.
Arquitetura e Principais Características
A arquitetura YOLOv6.0 centra-se num design amigo do hardware. Utiliza um eficiente Backbone de Reparametrização (RepBackbone) que permite que o modelo tenha capacidades complexas de extração de caraterísticas durante o treino, enquanto colapsa numa estrutura simplificada para inferência. As principais inovações arquitectónicas incluem:
- Concatenação bidirecional (BiC): Um módulo no pescoço que melhora a precisão da fusão de caraterísticas sem uma grande penalização computacional.
- Treinamento auxiliado por âncoras (AAT): Uma estratégia que combina os benefícios dos paradigmas com e sem âncora durante a fase de treinamento para estabilizar a convergência.
- Auto-destilação: A estrutura utiliza um ciclo de formação professor-aluno em que o modelo aprende com as suas próprias previsões, aumentando a precisão sem aumentar o tamanho do modelo.
Pontos Fortes
- Eficiência industrial: O modelo é explicitamente optimizado para TensorRT proporcionando uma latência excecionalmente baixa em GPUs NVIDIA .
- Baixa latência na extremidade: Com variantes "Lite" específicas, tem um bom desempenho em dispositivos CPU móveis, tornando-o adequado para scanners industriais portáteis.
- Suporte de quantização: Dispõe de um suporte robusto para Quantization Aware Training (QAT), evitando perdas significativas de exatidão quando se passa para a precisão INT8.
Fraquezas
- Limitação da tarefa: YOLOv6 foi concebido principalmente para a deteção de caixas delimitadoras. Não tem suporte nativo para tarefas complexas, como a estimativa de pose ou a deteção de caixas delimitadoras orientadas (OBB), encontradas em estruturas mais versáteis.
- Complexidade do treinamento: A dependência da auto-destilação e das etapas de reparametrização especializadas pode tornar o pipeline de treinamento mais frágil e mais difícil de personalizar em comparação com os modelos YOLO padrão.
Casos de Uso Ideais
- Fabrico a alta velocidade: Deteção de defeitos em correias transportadoras de movimento rápido onde a latência de milissegundos é crítica.
- Robótica incorporada: Sistemas de navegação em plataformas como o NVIDIA Jetson, onde os recursos de computação são estritamente orçamentados.
RTDETRv2
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 2023-04-17 (Original), 2024-07-24 (v2)
Arxiv: RT-DETRv2: Linha de base melhorada com Bag-of-Freebies
GitHub: RT-DETR
Docs: DocumentaçãoRT-DETR Ultralytics
O RTDETRv2 (Real-Time Detection Transformer v2) desafia o domínio das CNNs, provando que os transformadores podem atingir velocidades em tempo real. Baseia-se no paradigma DETR (Transformador de Deteção), mas aborda a convergência lenta e os elevados custos computacionais tipicamente associados aos mecanismos de atenção.
Arquitetura e Principais Características
O RTDETRv2 utiliza um codificador híbrido que processa eficazmente as caraterísticas multi-escala. Ao contrário dos transformadores tradicionais que processam todos os fragmentos de imagem de forma igual, o RTDETRv2 concentra a atenção em áreas relevantes no início do pipeline.
- Codificador híbrido eficiente: Separa a interação intra-escala e a fusão inter-escala para reduzir a sobrecarga computacional.
- Seleção de consultasIoU: Seleciona consultas de objectos iniciais de alta qualidade a partir da saída do codificador, melhorando a inicialização do descodificador e acelerando a convergência.
- Design sem âncoras: Elimina a necessidade de pós-processamento de Supressão Não MáximaNMS), simplificando o pipeline de implantação e reduzindo a variabilidade de latência em cenas com muita gente.
Pontos Fortes
- Consciência global do contexto: O mecanismo de auto-atenção permite que o modelo "veja" toda a imagem de uma só vez, o que leva a uma melhor deteção de objectos ocultos em comparação com as CNNs que se baseiam em campos receptivos locais.
- Teto de alta precisão: Atinge consistentemente valores mais elevados de mAP mais elevadas no conjunto de dadosCOCO para uma determinada escala de modelo, em comparação com muitas outras CNN.
- NMS: A ausência de NMS torna o tempo de inferência mais determinístico, o que constitui uma vantagem significativa para os sistemas em tempo real.
Fraquezas
- Intensidade da memória: Os transformadores requerem significativamente mais VRAM durante o treino e a inferência devido à complexidade quadrática das matrizes de atenção (embora o RTDETR optimize este aspeto).
- Fome de dados: Os transformadores de visão requerem geralmente conjuntos de dados maiores e programas de treino mais longos para convergirem totalmente, em comparação com CNNs como YOLOv6.
Casos de Uso Ideais
- Cenas de trânsito complexas: Deteção de peões e veículos em ambientes densos e caóticos onde a oclusão é comum.
- Condução autónoma: Aplicações que exigem uma perceção de elevada fiabilidade em que o custo de uma deteção falhada compensa o custo de requisitos de hardware ligeiramente mais elevados.
Comparação de Desempenho
A tabela seguinte compara o desempenho do YOLOv6.0 e do RTDETRv2. Enquanto o RTDETRv2 ultrapassa o limite da exatidão, YOLOv6.0 mantém uma vantagem na velocidade de inferência bruta, particularmente na escala "Nano".
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Análise
- Velocidade vs. Precisão: O
YOLOv6-3.0né incrivelmente leve (1,17 ms de inferência), tornando-o o rei indiscutível para hardware extremamente limitado. No entanto, se a prioridade for a precisão,RTDETRv2-soferece um mAP significativamente mais elevado (48,1) do queYOLOv6-3.0s(45,0), embora com quase o dobro do tempo de inferência (5,03 ms vs 2,66 ms). - Comportamento de escala: À medida que o tamanho do modelo aumenta, a diferença diminui.
RTDETRv2-l(53,4 mAP) tem um desempenho superior aYOLOv6-3.0l(52,8 mAP) com menos parâmetros (42M vs 59,6M), o que demonstra a eficiência dos parâmetros da arquitetura do transformador, embora os FLOP sejam comparáveis. - Implicações para o hardware: A vantagem do YOLOv6 reside na sua estrutura CNN pura, que se adapta muito diretamente aos aceleradores de hardware. O RTDETRv2 requer hardware que possa lidar eficientemente com multiplicações de matrizes e operações de atenção para atingir a sua velocidade teórica.
Considerações sobre a implantação
Ao implantar em dispositivos de ponta, lembre-se de que os "Parâmetros" nem sempre se correlacionam perfeitamente com a velocidade. Embora o RTDETRv2 possa ter menos parâmetros em algumas configurações, os seus padrões de acesso à memória (atenção) podem ser mais lentos em hardware mais antigo em comparação com as convoluções altamente optimizadas do YOLOv6.
Metodologias de Treinamento
O panorama da formação para estes dois modelos difere significativamente, afectando os recursos necessários para o desenvolvimento.
YOLOv6.0 segue as práticas padrão de aprendizagem profunda para CNNs. Beneficia de calendários de formação mais curtos (normalmente 300-400 épocas) e de um menor consumo de memória GPU . Técnicas como a auto-destilação são tratadas internamente, mas acrescentam uma camada de complexidade ao cálculo da função de perda.
O RTDETRv2, por ser baseado em transformadores, geralmente exige mais CUDA durante o treino. A complexidade quadrática do mecanismo de atenção em relação ao tamanho da imagem significa que os tamanhos dos lotes precisam ser reduzidos ou que é necessário utilizar GPUs mais potentes. Além disso, os transformadores beneficiam frequentemente de horizontes de formação mais longos para aprenderem plenamente as relações espaciais sem preconceitos indutivos.
A vantagem Ultralytics
Embora tanto YOLOv6 como o RTDETR ofereçam caraterísticas atractivas para nichos específicos, Ultralytics YOLO11 oferece uma solução unificada que equilibra o melhor dos dois mundos. Integra a eficiência das CNNs com refinamentos arquitectónicos modernos que rivalizam com a precisão do transformador, tudo num ecossistema concebido para a produtividade do programador.
Porquê escolher os modelos Ultralytics ?
- Facilidade de uso: Ultralytics fornece uma API Pythonic que abstrai as complexidades da formação e da implementação. É possível treinar um modelo de última geração em três linhas de código.
- Equilíbrio de desempenho: YOLO11 foi concebido para oferecer um equilíbrio ótimo. Fornece velocidades de inferência em tempo real comparáveis às do YOLOv6 , ao mesmo tempo que atinge níveis de precisão que desafiam o RTDETR, sem a sobrecarga massiva de memória dos transformadores.
- Versatilidade: Ao contrário do YOLOv6 (apenas deteção), os modelos Ultralytics suportam nativamente a segmentação de instâncias, a estimativa de pose, a classificação e a deteção de caixas delimitadoras orientadas (OBB).
- Ecossistema bem mantido: Com actualizações frequentes, documentação extensa e suporte da comunidade, nunca é deixado sozinho a depurar.
- Eficiência de treinamento: Os modelos Ultralytics são conhecidos pelos seus pipelines de formação eficientes, permitindo uma iteração rápida mesmo em hardware modesto.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with a single command
results = model("path/to/image.jpg")
Conclusão
Tanto YOLOv6.0 como o RTDETRv2 são realizações impressionantes no domínio da visão por computador. YOLOv6.0 é a escolha pragmática para pipelines estritamente industriais em que o hardware é fixo e a velocidade é a única métrica importante. O RTDETRv2 é uma excelente escolha para investigação e aplicações topo de gama em que a precisão em cenas complexas é crítica e os recursos de hardware são abundantes.
No entanto, para a grande maioria das aplicações do mundo real, Ultralytics YOLO11 continua a ser a escolha superior. Ele oferece um "ponto ideal" de desempenho, versatilidade e facilidade de uso que acelera a jornada do conceito à produção. Quer se trate de um investigador que necessita de experiências rápidas ou de um engenheiro que está a implementar em milhares de dispositivos de ponta, o ecossistema Ultralytics fornece as ferramentas para garantir o sucesso.
Explore Outros Modelos
Se estiver interessado em mais comparações, explore estes recursos na documentação do Ultralytics :