Ir para o conteúdo

YOLOv6.0 vs RTDETRv2: Equilíbrio entre velocidade industrial e precisão do transformador

A seleção da arquitetura ideal de deteção de objectos envolve frequentemente um compromisso entre a latência da inferência e a precisão da deteção. Esta comparação técnica examina duas abordagens distintas a este desafio: YOLOv6.0, um modelo baseado em CNN concebido pela Meituan para a velocidade industrial, e RTDETRv2, uma arquitetura Vision Transformer (ViT) da Baidu concebida para trazer a precisão do transformador para aplicações em tempo real.

YOLOv6.0

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, e Xiangxiang Chu
Organização: Meituan
Data: 2023-01-13
Arxiv: YOLOv6 v3.0: A Full-Scale Reloading
GitHub: YOLOv6
Docs: DocumentaçãoUltralytics YOLOv6

YOLOv6.0 representa uma evolução significativa na linhagem de detectores de fase única, especificamente concebida para aplicações industriais em que a eficiência do hardware é fundamental. Introduz um "Full-Scale Reloading" da arquitetura, incorporando estratégias avançadas de fusão e formação de caraterísticas para maximizar o rendimento em GPUs.

Arquitetura e Principais Características

A arquitetura YOLOv6.0 centra-se num design amigo do hardware. Utiliza um eficiente Backbone de Reparametrização (RepBackbone) que permite que o modelo tenha capacidades complexas de extração de caraterísticas durante o treino, enquanto colapsa numa estrutura simplificada para inferência. As principais inovações arquitectónicas incluem:

  • Concatenação bidirecional (BiC): Um módulo no pescoço que melhora a precisão da fusão de caraterísticas sem uma grande penalização computacional.
  • Treinamento auxiliado por âncoras (AAT): Uma estratégia que combina os benefícios dos paradigmas com e sem âncora durante a fase de treinamento para estabilizar a convergência.
  • Auto-destilação: A estrutura utiliza um ciclo de formação professor-aluno em que o modelo aprende com as suas próprias previsões, aumentando a precisão sem aumentar o tamanho do modelo.

Pontos Fortes

  • Eficiência industrial: O modelo é explicitamente optimizado para TensorRT proporcionando uma latência excecionalmente baixa em GPUs NVIDIA .
  • Baixa latência na extremidade: Com variantes "Lite" específicas, tem um bom desempenho em dispositivos CPU móveis, tornando-o adequado para scanners industriais portáteis.
  • Suporte de quantização: Dispõe de um suporte robusto para Quantization Aware Training (QAT), evitando perdas significativas de exatidão quando se passa para a precisão INT8.

Fraquezas

  • Limitação da tarefa: YOLOv6 foi concebido principalmente para a deteção de caixas delimitadoras. Não tem suporte nativo para tarefas complexas, como a estimativa de pose ou a deteção de caixas delimitadoras orientadas (OBB), encontradas em estruturas mais versáteis.
  • Complexidade do treinamento: A dependência da auto-destilação e das etapas de reparametrização especializadas pode tornar o pipeline de treinamento mais frágil e mais difícil de personalizar em comparação com os modelos YOLO padrão.

Casos de Uso Ideais

  • Fabrico a alta velocidade: Deteção de defeitos em correias transportadoras de movimento rápido onde a latência de milissegundos é crítica.
  • Robótica incorporada: Sistemas de navegação em plataformas como o NVIDIA Jetson, onde os recursos de computação são estritamente orçamentados.

Saiba mais sobre o YOLOv6.0

RTDETRv2

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 2023-04-17 (Original), 2024-07-24 (v2)
Arxiv: RT-DETRv2: Linha de base melhorada com Bag-of-Freebies
GitHub: RT-DETR
Docs: DocumentaçãoRT-DETR Ultralytics

O RTDETRv2 (Real-Time Detection Transformer v2) desafia o domínio das CNNs, provando que os transformadores podem atingir velocidades em tempo real. Baseia-se no paradigma DETR (Transformador de Deteção), mas aborda a convergência lenta e os elevados custos computacionais tipicamente associados aos mecanismos de atenção.

Arquitetura e Principais Características

O RTDETRv2 utiliza um codificador híbrido que processa eficazmente as caraterísticas multi-escala. Ao contrário dos transformadores tradicionais que processam todos os fragmentos de imagem de forma igual, o RTDETRv2 concentra a atenção em áreas relevantes no início do pipeline.

  • Codificador híbrido eficiente: Separa a interação intra-escala e a fusão inter-escala para reduzir a sobrecarga computacional.
  • Seleção de consultasIoU: Seleciona consultas de objectos iniciais de alta qualidade a partir da saída do codificador, melhorando a inicialização do descodificador e acelerando a convergência.
  • Design sem âncoras: Elimina a necessidade de pós-processamento de Supressão Não MáximaNMS), simplificando o pipeline de implantação e reduzindo a variabilidade de latência em cenas com muita gente.

Pontos Fortes

  • Consciência global do contexto: O mecanismo de auto-atenção permite que o modelo "veja" toda a imagem de uma só vez, o que leva a uma melhor deteção de objectos ocultos em comparação com as CNNs que se baseiam em campos receptivos locais.
  • Teto de alta precisão: Atinge consistentemente valores mais elevados de mAP mais elevadas no conjunto de dadosCOCO para uma determinada escala de modelo, em comparação com muitas outras CNN.
  • NMS: A ausência de NMS torna o tempo de inferência mais determinístico, o que constitui uma vantagem significativa para os sistemas em tempo real.

Fraquezas

  • Intensidade da memória: Os transformadores requerem significativamente mais VRAM durante o treino e a inferência devido à complexidade quadrática das matrizes de atenção (embora o RTDETR optimize este aspeto).
  • Fome de dados: Os transformadores de visão requerem geralmente conjuntos de dados maiores e programas de treino mais longos para convergirem totalmente, em comparação com CNNs como YOLOv6.

Casos de Uso Ideais

  • Cenas de trânsito complexas: Deteção de peões e veículos em ambientes densos e caóticos onde a oclusão é comum.
  • Condução autónoma: Aplicações que exigem uma perceção de elevada fiabilidade em que o custo de uma deteção falhada compensa o custo de requisitos de hardware ligeiramente mais elevados.

Saiba mais sobre o RTDETRv2.

Comparação de Desempenho

A tabela seguinte compara o desempenho do YOLOv6.0 e do RTDETRv2. Enquanto o RTDETRv2 ultrapassa o limite da exatidão, YOLOv6.0 mantém uma vantagem na velocidade de inferência bruta, particularmente na escala "Nano".

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Análise

  • Velocidade vs. Precisão: O YOLOv6-3.0n é incrivelmente leve (1,17 ms de inferência), tornando-o o rei indiscutível para hardware extremamente limitado. No entanto, se a prioridade for a precisão, RTDETRv2-s oferece um mAP significativamente mais elevado (48,1) do que YOLOv6-3.0s (45,0), embora com quase o dobro do tempo de inferência (5,03 ms vs 2,66 ms).
  • Comportamento de escala: À medida que o tamanho do modelo aumenta, a diferença diminui. RTDETRv2-l (53,4 mAP) tem um desempenho superior a YOLOv6-3.0l (52,8 mAP) com menos parâmetros (42M vs 59,6M), o que demonstra a eficiência dos parâmetros da arquitetura do transformador, embora os FLOP sejam comparáveis.
  • Implicações para o hardware: A vantagem do YOLOv6 reside na sua estrutura CNN pura, que se adapta muito diretamente aos aceleradores de hardware. O RTDETRv2 requer hardware que possa lidar eficientemente com multiplicações de matrizes e operações de atenção para atingir a sua velocidade teórica.

Considerações sobre a implantação

Ao implantar em dispositivos de ponta, lembre-se de que os "Parâmetros" nem sempre se correlacionam perfeitamente com a velocidade. Embora o RTDETRv2 possa ter menos parâmetros em algumas configurações, os seus padrões de acesso à memória (atenção) podem ser mais lentos em hardware mais antigo em comparação com as convoluções altamente optimizadas do YOLOv6.

Metodologias de Treinamento

O panorama da formação para estes dois modelos difere significativamente, afectando os recursos necessários para o desenvolvimento.

YOLOv6.0 segue as práticas padrão de aprendizagem profunda para CNNs. Beneficia de calendários de formação mais curtos (normalmente 300-400 épocas) e de um menor consumo de memória GPU . Técnicas como a auto-destilação são tratadas internamente, mas acrescentam uma camada de complexidade ao cálculo da função de perda.

O RTDETRv2, por ser baseado em transformadores, geralmente exige mais CUDA durante o treino. A complexidade quadrática do mecanismo de atenção em relação ao tamanho da imagem significa que os tamanhos dos lotes precisam ser reduzidos ou que é necessário utilizar GPUs mais potentes. Além disso, os transformadores beneficiam frequentemente de horizontes de formação mais longos para aprenderem plenamente as relações espaciais sem preconceitos indutivos.

A vantagem Ultralytics

Embora tanto YOLOv6 como o RTDETR ofereçam caraterísticas atractivas para nichos específicos, Ultralytics YOLO11 oferece uma solução unificada que equilibra o melhor dos dois mundos. Integra a eficiência das CNNs com refinamentos arquitectónicos modernos que rivalizam com a precisão do transformador, tudo num ecossistema concebido para a produtividade do programador.

Porquê escolher os modelos Ultralytics ?

  • Facilidade de uso: Ultralytics fornece uma API Pythonic que abstrai as complexidades da formação e da implementação. É possível treinar um modelo de última geração em três linhas de código.
  • Equilíbrio de desempenho: YOLO11 foi concebido para oferecer um equilíbrio ótimo. Fornece velocidades de inferência em tempo real comparáveis às do YOLOv6 , ao mesmo tempo que atinge níveis de precisão que desafiam o RTDETR, sem a sobrecarga massiva de memória dos transformadores.
  • Versatilidade: Ao contrário do YOLOv6 (apenas deteção), os modelos Ultralytics suportam nativamente a segmentação de instâncias, a estimativa de pose, a classificação e a deteção de caixas delimitadoras orientadas (OBB).
  • Ecossistema bem mantido: Com actualizações frequentes, documentação extensa e suporte da comunidade, nunca é deixado sozinho a depurar.
  • Eficiência de treinamento: Os modelos Ultralytics são conhecidos pelos seus pipelines de formação eficientes, permitindo uma iteração rápida mesmo em hardware modesto.
from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with a single command
results = model("path/to/image.jpg")

Saiba mais sobre o YOLO11.

Conclusão

Tanto YOLOv6.0 como o RTDETRv2 são realizações impressionantes no domínio da visão por computador. YOLOv6.0 é a escolha pragmática para pipelines estritamente industriais em que o hardware é fixo e a velocidade é a única métrica importante. O RTDETRv2 é uma excelente escolha para investigação e aplicações topo de gama em que a precisão em cenas complexas é crítica e os recursos de hardware são abundantes.

No entanto, para a grande maioria das aplicações do mundo real, Ultralytics YOLO11 continua a ser a escolha superior. Ele oferece um "ponto ideal" de desempenho, versatilidade e facilidade de uso que acelera a jornada do conceito à produção. Quer se trate de um investigador que necessita de experiências rápidas ou de um engenheiro que está a implementar em milhares de dispositivos de ponta, o ecossistema Ultralytics fornece as ferramentas para garantir o sucesso.

Explore Outros Modelos

Se estiver interessado em mais comparações, explore estes recursos na documentação do Ultralytics :


Comentários