Ir para o conteúdo

DAMO-YOLO vs YOLOv6-3.0: Um Confronto Técnico para detect de Objetos em Tempo Real

O panorama da deteção de objetos em tempo real é caracterizado por uma rápida inovação, onde a eficiência arquitetónica e a velocidade de inferência são fundamentais. Dois concorrentes significativos neste espaço são YOLO, desenvolvido pelo Alibaba Group, e YOLOv6.YOLOv6, uma estrutura robusta da Meituan. Ambos os modelos visam alcançar o equilíbrio perfeito entre latência e precisão, mas conseguem isso através de metodologias distintas.

Este guia abrangente analisa as nuances técnicas de ambas as arquiteturas, oferecendo aos programadores e investigadores as informações necessárias para escolher a ferramenta certa para as suas aplicações de visão computacional. Quer esteja a desenvolver para dispositivos de ponta ou servidores em nuvem de alto rendimento, é fundamental compreender essas diferenças.

Benchmark de Desempenho

A tabela a seguir ilustra as métricas de desempenho no COCO . YOLOv6.YOLOv6 geralmente oferece um rendimento superior em GPU devido ao seu design TensorRT, enquanto YOLO demonstra forte eficiência de parâmetros.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

DAMO-YOLO: Pesquisa de Arquitetura Neural Encontra Eficiência

YOLO apresenta uma abordagem inovadora ao integrar a Pesquisa de Arquitetura Neural (NAS) diretamente no design da espinha dorsal. Desenvolvido pelo Alibaba Group, ele se concentra em maximizar o desempenho sob restrições rigorosas de latência.

Principais Características Arquitetônicas

  • MAE-NAS Backbone: Utiliza uma pesquisa de arquitetura neural com autoencoder multirramificado (MAE-NAS) para descobrir estruturas de rede ideais. Isso resulta em uma espinha dorsal que extrai recursos de forma mais eficiente do que suas contrapartes criadas manualmente, como o CSPDarknet.
  • RepGFPN eficiente: o modelo substitui a Feature Pyramid Network (FPN) padrão por uma Reparameterized Generalized FPN (RepGFPN). Isso melhora a fusão de recursos em diferentes escalas, mantendo a velocidade de inferência, já que os ramos complexos são fundidos em um único caminho durante a implementação.
  • ZeroHead: Para reduzir ainda mais o custo computacional,YOLO um «ZeroHead» leve, que simplifica o design do cabeçote de detecção sem perda significativa de precisão.
  • AlignedOTA: O processo de treino utiliza a atribuição de rótulos Aligned One-to-Many (AlignedOTA), que atribui rótulos dinamicamente para melhorar a velocidade de convergência e lidar com ambiguidades em cenas com muitos objetos.

YOLO :
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização: Alibaba Group
Data: 23/11/2022
Arxiv | GitHub | Docs

YOLOv6.0: O padrão industrial para GPUs

YOLOv6.YOLOv6, frequentemente referido como uma «recarga em grande escala» da estrutura, foi concebido especificamente para aplicações industriais em que GPU através do TensorRT é a norma.

Principais Características Arquitetônicas

  • Fusão bidirecional (BiFusion): YOLOv6. YOLOv6 aprimora o pescoço com BiFusion, melhorando o fluxo de informações semânticas entre diferentes níveis de recursos.
  • Treinamento auxiliado por âncora (AAT): Ao contrário dos detetores puramente sem âncora, YOLOv6 introduz um ramo auxiliar baseado em âncora durante o treinamento. Isso estabiliza o processo de aprendizagem e aumenta a recuperação, enquanto a inferência permanece sem âncora para maior velocidade.
  • RepOptimizer: O modelo aproveita técnicas de reparametrização não apenas na arquitetura (blocos RepVGG), mas também no próprio processo de otimização, garantindo que as etapas de descida do gradiente sejam mais eficazes para as estruturas reparametrizadas específicas.
  • Treinamento com reconhecimento de quantização (QAT): Um dos principais pontos fortes é o suporte nativo para QAT, permitindo que o modelo mantenha alta precisão mesmo quando comprimido para precisão INT8 para implementação em GPUs de ponta.

DetalhesYOLOv6.YOLOv6:
Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organização: Meituan
Data: 13/01/2023
Arxiv | GitHub | Docs

Saiba mais sobre o YOLOv6

Ultralytics da Ultralytics : porquê escolher YOLO modernos?

EmboraYOLO YOLOv6.0 ofereçam pontos fortes distintos, o Ultralytics oferece uma solução unificada que atende às necessidades mais amplas do desenvolvimento moderno de IA. Ao escolher um Ultralytics , você garante não apenas uma arquitetura, mas um fluxo de trabalho completo e com suporte.

1. Facilidade de utilização incomparável

Ultralytics a experiência do programador ("zero-to-hero"). Processos complexos como aumento de dados, ajuste de hiperparâmetros e exportação de modelos são abstraídos por trás de uma Python simples.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)

2. Versatilidade em Todas as Tarefas

Ao contrárioYOLO YOLOv6, que se concentram principalmente na deteção de caixas delimitadoras, Ultralytics são inerentemente multimodais. Uma única base de código suporta:

3. Eficiência do treino e utilização da memória

Ultralytics são otimizadas para minimizar o uso de VRAM durante o treinamento. Essa eficiência permite que pesquisadores e entusiastas treinem modelos de última geração em GPUs de nível consumidor, uma vantagem significativa em relação a híbridos transformadores que consomem muita memória, como RT-DETR.

4. Ecossistema bem conservado

O Ultralytics é um dos mais ativos na comunidade de visão computacional. Atualizações frequentes garantem a compatibilidade com as versões mais recentes do PyTorch, CUDA e Python, evitando a "deterioração do código" frequentemente observada em repositórios de pesquisa estáticos.

O futuro da IA visual: YOLO26

Para os programadores que buscam o máximo em desempenho e facilidade de implementação, Ultralytics representa a próxima geração de IA visual.

Por que Atualizar para o YOLO26?

O YOLO26 integra funcionalidades de ponta que simplificam a implementação, ao mesmo tempo que aumentam a velocidade e a precisão:

  • NMS de ponta a ponta: elimina o pós-processamento de supressão não máxima (NMS), simplificando a exportação para CoreML e TFLite.
  • CPU : CPU até 43% mais rápida em comparação com as gerações anteriores, proporcionando desempenho em tempo real em dispositivos de ponta que não possuem GPUs potentes.
  • MuSGD Optimizer: Um otimizador híbrido que aproveita as inovações do treinamento LLM (inspirado no Kimi K2 da Moonshot AI) para uma convergência e estabilidade mais rápidas.
  • Detecção aprimorada de pequenos objetos: O novo ProgLoss e STAL As funções de perda melhoram significativamente a deteção de alvos pequenos e difíceis, cruciais para aplicações de drones.

Saiba mais sobre YOLO26

Recomendações de Casos de Uso

Ao decidir entre essas arquiteturas, considere o seu ambiente de implementação específico:

Ideal paraYOLO

  • Investigação e desenvolvimento: Excelente para estudar o impacto da Pesquisa de Arquitetura Neural (NAS) nas estruturas de base da visão.
  • Hardware personalizado: A estrutura pode oferecer vantagens em NPUs específicas que favorecem o design RepGFPN.
  • Requisitos de baixa latência: O design ZeroHead ajuda a reduzir milésimos de segundos em ambientes com restrições de tempo rigorosas.

Idealmente Adequado para YOLOv6-3.0

  • GPU industriais: O grande foco no TensorRT torna-o uma fera nas placas NVIDIA e A100.
  • Necessidades de quantização: se o seu pipeline depende fortemente do Treinamento Sensível à Quantização (QAT) para implementação INT8, YOLOv6 ferramentas nativas.
  • Análise de alto rendimento: cenários como o processamento simultâneo de vários fluxos de vídeo, em que o rendimento em lote é fundamental.

Ideal para Ultralytics YOLO11 YOLO26)

  • Implementação para fins gerais: A capacidade de exportar para ONNX, OpenVINO, TensorRT, CoreML e TFLite um único comando cobre todas as bases.
  • CPU móvel e de ponta: CPU específicas CPU do YOLO26 e o design NMS tornam-no a escolha superior para implementações iOS, Android e Raspberry Pi.
  • Tarefas complexas: quando o seu projeto requer mais do que apenas caixas, como máscaras de segmentação ou pontos-chave de pose,Ultralytics a única estrutura unificada que oferece isso.
  • Prototipagem rápida: a Ultralytics permite o gerenciamento rápido de conjuntos de dados, treinamento e implantação sem a necessidade de gerenciar infraestruturas complexas.

Conclusão

Tanto YOLO quanto YOLOv6.YOLOv6 são contribuições impressionantes para o campo da visão computacional.YOLO os limites da pesquisa automatizada de arquitetura, enquanto YOLOv6 a arte da inferência GPU.

No entanto, para a grande maioria das aplicações do mundo real, YOLO Ultralytics oferecem uma solução mais equilibrada, versátil e sustentável. Com o lançamento do YOLO26, a diferença aumentou ainda mais, oferecendo eficiência de ponta a ponta e CPU que os modelos concorrentes ainda não conseguiram igualar. Seja você uma startup a construir o seu primeiro produto de IA ou uma empresa a expandir para milhões de utilizadores, a estabilidade e o desempenho do Ultralytics fornecem uma base sólida para o sucesso.

Leitura Adicional

Explore outros modelos e ferramentas de última geração na Ultralytics da Ultralytics :

  • YOLOv8 - O modelo SOTA clássico conhecido pela sua estabilidade.
  • RT-DETR - Transformador de detecção em tempo real para tarefas de alta precisão.
  • YOLOv9 - Com informação de gradiente programável (PGI).
  • YOLOv10 - O pioneiro do treinamento NMS.
  • YOLO11 - Um poderoso antecessor da geração atual.

Comentários