Ir para o conteúdo

YOLOv5 .YOLO: uma análise técnica aprofundada sobre a evolução da deteção de objetos

No mundo em rápida evolução da visão computacional, escolher o modelo certo de deteção de objetos é fundamental para o sucesso do projeto. Este guia compara o YOLOv5, o lendário repositório que democratizou a IA acessível, e YOLO, uma arquitetura focada em pesquisa da equipa TinyVision da Alibaba. Embora ambos os modelos tenham como objetivo a alta eficiência, eles abordam o problema com filosofias diferentes em relação à arquitetura, facilidade de uso e prontidão de implementação.

Visão Geral e Origens do Modelo

YOLOv5

Lançado em meados de 2020 pela Ultralytics, YOLOv5 um padrão da indústria não apenas pela sua arquitetura, mas também pela sua engenharia. Ele enfatizou a usabilidade, pipelines de treinamento robustos e exportabilidade perfeita. Continua a ser um dos modelos de IA de visão mais amplamente implementados globalmente.

Saiba mais sobre o YOLOv5

DAMO-YOLO

Proposta no final de 2022 pelo Alibaba Group,YOLO Distillation-Augmented MOdel) integra tecnologias de ponta como Neural Architecture Search (NAS), Reparameterized Generalized-FPN (RepGFPN) eficiente e uma forte dependência da destilação para aumentar o desempenho.

Comparação da Arquitetura Técnica

As diferenças arquitetónicas entre estes dois modelos destacam a mudança dos designs heurísticos do tipo «bag-of-freebies» para arquiteturas automatizadas baseadas em pesquisa.

YOLOv5: O padrão CSP-Darknet

YOLOv5 uma espinha dorsal CSP-Darknet53 modificada conectada a um pescoço Path Aggregation Network (PANet). A sua principal força reside no seu design modular e no «bag-of-freebies» aplicado durante o treino, como o aumento Mosaic e a evolução do hiperparâmetro do algoritmo genético.

  • Backbone: CSP-Darknet
  • Pescoço: PANet com blocos CSP
  • Cabeça: Cabeça acoplada baseada em âncora no estilo YOLOv3

YOLO: NAS e destilação

YOLO dos designs manuais padrão ao empregar a Pesquisa de Arquitetura Neural (NAS) para encontrar a estrutura de backbone ideal (MAE-NAS).

  • Backbone: MAE-NAS (baseado em pesquisa)
  • Pescoço: RepGFPN (Reparameterized Generalized FPN) permitindo uma fusão eficiente de características.
  • Cabeçalho: ZeroHead (camadas de projeção de tarefa dupla) combinado com AlignedOTA para atribuição de rótulos.
  • Destilação: Um componente central em que um modelo «professor» maior orienta o treino do modelo «aluno» menor, o que adiciona complexidade ao pipeline de treino, mas melhora a precisão final.

Complexidade da destilação

Embora a destilação melhore a precisão doYOLO, ela complica significativamente o fluxo de trabalho de treino em comparação com YOLOv5. Os utilizadores muitas vezes precisam treinar ou baixar um modelo professor primeiro, aumentando a barreira de entrada para conjuntos de dados personalizados.

Métricas de Desempenho

A tabela a seguir compara o desempenho de várias escalas de modelos no conjunto de dados COCO . EnquantoYOLO resultados sólidos em métricas académicas, YOLOv5 competitivo em termos de rendimento e versatilidade de implementação.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Análise de Resultados

  • Eficiência: O YOLOv5n (Nano) continua sendo o rei da inferência leve, com contagens de parâmetros significativamente menores (2,6 milhões contra 8,5 milhões) e FLOPs em comparação comYOLO, tornando-o muito mais adequado para casos extremos em CPUs padrão.
  • Precisão:YOLO o seu pipeline de destilação para obter um mAP mais elevado mAP a partir de contagens de parâmetros semelhantes, particularmente nas faixas pequena e média.
  • Velocidade de inferência: YOLOv5 oferece CPU mais rápida através ONNX devido a blocos arquitetónicos mais simples que são altamente otimizados em bibliotecas padrão.

Treino e Usabilidade

Este é o principal diferencial para os programadores. O Ultralytics prioriza uma experiência «zero-to-hero», enquanto os repositórios de pesquisa geralmente exigem uma configuração extensa.

YOLOv5: Experiência simplificada

YOLOv5 uma interface de linha de comando fácil de usar e Python que se tornou o padrão da indústria. O treinamento em um conjunto de dados personalizado requer uma configuração mínima.

import torch

# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt

YOLO: Complexidade da Investigação

O treinamentoYOLO envolve um sistema de configuração mais complexo. A dependência de um cronograma de destilação significa que os usuários muitas vezes precisam gerenciar dois modelos (professor e aluno) durante a fase de treinamento, o que aumentaos requisitos de memória GPU e a sobrecarga de configuração.

Ultralytics da Ultralytics : ecossistema e versatilidade

EmboraYOLO um detector de objetos puro e poderoso, a Ultralytics oferece um conjunto mais amplo de recursos exigidos pelos projetos modernos de IA.

  1. Versatilidade: Além de simples caixas delimitadoras, Ultralytics segmentação de instâncias, estimativa de pose, classificação e detecção de caixas delimitadoras orientadas (OBB).YOLO principalmente na detecção padrão.
  2. Implementação: Ultralytics são exportados facilmente para formatos como TensorRT, CoreML, TFLite e OpenVINO um único comando.
  3. Suporte da comunidade: Com milhões de utilizadores, a Ultralytics oferece recursos abrangentes, tutoriais e integrações de terceiros que os repositórios de pesquisa não conseguem igualar.

A Próxima Geração: YOLO26

Para os programadores impressionados com a eficiência dos modelos baseados em NAS, mas que precisam da facilidade de uso do YOLOv5, o YOLO26 é o sucessor recomendado. Lançado em 2026, ele incorpora o melhor dos dois mundos.

  • NMS de ponta a ponta: Assim como os recentes avanços académicos, o YOLO26 remove a supressão não máxima (NMS), simplificando os pipelines de implementação.
  • Otimizador MuSGD: Inspirado no treinamento de LLMs, este otimizador híbrido garante convergência estável.
  • Otimizado para borda: o YOLO26 é até 43% mais rápido em CPUs, tornando-o a escolha superior para computação de borda em relação YOLOv5 YOLO.

Saiba mais sobre YOLO26

Conclusão

YOLO é uma excelente contribuição para o campo da investigação em visão computacional, demonstrando o poder da pesquisa e destilação de arquitetura neural. É um forte candidato para investigadores que procuram estudar métodos avançados de pesquisa arquitetural ou obter a máxima precisão a partir de restrições de hardware específicas, onde a complexidade do treino não é um obstáculo.

YOLOv5e o seu sucessor moderno, o YOLO26, continuam a ser a escolha preferida para praticamente todas as implementações de produção. A combinação de baixo consumo de memória, amplo suporte a tarefas (segmentação, pose, OBB) e a robusta Ultralytics garante que os projetos passem do protótipo à produção com o mínimo de atrito.

Para aqueles que exigem o que há de mais moderno em desempenho e funcionalidades, recomendamos fortemente explorar o YOLO26, que oferece a eficiência de ponta a ponta que os investigadores adoram, com a usabilidade pela qual Ultralytics famosa.

Leitura Adicional


Comentários