YOLOv5 .YOLO: uma análise técnica aprofundada sobre a evolução da deteção de objetos
No mundo em rápida evolução da visão computacional, escolher o modelo certo de deteção de objetos é fundamental para o sucesso do projeto. Este guia compara o YOLOv5, o lendário repositório que democratizou a IA acessível, e YOLO, uma arquitetura focada em pesquisa da equipa TinyVision da Alibaba. Embora ambos os modelos tenham como objetivo a alta eficiência, eles abordam o problema com filosofias diferentes em relação à arquitetura, facilidade de uso e prontidão de implementação.
Visão Geral e Origens do Modelo
YOLOv5
Lançado em meados de 2020 pela Ultralytics, YOLOv5 um padrão da indústria não apenas pela sua arquitetura, mas também pela sua engenharia. Ele enfatizou a usabilidade, pipelines de treinamento robustos e exportabilidade perfeita. Continua a ser um dos modelos de IA de visão mais amplamente implementados globalmente.
- Autores: Glenn Jocher
- Organização:Ultralytics
- Data: 2020-06-26
- GitHub:ultralytics/yolov5
DAMO-YOLO
Proposta no final de 2022 pelo Alibaba Group,YOLO Distillation-Augmented MOdel) integra tecnologias de ponta como Neural Architecture Search (NAS), Reparameterized Generalized-FPN (RepGFPN) eficiente e uma forte dependência da destilação para aumentar o desempenho.
- Autores: Xianzhe Xu, Yiqi Jiang, et al.
- Organização: Alibaba Group
- Data: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Comparação da Arquitetura Técnica
As diferenças arquitetónicas entre estes dois modelos destacam a mudança dos designs heurísticos do tipo «bag-of-freebies» para arquiteturas automatizadas baseadas em pesquisa.
YOLOv5: O padrão CSP-Darknet
YOLOv5 uma espinha dorsal CSP-Darknet53 modificada conectada a um pescoço Path Aggregation Network (PANet). A sua principal força reside no seu design modular e no «bag-of-freebies» aplicado durante o treino, como o aumento Mosaic e a evolução do hiperparâmetro do algoritmo genético.
- Backbone: CSP-Darknet
- Pescoço: PANet com blocos CSP
- Cabeça: Cabeça acoplada baseada em âncora no estilo YOLOv3
YOLO: NAS e destilação
YOLO dos designs manuais padrão ao empregar a Pesquisa de Arquitetura Neural (NAS) para encontrar a estrutura de backbone ideal (MAE-NAS).
- Backbone: MAE-NAS (baseado em pesquisa)
- Pescoço: RepGFPN (Reparameterized Generalized FPN) permitindo uma fusão eficiente de características.
- Cabeçalho: ZeroHead (camadas de projeção de tarefa dupla) combinado com AlignedOTA para atribuição de rótulos.
- Destilação: Um componente central em que um modelo «professor» maior orienta o treino do modelo «aluno» menor, o que adiciona complexidade ao pipeline de treino, mas melhora a precisão final.
Complexidade da destilação
Embora a destilação melhore a precisão doYOLO, ela complica significativamente o fluxo de trabalho de treino em comparação com YOLOv5. Os utilizadores muitas vezes precisam treinar ou baixar um modelo professor primeiro, aumentando a barreira de entrada para conjuntos de dados personalizados.
Métricas de Desempenho
A tabela a seguir compara o desempenho de várias escalas de modelos no conjunto de dados COCO . EnquantoYOLO resultados sólidos em métricas académicas, YOLOv5 competitivo em termos de rendimento e versatilidade de implementação.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Análise de Resultados
- Eficiência: O YOLOv5n (Nano) continua sendo o rei da inferência leve, com contagens de parâmetros significativamente menores (2,6 milhões contra 8,5 milhões) e FLOPs em comparação comYOLO, tornando-o muito mais adequado para casos extremos em CPUs padrão.
- Precisão:YOLO o seu pipeline de destilação para obter um mAP mais elevado mAP a partir de contagens de parâmetros semelhantes, particularmente nas faixas pequena e média.
- Velocidade de inferência: YOLOv5 oferece CPU mais rápida através ONNX devido a blocos arquitetónicos mais simples que são altamente otimizados em bibliotecas padrão.
Treino e Usabilidade
Este é o principal diferencial para os programadores. O Ultralytics prioriza uma experiência «zero-to-hero», enquanto os repositórios de pesquisa geralmente exigem uma configuração extensa.
YOLOv5: Experiência simplificada
YOLOv5 uma interface de linha de comando fácil de usar e Python que se tornou o padrão da indústria. O treinamento em um conjunto de dados personalizado requer uma configuração mínima.
import torch
# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt
YOLO: Complexidade da Investigação
O treinamentoYOLO envolve um sistema de configuração mais complexo. A dependência de um cronograma de destilação significa que os usuários muitas vezes precisam gerenciar dois modelos (professor e aluno) durante a fase de treinamento, o que aumentaos requisitos de memória GPU e a sobrecarga de configuração.
Ultralytics da Ultralytics : ecossistema e versatilidade
EmboraYOLO um detector de objetos puro e poderoso, a Ultralytics oferece um conjunto mais amplo de recursos exigidos pelos projetos modernos de IA.
- Versatilidade: Além de simples caixas delimitadoras, Ultralytics segmentação de instâncias, estimativa de pose, classificação e detecção de caixas delimitadoras orientadas (OBB).YOLO principalmente na detecção padrão.
- Implementação: Ultralytics são exportados facilmente para formatos como TensorRT, CoreML, TFLite e OpenVINO um único comando.
- Suporte da comunidade: Com milhões de utilizadores, a Ultralytics oferece recursos abrangentes, tutoriais e integrações de terceiros que os repositórios de pesquisa não conseguem igualar.
A Próxima Geração: YOLO26
Para os programadores impressionados com a eficiência dos modelos baseados em NAS, mas que precisam da facilidade de uso do YOLOv5, o YOLO26 é o sucessor recomendado. Lançado em 2026, ele incorpora o melhor dos dois mundos.
- NMS de ponta a ponta: Assim como os recentes avanços académicos, o YOLO26 remove a supressão não máxima (NMS), simplificando os pipelines de implementação.
- Otimizador MuSGD: Inspirado no treinamento de LLMs, este otimizador híbrido garante convergência estável.
- Otimizado para borda: o YOLO26 é até 43% mais rápido em CPUs, tornando-o a escolha superior para computação de borda em relação YOLOv5 YOLO.
Conclusão
YOLO é uma excelente contribuição para o campo da investigação em visão computacional, demonstrando o poder da pesquisa e destilação de arquitetura neural. É um forte candidato para investigadores que procuram estudar métodos avançados de pesquisa arquitetural ou obter a máxima precisão a partir de restrições de hardware específicas, onde a complexidade do treino não é um obstáculo.
YOLOv5e o seu sucessor moderno, o YOLO26, continuam a ser a escolha preferida para praticamente todas as implementações de produção. A combinação de baixo consumo de memória, amplo suporte a tarefas (segmentação, pose, OBB) e a robusta Ultralytics garante que os projetos passem do protótipo à produção com o mínimo de atrito.
Para aqueles que exigem o que há de mais moderno em desempenho e funcionalidades, recomendamos fortemente explorar o YOLO26, que oferece a eficiência de ponta a ponta que os investigadores adoram, com a usabilidade pela qual Ultralytics famosa.
Leitura Adicional
- Explore a documentação mais recente do YOLO26.
- Confira o repositório YOLOv5 .
- Aprenda os fundamentos da deteção de objetos em tempo real.
- Compare outros modelos como RT-DETR para soluções baseadas em transformadores.