YOLOv5 vs. YOLOv10: Evolução da Detecção de Objetos em Tempo Real

O panorama da deteção de objetos foi significativamente moldado pela série You Only Look Once (YOLO). Desde o seu início, o YOLO tem equilibrado velocidade e precisão, tornando-se a arquitetura de eleição para os programadores de visão computacional. Esta comparação explora dois momentos cruciais nesta história: Ultralytics YOLOv5, o padrão da indústria para fiabilidade e versatilidade, e YOLOv10, um lançamento académico recente da Universidade de Tsinghua que introduz a deteção sem NMS para uma maior eficiência.

Visão Geral do Modelo

Ultralytics YOLOv5

Lançado em junho de 2020 por Glenn Jocher e Ultralytics, o YOLOv5 mudou fundamentalmente a forma como os modelos de IA eram implantados. Ele priorizou a usabilidade, a exportação para diversos formatos (CoreML, ONNX, TFLite) e o desempenho robusto em hardware de borda. Ele continua sendo um dos modelos de visão mais populares e amplamente implantados globalmente devido à sua filosofia de "simplesmente funciona" e ao extenso suporte da comunidade.

Autor Principal: Glenn Jocher
Organização:Ultralytics
Data de Lançamento: 2020-06-26
GitHub:ultralytics/yolov5

Saiba mais sobre o YOLOv5.

YOLOv10

Lançado em maio de 2024 por pesquisadores da Universidade de Tsinghua, o YOLOv10 visa eliminar os gargalos de pós-processamento encontrados em versões anteriores. Ao introduzir atribuições duplas consistentes para treinamento sem NMS, ele otimiza o pipeline de inferência, reduzindo a latência e a sobrecarga computacional.

Autores Principais: Ao Wang, Hui Chen, et al.
Organização: Universidade de Tsinghua
Data de Lançamento: 2024-05-23
arXiv:YOLOv10: Detecção de Objetos End-to-End em Tempo Real

Saiba mais sobre o YOLOv10

Inovação Mais Recente

Ao comparar essas arquiteturas robustas, os desenvolvedores que estão iniciando novos projetos também devem avaliar o YOLO11. Ele se baseia nos pontos fortes de ambos, oferecendo precisão de última geração, extração de recursos aprimorada e suporte nativo para diversas tarefas, como estimação de pose e detecção de objetos orientados.

Arquitetura e Inovação Técnica

As diferenças arquitetónicas entre o YOLOv5 e o YOLOv10 destacam a mudança da fiabilidade madura baseada em âncoras para a eficiência de ponta sem âncoras.

YOLOv5: O Padrão Baseado em Âncoras

O YOLOv5 emprega um backbone CSPNet (Cross Stage Partial Network) que equilibra a profundidade e a largura do modelo para minimizar os FLOPS, mantendo a precisão. Ele se baseia em anchor boxes—formas predefinidas que ajudam o modelo a prever as dimensões do objeto.

Backbone: CSP-Darknet53 focado no fluxo de gradiente.
Head: Head acoplado com previsão baseada em âncoras.
Pós-processamento: Requer Supressão Não Máxima (NMS) para filtrar detecções duplicadas.

YOLOv10: Eficiência Sem NMS

O YOLOv10 introduz um design holístico orientado pela eficiência e precisão. Sua característica de destaque é a estratégia de treinamento livre de NMS usando atribuições duplas consistentes. Isso permite que o modelo preveja exatamente uma caixa delimitadora por objeto durante a inferência, removendo completamente a etapa de NMS que induz latência.

Backbone: Aprimorado com convoluções de kernel grande e autoatenção parcial.
Head: Head unificado combinando atribuições de rótulos um-para-muitos e um-para-um.
Otimização: Design de blocos guiado por classificação para reduzir a redundância.

Análise de Desempenho

A tabela a seguir compara as métricas de desempenho no conjunto de dados COCO. Embora o YOLOv5 permaneça competitivo, principalmente na velocidade da CPU para sua variante Nano, o YOLOv10 demonstra uma eficiência superior em termos de parâmetros e precisão (mAP).

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Detalhamento das Métricas

Precisão (mAP): YOLOv10 mostra um salto significativo na Precisão Média Média. Por exemplo, o YOLOv10n alcança 39.5 mAP comparado com 28.0 mAP do YOLOv5n, tornando-o muito mais capaz de detectar objetos difíceis.
Eficiência: YOLOv10 alcança estes resultados com menos parâmetros (2,3M vs 2,6M para o modelo Nano), demonstrando os benefícios do seu design arquitetónico otimizado.
Velocidade de Inferência: YOLOv5n permanece incrivelmente rápido em CPUs (73,6ms), o que é crítico para dispositivos de borda sem GPU, como unidades Raspberry Pi mais antigas. No entanto, no hardware de GPU (TensorRT), YOLOv10 mantém velocidades competitivas, apesar de sua maior precisão.

Forças e Fraquezas

Ultralytics YOLOv5

Ecossistema Incomparável: Apoiado por anos de desenvolvimento, possui uma das maiores comunidades ativas. Os problemas são resolvidos rapidamente e os recursos são abundantes.
Versatilidade: Além da detect, ele suporta nativamente segmentação de imagem e classificação.
Facilidade de Uso: A API foi projetada para ser simples. Carregar um modelo do PyTorch Hub leva uma única linha de código.
Implantação: O amplo suporte para formatos de exportação garante que ele seja executado em tudo, desde telefones celulares até servidores em nuvem.

YOLOv10

Baixa Latência: A remoção do NMS reduz significativamente o tempo de pós-processamento, o que é vital para aplicações em tempo real onde cada milissegundo conta.
Eficiência de Parâmetros: Oferece maior precisão por parâmetro, tornando-o um forte candidato para dispositivos com armazenamento ou memória limitados.
Foco: Embora poderoso, é principalmente especializado para detecção de objetos, carecendo da amplitude nativa multi-tarefa (como estimativa de pose) encontrada na série Ultralytics YOLO (v8, 11).

Requisitos de Memória

Ambos os modelos são projetados para serem leves. Ao contrário dos grandes modelos transformer que consomem grandes quantidades de memória CUDA durante o treinamento, os modelos Ultralytics YOLO são otimizados para eficiência de memória, permitindo que sejam treinados em GPUs de nível de consumidor com VRAM modesta.

Casos de Uso no Mundo Real

Quando escolher o YOLOv5

YOLOv5 é a escolha pragmática para sistemas de produção que exigem estabilidade e amplo suporte de plataforma.

Automação Industrial: Amplamente utilizado na manufatura para controlo de qualidade onde a confiabilidade é fundamental.
Aplicativos Móveis: Sua comprovada compatibilidade com iOS (CoreML) e Android (TFLite) o torna ideal para integração em aplicativos no dispositivo.
Protótipagem Rápida: O grande volume de tutoriais e documentação permite que os desenvolvedores passem do conceito ao POC em horas.

Quando escolher o YOLOv10

O YOLOv10 é excelente para cenários que exigem a maior relação precisão-eficiência.

Robótica de Alta Velocidade: A arquitetura sem NMS reduz a variação da latência, o que é crucial para os loops de controle de robôs autônomos.
Investigação Académica: Os investigadores que procuram fazer benchmarking em relação aos mais recentes paradigmas de detecção end-to-end acharão a arquitetura do YOLOv10 inovadora e eficaz.
Vigilância Remota: Alto mAP com baixa contagem de parâmetros é adequado para sistemas de segurança operando com largura de banda ou armazenamento limitados.

Treino e Facilidade de Uso

A Ultralytics prioriza uma experiência de desenvolvedor otimizada. Seja usando o repositório YOLOv5 clássico ou o moderno, ultralytics pacote para modelos mais recentes, o processo é intuitivo.

Usando YOLOv5

YOLOv5 é famoso por ser fácil de carregar via PyTorch Hub para inferência instantânea.

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image
img = "https://ultralytics.com/images/zidane.jpg"
results = model(img)

# Display results
results.show()

Usando YOLOv10

O YOLOv10 pode ser integrado usando o ultralytics Pacote Python, beneficiando da mesma API poderosa.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on COCO data
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Conclusão

Ambas as arquiteturas representam marcos na visão computacional. O YOLOv5 continua a ser o cavalo de batalha confiável da indústria — robusto, versátil e suportado por um ecossistema massivo. É a escolha segura e "ideal" para diversas necessidades de implementação. O YOLOv10 ultrapassa os limites da eficiência com o seu design sem NMS, oferecendo uma atualização atraente para utilizadores especificamente focados em tarefas de detecção que precisam de maximizar a precisão em hardware restrito.

Para desenvolvedores que buscam o melhor dos dois mundos—combinando a maturidade do ecossistema da Ultralytics com precisão e velocidade de ponta—recomendamos explorar o YOLO11. Ele unifica esses avanços em uma única estrutura poderosa, pronta para qualquer tarefa de visão.

Para explorar mais comparações, confira YOLOv5 vs. YOLOv8 ou YOLOv10 vs. YOLO11.

YOLOv5 vs. YOLOv10: Evolução da Detecção de Objetos em Tempo Real

Visão Geral do Modelo

Ultralytics YOLOv5

YOLOv10

Arquitetura e Inovação Técnica

YOLOv5: O Padrão Baseado em Âncoras

YOLOv10: Eficiência Sem NMS

Análise de Desempenho

Detalhamento das Métricas

Forças e Fraquezas

Ultralytics YOLOv5

YOLOv10

Casos de Uso no Mundo Real

Quando escolher o YOLOv5

Quando escolher o YOLOv10

Treino e Facilidade de Uso

Usando YOLOv5

Usando YOLOv10

Conclusão

Comentários