YOLO11 . YOLOv5: Evolução da deteção de objetos em tempo real
A evolução da família YOLO You Only Look Once) representa uma linha do tempo de rápida inovação na visão computacional. YOLOv5, lançado em 2020 pela Ultralytics, revolucionou o campo ao tornar a deteção de objetos de alto desempenho acessível por meio de uma API incrivelmente fácil de usar e PyTorch robusta. Avançando para o final de 2024, o YOLO11 surgiu como uma potência refinada, com base em anos de feedback e avanços arquitetónicos para oferecer eficiência e precisão superiores.
Esta comparação explora os avanços técnicos alcançados entre estes dois modelos icónicos, ajudando os programadores a compreender quando devem manter os sistemas antigos e quando devem atualizar para a arquitetura mais recente.
Análise de Métricas de Desempenho
O salto do YOLOv5 YOLO11 melhor visualizado através do seu desempenho em benchmarks padrão. YOLO11 otimizações significativas que lhe permitem atingir uma Precisão Média (mAP) mais elevada, mantendo ou reduzindo a carga computacional.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Principais Conclusões
- Ganhos de precisão: O YOLO11n atinge um notável mAP de 39,5%, superando drasticamente o YOLOv5n ( mAP de 28,0%). Isso torna o menor YOLO11 viável para tarefas complexas que antes exigiam modelos maiores e mais lentos.
- Eficiência computacional: apesar da maior precisão, YOLO11 geralmente requerem menos FLOPs. Por exemplo, o YOLO11x usa cerca de 20% menos FLOPs do que o YOLOv5x, ao mesmo tempo que oferece resultados de detecção superiores.
- CPU :ONNX CPU ONNX para YOLO11 significativamente mais rápidas, um fator crítico para implementações em dispositivos de ponta, como o Raspberry Pi.
YOLO11: Eficiência e Versatilidade Refinadas
Lançado em setembro de 2024, YOLO11 o culminar de melhorias iterativas naYOLO Ultralytics YOLO . Ele foi projetado não apenas para detecção bruta, mas para dar suporte a um pipeline de visão unificado, incluindo segmentação, estimativa de pose e caixas delimitadoras orientadas (OBB).
Especificações técnicas:
- Autores: Glenn Jocher e Jing Qiu
- Organização:Ultralytics
- Data: 2024-09-27
- Links:GitHub, Docs
Destaques da Arquitetura
YOLO11 o bloco C3k2, uma versão refinada do gargalo Cross Stage Partial (CSP) que otimiza o fluxo de gradiente. Além disso, ele emprega C2PSA (Cross-Stage Partial with Spatial Attention) em seu cabeçote de detecção, aprimorando a capacidade do modelo de se concentrar em recursos críticos em cenas confusas. Ao contrário YOLOv5, YOLO11 uma arquitetura sem âncora, o que simplifica o processo de treinamento, eliminando a necessidade de calcular caixas de âncora para conjuntos de dados específicos, resultando em uma melhor generalização.
Por que escolher YOLO11?
YOLO11 a escolha recomendada para a maioria das novas aplicações comerciais. O seu equilíbrio entre alta precisão (mAP) e baixo consumo de recursos torna-o ideal para análises em tempo real no retalho, cidades inteligentes e cuidados de saúde.
YOLOv5: O padrão da indústria
YOLOv5, lançado em meados de 2020, estabeleceu o padrão de facilidade de uso na indústria de IA. Foi o primeiro modelo a tornar o «treinamento, validação e implementação» uma experiência integrada em um único repositório, estabelecendo a filosofia centrada no utilizador pela qual Ultralytics conhecida hoje.
Especificações técnicas:
- Autores: Glenn Jocher
- Organização:Ultralytics
- Data: 2020-06-26
- Links:GitHub, Docs
Destaques da Arquitetura
YOLOv5 uma estrutura CSPDarknet e é um detetor baseado em âncora. Embora altamente eficazes, as abordagens baseadas em âncora podem ser sensíveis ao ajuste de hiperparâmetros em relação às dimensões da caixa. Apesar da sua idade, YOLOv5 uma ferramenta fiável, particularmente em cenários em que hardware antigo ou certificações de software específicas limitam os projetos a versões mais antigas da estrutura.
Diferenças arquitetónicas e formação
Ecossistema e Facilidade de Uso
Uma das maiores vantagens de ambos os modelos é a sua integração no Ultralytics . Quer utilize YOLOv5 YOLO11, beneficia de uma API unificada, documentação abrangente e suporte para exportação perfeita de modelos para formatos como TensorRT, CoreML e OpenVINO.
No entanto, YOLO11 das últimas atualizações no ultralytics Python , oferecendo integração mais estreita com ferramentas como o Plataforma Ultralytics para formação em nuvem e gestão de conjuntos de dados.
Eficiência do Treinamento
YOLO11 converge mais rapidamente durante o treinamento devido à sua arquitetura aprimorada e funções de perda. Os seus requisitos de memória também são altamente otimizados. Ao contrário dos modelos de transformadores massivos que exigem VRAM substancial, YOLO11 e YOLOv5) podem ser treinados de forma eficiente em GPUs de nível consumidor.
Veja como treinar um YOLO11 usando oPython Ultralytics Python :
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 example dataset
# fast, efficient, and low-memory usage
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Versatilidade
Embora YOLOv5 atualizado posteriormente no seu ciclo de vida para suportar segmentação e classificação, YOLO11 foi construído desde o início com essas tarefas em mente. Se o seu projeto requer alternar entre deteção de objetos, segmentação de instâncias, estimativa de pose ou caixas delimitadoras orientadas (OBB), YOLO11 uma experiência mais coesa e de melhor desempenho em todas essas modalidades.
Conclusão: Qual modelo usar?
Para a grande maioria dos utilizadores que iniciam um projeto hoje, YOLO11 é o vencedor indiscutível. Ele oferece uma melhoria "gratuita": maior precisão e velocidade semelhante ou superior, sem aumentar a complexidade. YOLOv5 uma excelente referência para pesquisa e manutenção de legados, mas fica para trás em comparações métricas brutas com arquiteturas modernas.
A vanguarda: YOLO26
Se procura o que há de mais recente em tecnologia de visão computacional (em janeiro de 2026), deve explorar o YOLO26.
O YOLO26 baseia-se no YOLO11 introduz um design End-to-End NMS, eliminando a necessidade de pós-processamento Non-Maximum Suppression. Isso resulta em uma implementação mais simples e velocidades de inferência mais rápidas, especialmente em dispositivos de ponta CPU. Com inovações como o otimizador MuSGD e o ProgLoss, o YOLO26 oferece CPU até 43% mais rápida em comparação com as gerações anteriores.
Outros Modelos para Explorar
- RT-DETR: Um detetor baseado em transformador que se destaca pela precisão quando a velocidade em tempo real é menos crítica.
- YOLO: Ideal para detecção de vocabulário aberto, onde é necessário detect que não estão presentes no conjunto de dados de treino.