YOLO11 vs YOLOv8: Evolução da arquitetura e análise de desempenho
A seleção do modelo de visão por computador ideal é uma decisão crítica para os programadores e investigadores que pretendem equilibrar precisão, velocidade e eficiência de recursos. Esta página fornece uma comparação técnica abrangente entre Ultralytics YOLO11 e o Ultralytics YOLOv8duas arquitecturas líderes da indústria concebidas para deteção de objectos e tarefas de visão avançada. Analisamos as suas inovações arquitectónicas, métricas de referência e cenários de implementação ideais para o ajudar a determinar a melhor opção para as suas aplicações de inteligência artificial.
Ultralytics YOLO11
Autores: Glenn Jocher, Jing Qiu
Organização:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11
YOLO11 representa a mais recente evolução da famosa série YOLO , introduzindo melhorias significativas na extração de caraterísticas e na eficiência de processamento. Ao refinar as arquitecturas da espinha dorsal e do pescoço, YOLO11 atinge uma precisão média (mAP) mais elevada, utilizando menos parâmetros do que os seus antecessores. Suporta nativamente um amplo espetro de tarefas, incluindo segmentação de instâncias, classificação de imagens, estimativa de pose e caixas delimitadoras orientadas (OBB).
Arquitetura e Principais Características
A arquitetura YOLO11 introduz o bloco C3k2, uma versão optimizada do estrangulamento CSP (Cross Stage Partial), e o módulo C2PSA (Cross Stage Partial with Spatial Attention). Estes componentes aumentam a capacidade do modelo para captar padrões visuais e relações espaciais complexas, minimizando a sobrecarga computacional. Esta filosofia de conceção garante que YOLO11 se destaca em cenários de inferência em tempo real, particularmente em dispositivos de ponta onde os recursos computacionais são limitados.
Pontos Fortes
- Precisão de última geração: Oferece um desempenho de deteção superior em todas as escalas do modelo, superando consistentemente as iterações anteriores no conjunto de dadosCOCO .
- EficiênciaCPU : As opções de arquitetura otimizadas resultam em velocidades de inferência significativamente mais rápidas em CPUs, tornando-o a melhor opção para implantações sem servidor ou de borda.
- Eficiência de parâmetros: Atinge alta precisão com menos parâmetros e FLOPs, reduzindo os requisitos de armazenamento do modelo.
- Estrutura unificada: Lida perfeitamente com várias tarefas de visão numa API única e fácil de utilizar.
Fraquezas
- Maturidade do ecossistema: Sendo uma versão mais recente, o volume de tutoriais de terceiros e de conteúdos gerados pela comunidade está a crescer rapidamente, mas pode ser menos extenso do que o já estabelecido YOLOv8.
- Intensidade de recursos para modelos grandes: Embora eficientes, as maiores variantes (por exemplo, YOLO11x) ainda exigem recursos significativos GPU para treinamento e inferência de alto rendimento.
Casos de Uso
YOLO11 é a primeira escolha para aplicações que exigem a mais elevada relação precisão/velocidade possível:
- Edge AI: implementação de deteção de alto desempenho em dispositivos NVIDIA Jetson ou Raspberry Pi.
- Robótica em tempo real: Permitir a navegação autónoma e a interação com objectos com uma latência mínima.
- Imagiologia médica: Assistência na análise precisa de imagens médicas para diagnósticos em que a exatidão é fundamental.
Ultralytics YOLOv8
Autores: Glenn Jocher, Ayush Chaurasia, Jing Qiu
Organização:Ultralytics
Data: 2023-01-10
GitHubultralytics
Docsyolov8
Lançado no início de 2023, YOLOv8 redefiniu o padrão para a deteção de objectos em tempo real. Introduziu uma cabeça de deteção sem âncoras e o módulo de espinha dorsal C2f, marcando um afastamento significativo das abordagens baseadas em âncoras. YOLOv8 é conhecido pela sua estabilidade, versatilidade e pelo enorme ecossistema que se desenvolveu em torno dele, tornando-o um dos modelos de visão mais amplamente adoptados a nível mundial.
Arquitetura e Principais Características
YOLOv8 utiliza uma modificação do backbone CSPDarknet53, incorporando módulos C2f que permitem um fluxo de gradiente mais rico. A sua conceção sem âncoras simplifica o processo de supressão não máxima (NMS) e reduz a complexidade da afinação de hiperparâmetros relacionada com as caixas de âncoras. O modelo é altamente escalável, oferecendo variantes de Nano (n) a Extra Large (x) para se adequar a vários orçamentos computacionais.
Pontos Fortes
- Fiabilidade comprovada: amplamente testada em ambientes de produção em todo o mundo, garantindo uma elevada estabilidade.
- Ecossistema rico: apoiado por milhares de tutoriais, integrações e projectos comunitários.
- Versatilidade: Tal como YOLO11, suporta a deteção, segmentação, classificação e estimativa de pose.
- Base sólida: continua a oferecer um desempenho competitivo que excede o de muitas arquitecturas não YOLO .
Fraquezas
- Diferença de desempenho: Geralmente ultrapassado pelo YOLO11 , tanto em termos de exatidãomAP) como de velocidade de inferência, particularmente em hardware CPU .
- Custo computacional mais elevado: Requer um pouco mais de parâmetros e FLOPs para atingir uma precisão comparável à YOLO11.
Casos de Uso
YOLOv8 continua a ser uma excelente opção para:
- Sistemas antigos: Projectos já integrados com fluxos de trabalho YOLOv8 que exigem estabilidade em vez de desempenho de ponta.
- Ferramentas educativas: Aprender conceitos de visão computacional utilizando um modelo com vasta documentação e exemplos da comunidade.
- Deteção para fins gerais: Desempenho fiável para aplicações padrão de segurança e monitorização.
Comparação Direta de Desempenho
A distinção mais significativa entre estes dois modelos reside na sua eficiência. YOLO11 alcança uma "melhoria de Pareto" em relação ao YOLOv8maior precisão com menor custo computacional.
Análise de eficiência e velocidade
As optimizações arquitectónicas do YOLO11 (C3k2, C2PSA) permitem-lhe processar imagens mais rapidamente, mantendo caraterísticas mais refinadas. Isso é mais evidente na inferênciaCPU , onde os modelos YOLO11 mostram aumentos substanciais de velocidade. Por exemplo, o modelo YOLO11n é aproximadamente 30% mais rápido na CPU do que YOLOv8n , ao mesmo tempo que atinge um mAP mais elevado.
Em termos de inferênciaGPU , os modelos YOLO11 também demonstram menor latência na maioria dos tamanhos, tornando-os altamente eficazes para pipelines de processamento de vídeo em tempo real.
Eficiência da memória
Tanto o Ultralytics YOLO11 como YOLOv8 foram concebidos para um baixo consumo de memória durante a formação e a inferência, em comparação com modelos baseados em transformadores como o RT-DETR. Isto torna-os muito mais acessíveis para os programadores que utilizam hardware de consumo ou ambientes de nuvem com memória CUDA limitada.
Métricas comparativas
A tabela abaixo ilustra as melhorias de desempenho. Note-se a redução dos parâmetros e dos FLOPs para o YOLO11 a par do aumento do mAP.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
A vantagem do ecossistema Ultralytics
Escolher um modelo Ultralytics significa ter acesso a um ecossistema abrangente concebido para otimizar todo o ciclo de vida dos MLOps.
- Facilidade de Uso: Ambos os modelos partilham o mesmo API Python e na interface de linha de comandoCLI). Mudar do YOLOv8 para o YOLO11 muitas vezes requer apenas a alteração de um único carácter na sua cadeia de código (por exemplo,
"yolov8n.pt"para"yolo11n.pt"). - Eficiência de treinamento: Os modelos Ultralytics utilizam rotinas de treinamento avançadas, incluindo aumento de mosaico e evolução de hiperparâmetros. Os pesos pré-treinados estão prontamente disponíveis, permitindo uma aprendizagem de transferência eficiente em conjuntos de dados personalizados.
- Versatilidade: Ao contrário de muitos concorrentes limitados a tarefas específicas, os modelos Ultralytics oferecem suporte nativo para deteção, segmentação, classificação, pose e OBB num pacote unificado.
- Implementação: Exporte modelos facilmente para formatos como ONNX, TensorRTCoreML e OpenVINO para uma implantação otimizada em diversos hardwares.
Exemplo de utilização unificada
A conceção da API partilhada permite uma experimentação sem esforço. Eis como pode carregar e executar a previsão com qualquer um dos modelos:
from ultralytics import YOLO
# Load YOLO11 or YOLOv8 by simply changing the model name
model = YOLO("yolo11n.pt") # or "yolov8n.pt"
# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Conclusão: Qual Modelo Você Deve Escolher?
Para a grande maioria dos novos projectos, YOLO11 é a escolha recomendada. Os seus avanços arquitectónicos proporcionam uma clara vantagem em termos de precisão e velocidade, especialmente para aplicações de computação periférica em que a eficiência é fundamental. A contagem reduzida de parâmetros também implica requisitos de armazenamento mais leves e tempos de descarregamento mais rápidos para implementações móveis.
YOLOv8 continua a ser uma ferramenta poderosa e relevante, especialmente para as equipas com pipelines existentes profundamente integrados com versões específicas YOLOv8 ou para aqueles que confiam na maturidade absoluta do seu ecossistema de documentação. No entanto, a migração para o YOLO11 é geralmente simples e produz benefícios imediatos em termos de desempenho.
Ambos os modelos são lançados sob a licença AGPL-3.0 promovendo a colaboração de código aberto, com licenças empresariais disponíveis para produtos comerciais que requerem capacidades proprietárias.
Explore Outros Modelos
Embora YOLO11 e YOLOv8 sejam excelentes detectores de uso geral, os requisitos específicos podem beneficiar de outras arquitecturas da família Ultralytics :
- YOLOv10: centra-se na formação NMS para uma menor latência.
- YOLOv9: Dá ênfase à informação de gradiente programável para a formação de modelos profundos.
- RT-DETR: Um detetor baseado em transformador que oferece uma elevada precisão, embora com maiores requisitos de memória e computação.
Explore a nossa gama completa de comparações de modelos para encontrar a solução perfeita para o seu projeto.