YOLO vs. YOLOv8: Um mergulho técnico profundo
O panorama da deteção de objectos está em constante evolução, com investigadores e engenheiros a esforçarem-se por equilibrar as exigências concorrentes de velocidade, precisão e eficiência computacional. Duas arquitecturas proeminentes que causaram ondas significativas na comunidade da visão computacional são a YOLO, desenvolvida pelo Alibaba Group, e a YOLOv8criada pela Ultralytics.
Esta comparação técnica explora as inovações arquitectónicas, as métricas de desempenho e a facilidade de utilização prática de ambos os modelos. Enquanto o YOLO introduz novos conceitos de investigação, como a Pesquisa de Arquitetura Neural (NAS), o Ultralytics YOLOv8 concentra-se em fornecer um ecossistema robusto e de fácil utilização que simplifica o fluxo de trabalho desde a formação até à implementação.
Análise de Desempenho: Velocidade e Precisão
Para compreender como estes modelos se comparam em cenários do mundo real, analisamos o seu desempenho no conjunto de dadosCOCO padrão. As métricas abaixo destacam as compensações entre a precisão média médiamAP), a velocidade de inferência em diferentes hardwares e a complexidade do modelo.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Principais Conclusões
Os dados revelam vantagens distintas consoante o objetivo da implantação:
- Desempenho da borda: O YOLOv8n (Nano) é o líder indiscutível para ambientes com recursos limitados. Com apenas 3,2 milhões de parâmetros e 8,7 bilhões de FLOPs, ele atinge as velocidades de inferência mais rápidas na CPU e na GPU. Isto torna-o ideal para aplicações móveis ou dispositivos IoT onde a memória e a energia são escassas.
- Precisão de pico: Para aplicações em que a precisão é fundamental, YOLOv8x atinge o maior mAP de 53,9%. Embora os modelos YOLO tenham um bom desempenho, a maior variante YOLOv8 ultrapassa ainda mais os limites da precisão de deteção.
- Compensações de latência: O YOLO demonstra um rendimento impressionante em GPUs dedicadas (como o T4), impulsionado por seu backbone otimizado para NAS. No entanto, Ultralytics YOLOv8 mantém um equilíbrio superior em uma variedade maior de hardware, incluindo CPUs, garantindo maior flexibilidade de implantação.
YOLO: Inovação orientada para a investigação
YOLO é um produto das iniciativas de investigação do Grupo Alibaba. O nome significa "Discovery, Adventure, Momentum, and Outlook" (Descoberta, Aventura, Impulso e Perspectivas), reflectindo a ênfase na exploração de novas fronteiras arquitectónicas.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO
Destaques arquitectónicos
A YOLO integra várias tecnologias avançadas para otimizar a relação entre latência e precisão:
- Backbone MAE-NAS: Utiliza a Pesquisa de Arquitetura Neural (NAS) para descobrir automaticamente estruturas de rede eficientes, utilizando especificamente um método chamado MAE-NAS.
- RepGFPN Neck: Uma Rede de Pirâmide de Caraterísticas Generalizadas (GFPN) fortemente parametrizada é utilizada para maximizar o fluxo de informação entre diferentes níveis de escala, melhorando a deteção de objectos a distâncias variáveis.
- ZeroHead: Para contrabalançar o pescoço pesado, o modelo utiliza um "ZeroHead" leve, reduzindo a carga computacional na fase final de deteção.
- AlignedOTA: Uma estratégia dinâmica de atribuição de rótulos que alinha as tarefas de classificação e regressão durante o treino, ajudando o modelo a convergir mais eficazmente.
Ultralytics YOLOv8: A norma do ecossistema
YOLOv8 representa um refinamento da arquitetura YOLO centrado na usabilidade, versatilidade e desempenho de ponta. Ao contrário dos modelos de investigação puros, YOLOv8 foi concebido como um produto para programadores, dando ênfase a um ecossistema bem mantido e à facilidade de integração.
Autores: Glenn Jocher, Ayush Chaurasia e Jing Qiu
Organização:Ultralytics
Data: 2023-01-10
Docs:Ultralytics YOLOv8
Pontos fortes da arquitetura
- Deteção sem âncoras: YOLOv8 elimina as caixas de ancoragem, reduzindo o número de hiperparâmetros que os programadores precisam de ajustar e simplificando o processo de formação.
- Módulo C2f: A arquitetura substitui o módulo C3 pelo C2f, oferecendo informações mais ricas sobre o fluxo de gradiente, mantendo uma pegada leve.
- Cabeça desacoplada: Ao separar as tarefas de classificação e regressão na cabeça, o modelo consegue uma maior precisão de localização.
- Estrutura unificada: Talvez a sua caraterística arquitetónica mais forte seja o seu suporte nativo para múltiplas tarefas de visão -segmentação de instâncias, estimativa de pose, classificação e deteção orientada de objectos (OBB) - tudo numa única base de código.
Sabia que?
Ultralytics fornece um caminho simples para exportar modelos para formatos optimizados como ONNX, TensorRT, CoreMLe OpenVINO. Esta capacidade de exportação garante que os seus modelos treinados podem ser executados de forma eficiente em quase todas as plataformas de hardware.
Usabilidade e experiência do programador
A divergência mais significativa entre os dois modelos reside na facilidade de utilização e no ecossistema envolvente.
Ultralytics YOLO são famosos pela sua experiência do "zero ao herói". Com uma simples instalação PIP, os programadores obtêm acesso a uma poderosa CLI e a uma API Python . Isso reduz significativamente a barreira de entrada em comparação com os repositórios de pesquisa que geralmente exigem configurações de ambiente complexas.
Eficiência da formação
Os modelos Ultralytics são projetados para eficiência de treinamento. Eles utilizam eficientemente a memória CUDA , permitindo tamanhos de lote maiores ou treinamento em GPUs de nível de consumidor. Além disso, a disponibilidade de pesos pré-treinados de alta qualidade acelera a convergência, economizando tempo e energia de computação valiosos.
Aqui está um exemplo completo e executável de como carregar e prever com um modelo YOLOv8 em apenas três linhas de Python:
from ultralytics import YOLO
# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")
# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
for result in results:
result.show()
Em contrapartida, embora o YOLO ofereça um bom desempenho, requer geralmente uma configuração mais manual e familiaridade com quadros orientados para a investigação, o que o torna menos acessível para uma prototipagem rápida ou integração comercial.
Conclusão: Escolher a ferramenta correta
Tanto o YOLO como YOLOv8 são realizações excepcionais no domínio da visão por computador.
O YOLO é uma excelente escolha para investigadores interessados na Pesquisa de Arquitetura Neural e para aqueles que implementam especificamente em hardware onde a sua espinha dorsal personalizada está totalmente optimizada.
No entanto, para a maioria dos programadores, investigadores e empresas, Ultralytics YOLOv8 (e o mais recente YOLO11) oferece uma proposta de valor superior:
- Versatilidade: Capaz de lidar com a deteção, segmentação, pose e OBB numa única estrutura.
- Facilidade de uso: Documentação inigualável, API simples e suporte robusto da comunidade.
- Implementação: O suporte alargado para modos de exportação abrange tudo, desde telemóveis a servidores na nuvem.
- Equilíbrio de desempenho: Excelente relação precisão/velocidade, particularmente em dispositivos CPU e Edge.
Para aqueles que procuram manter-se na vanguarda absoluta, recomendamos também que consultem YOLO11que se baseia nos pontos fortes do YOLOv8 com ainda mais eficiência e precisão.
Explore Outras Comparações de Modelos
Para o ajudar a tomar a decisão mais informada para os seus projectos de visão por computador, explore estas comparações adicionais detalhadas: