YOLOv9 . YOLOv6.0: Inovação arquitetónica e análise de desempenho
O panorama da deteção de objetos em tempo real muda rapidamente, com os investigadores a expandirem constantemente os limites da precisão e da eficiência. Dois marcos significativos nesta evolução são YOLOv9, introduzido pela Academia Sinica no início de 2024, e YOLOv6.YOLOv6, um lançamento robusto da Meituan em 2023. Embora ambos os modelos tenham como objetivo resolver desafios industriais, eles adotam abordagens arquitetónicas fundamentalmente diferentes para alcançar alto desempenho.
Filosofias Arquitetónicas
A principal diferença entre esses dois modelos reside na forma como eles gerenciam o fluxo de informações e a extração de características em toda a rede neural.
YOLOv9: Recuperando informações perdidas
YOLOv9 aborda uma questão fundamental no deep learning: a perda de informação à medida que os dados se propagam através de camadas profundas. Os autores, Chien-Yao Wang e Hong-Yuan Mark Liao, introduziram a Informação de Gradiente Programável (PGI). A PGI fornece um ramo de supervisão auxiliar que garante a preservação de informações semânticas críticas, permitindo que o modelo aprenda características mais robustas sem adicionar custos de inferência.
Além disso, YOLOv9 a arquitetura GELAN (Generalized Efficient Layer Aggregation Network). O GELAN otimiza a utilização de parâmetros, combinando os pontos fortes do CSPNet e do ELAN para alcançar uma precisão superior com menos FLOPs em comparação com as gerações anteriores.
YOLOv6-3.0: Otimização Industrial
YOLOv6.YOLOv6, desenvolvido pela equipa de visão da Meituan, concentra-se fortemente na implementação industrial prática. Apelidada de «A Full-Scale Reloading» (Recarregamento em Grande Escala), esta versão introduziu o Anchor-Aided Training (AAT), que combina os benefícios dos detetores baseados em âncoras e sem âncoras para estabilizar o treino. Também apresenta um design renovado do pescoço usando Bi-directional Concatenation (BiC) para melhorar a fusão de recursos.
YOLOv6 conhecido pelo uso intenso da reparametrização do tipo RepVGG, permitindo estruturas de treino complexas que se transformam em blocos de inferência mais simples e rápidos.
Comparação de Desempenho
Ao comparar o desempenho, YOLOv9 demonstra uma precisão média (mAP) mais elevada com custos computacionais semelhantes ou inferiores. A arquitetura GELAN permite YOLOv9 processe imagens com alta eficiência, tornando-o uma escolha formidável para tarefas que exigem alta precisão.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Embora YOLOv6. YOLOv6 apresente TensorRT competitivas TensorRT — em grande parte devido ao seu design de backbone compatível com hardware —,YOLOv9 alcança maior precisão por parâmetro. Por exemplo, o YOLOv9m supera YOLOv6.YOLOv6 em precisão (51,4% contra 50,0%), utilizando significativamente menos parâmetros (20,0 milhões contra 34,9 milhões).
Ecossistema e Facilidade de Uso
Um dos fatores mais críticos para os programadores é o ecossistema em torno de um modelo. É aqui que a Ultralytics e a biblioteca Ultralytics oferecem uma vantagem distinta.
A Vantagem Ultralytics
YOLOv9 totalmente integrado ao Ultralytics , oferecendo uma API unificada que simplifica todo o ciclo de vida das operações de aprendizado de máquina (MLOps).
- Treinamento simples: você pode treinar um YOLOv9 com dados personalizados em apenas algumas linhas de Python.
- Eficiência de memória: Ultralytics são otimizados para reduzir o uso GPU durante o treinamento, evitando os erros de falta de memória (OOM) comuns em outros repositórios.
- Versatilidade: O ecossistema suporta a exportação fácil para formatos como ONNX, OpenVINOe TensorRT.
Fluxo de Trabalho Otimizado
A utilização Ultralytics um tempo significativo de engenharia em comparação com a configuração de repositórios de pesquisa independentes.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Em contrapartida, a utilização YOLOv6 envolve YOLOv6 a clonagem do repositório específico da Meituan, a configuração de um ambiente dedicado e a gestão manual de ficheiros de configuração e pipelines de aumento de dados.
Aplicações no Mundo Real
A escolha entre esses modelos geralmente depende das restrições específicas do seu ambiente de implementação.
Cenários de alta precisão (YOLOv9)
A capacidade YOLOv9 de reter informações semânticas torna-o ideal para tarefas de detecção desafiadoras, nas quais pequenos detalhes são importantes.
- Imagem médica: em tarefas como a deteção de tumores, a arquitetura PGI ajuda a preservar características tênues que, de outra forma, poderiam ser perdidas nas camadas profundas da rede.
- Vigilância aérea: para detetar pequenos objetos, como veículos ou pessoas, a partir de imagens de drones, a retenção de recursos aprimorada YOLOv9 melhora as taxas de recuperação.
Automação industrial (YOLOv6.0)
YOLOv6 explicitamente concebido para aplicações industriais em que o hardware é fixo e o rendimento é fundamental.
- Linhas de produção: Em ambientes controlados, como a produção de baterias, onde câmaras inspecionam peças numa correia transportadora, as TensorRT do YOLOv6 ser altamente eficazes.
Olhando para o Futuro: O Poder do YOLO26
Embora YOLOv9 YOLOv6. YOLOv6 sejam modelos excelentes, o campo continuou a avançar. O mais recente YOLO26 representa o estado da arte atual para desenvolvedores que buscam o equilíbrio definitivo entre velocidade, precisão e facilidade de uso.
O YOLO26 introduz várias funcionalidades inovadoras:
- NMS de ponta a ponta: ao remover a supressão não máxima (NMS), o YOLO26 simplifica os pipelines de implementação e reduz a variabilidade da latência.
- Otimizador MuSGD: Um híbrido de SGD e Muon, este otimizador traz melhorias de estabilidade inspiradas no treinamento de Modelos de Linguagem Grande (LLM).
- Eficiência aprimorada: com a remoção da perda focal de distribuição (DFL) e outras otimizações, o YOLO26 alcança CPU até 43% mais rápida, tornando-o perfeito para dispositivos de ponta como o Raspberry Pi.
- Versatilidade de tarefas: Além da deteção, o YOLO26 oferece melhorias especializadas para estimativa de pose (usando Estimativa Residual de Log-Likelihood) e segmentação.
Conclusão
Ambos YOLOv9 e YOLOv6.YOLOv6 oferecem recursos impressionantes. YOLOv6.0 continua sendo um forte concorrente para fluxos de trabalho industriais específicos TensorRT. No entanto, para a maioria dos pesquisadores e desenvolvedores, o YOLOv9 oferece eficiência e precisão superiores em termos de parâmetros. Além disso, fazer parte do Ultralytics garante suporte a longo prazo, fácil acesso a pesos pré-treinados e um caminho de atualização contínuo para arquiteturas mais recentes, como o YOLO26.
Referências
- YOLOv9: Wang, C.-Y., & Liao, H.-Y. M. (2024).YOLOv9: Aprendendo o que você quer aprender usando informações de gradiente programáveis». arXiv:2402.13616.
- YOLOv6 .0: Li, C., et al. (2023). «YOLOv6 .0: A Full-Scale Reloading.» arXiv:2301.05586.
- Ultralytics :ultralytics