YOLO vs. YOLOv9: Comparação técnica pormenorizada
A escolha do modelo de deteção de objectos ideal é fundamental para as tarefas de visão por computador, uma vez que diferentes modelos oferecem vantagens únicas em termos de precisão, velocidade e eficiência. Esta página oferece uma comparação técnica entre o YOLO e o YOLOv9, dois modelos avançados no terreno. Analisamos as suas arquitecturas, referências de desempenho e aplicações adequadas para orientar a sua seleção de modelos.
DAMO-YOLO
O YOLO é apresentado pelo Grupo Alibaba e introduzido em novembro de 2022(arXiv). Dá ênfase a um equilíbrio entre velocidade e precisão, incorporando backbones de Pesquisa de Arquitetura Neural (NAS) e componentes de rede eficientes.
Arquitetura e caraterísticas
A arquitetura da YOLO distingue-se por várias inovações fundamentais:
- Backbone NAS: Utiliza um backbone optimizado através da Pesquisa de Arquitetura Neural para uma extração eficiente de caraterísticas.
- RepGFPN: Utiliza uma rede eficiente de pirâmide de caraterísticas de gradiente reparametrizado (GFPN) para a fusão de caraterísticas.
- ZeroHead: Uma cabeça de deteção leve concebida para reduzir a sobrecarga computacional.
- AlignedOTA: Implementa o Aligned Optimal Transport Assignment (OTA) para melhorar a atribuição de etiquetas durante a formação.
- Melhoria da destilação: Incorpora técnicas de destilação de conhecimentos para aumentar o desempenho.
Métricas de desempenho
A YOLO oferece vários tamanhos de modelos (minúsculo, pequeno, médio, grande) para satisfazer diferentes necessidades computacionais. Os principais indicadores de desempenho incluem:
- mAP: Atinge uma precisão média competitiva (mAP) em conjuntos de dados como o COCO.
- Velocidade de inferência: Concebida para uma inferência rápida, adequada para tarefas de deteção de objectos em tempo real.
- Tamanho do modelo: Disponível em diferentes tamanhos, permitindo flexibilidade de implantação.
Pontos fortes e pontos fracos
Pontos fortes:
- Elevada precisão e velocidade: equilibra a precisão com uma velocidade de inferência eficiente.
- Arquitetura inovadora: Incorpora NAS e componentes eficientes para um desempenho optimizado.
- Adaptabilidade: Oferece diferentes tamanhos de modelos para diversos requisitos de aplicação.
Pontos fracos:
- Complexidade: A arquitetura avançada pode ser mais complexa de personalizar ou modificar do que os modelos mais simples.
- Documentação limitada: A documentação pode ser menos extensa em comparação com modelos mais amplamente adoptados, como a série YOLO (GitHub README).
Casos de utilização
A YOLO é adequada para aplicações que requerem uma mistura de precisão e velocidade, tais como:
- Vigilância em tempo real: Sistemas de segurança e monitorização em que a deteção atempada é crucial.
- Robótica: Aplicações em robótica que exigem uma perceção eficiente e exacta.
- Inspeção industrial: Processos automatizados de controlo de qualidade na indústria transformadora.
YOLOv9
O YOLOv9 é o mais recente da série YOLO , introduzido em fevereiro de 2024(arXiv) por investigadores do Instituto de Ciências da Informação, Academia Sinica, Taiwan. O YOLOv9 centra-se no tratamento da perda de informação em redes profundas para melhorar a precisão e a eficiência.
Arquitetura e caraterísticas
O YOLOv9 introduz técnicas inovadoras para ultrapassar as limitações dos modelos de aprendizagem profunda:
- Informação de gradiente programável (PGI): Uma inovação fundamental para preservar informações cruciais em toda a rede, atenuando a perda de informações.
- Rede de agregação de camadas eficiente e generalizada (GELAN): Emprega GELAN para computação eficiente e utilização de parâmetros.
- Melhorias no backbone e na cabeça: Refinamentos na espinha dorsal e na cabeça de deteção para uma melhor extração e deteção de caraterísticas.
Métricas de desempenho
O YOLOv9 demonstra um desempenho de ponta na deteção de objectos em tempo real:
- mAP: Obtém pontuações elevadas de mAP em conjuntos de dados de referência como o COCO, superando os modelos anteriores.
- Velocidade de inferência: Mantém velocidades de inferência impressionantes, adequadas a aplicações em tempo real.
- Tamanho do modelo: Oferece diferentes tamanhos de modelos (minúsculo, pequeno, médio, etc.) com diferentes contagens de parâmetros e FLOPs.
Pontos fortes e pontos fracos
Pontos fortes:
- Precisão de última geração: Atinge uma precisão superior em comparação com muitos detectores de objectos em tempo real.
- Conceção eficiente: O PGI e o GELAN contribuem para uma maior eficiência e para a redução da sobrecarga computacional.
- Versatilidade: Adaptável a várias tarefas de deteção de objectos e cenários de implementação.
- IntegraçãoUltralytics : Fácil de usar com opacote Ultralytics Python e documentação abrangente.
Pontos fracos:
- Novo modelo: Sendo um modelo mais recente, o apoio da comunidade e os recursos disponíveis podem ainda estar a crescer em comparação com modelos mais estabelecidos.
- Exigência computacional: Os modelos YOLOv9 de maiores dimensões podem ainda exigir recursos computacionais significativos.
Casos de utilização
O YOLOv9 é ideal para aplicações que exigem precisão de alto nível e processamento em tempo real:
- Sistemas avançados de assistência ao condutor (ADAS): Automóveis de condução autónoma e sistemas autónomos que exigem uma deteção precisa de objectos.
- Análise de imagens de alta resolução: Aplicações que beneficiam de uma deteção detalhada e precisa em imagens de alta resolução, como a análise de imagens de satélite.
- Automação industrial: Tarefas de automatização complexas que exigem elevada precisão e fiabilidade.
Tabela de comparação de modelos
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Tanto o YOLO como o YOLOv9 representam avanços significativos na deteção de objectos. O YOLO oferece um forte equilíbrio entre velocidade e precisão através da sua arquitetura eficiente, enquanto o YOLOv9 ultrapassa os limites da precisão com as suas inovadoras técnicas PGI e GELAN. A sua escolha dependerá das necessidades específicas da sua aplicação, quer esta dê prioridade à precisão de ponta ou a um perfil de desempenho completo.
Os utilizadores poderão também estar interessados em comparar estes modelos com outras variantes YOLO , tais como YOLOv8, YOLOv7, YOLOv5e YOLO11bem como modelos como o YOLOX, RT-DETRe PP-YOLOE para uma maior exploração dos modelos de deteção de objectos.