YOLOv9 vs YOLOv10: Comparação técnica pormenorizada
Ultralytics está empenhada em ultrapassar os limites da visão por computador, e uma parte crucial deste objetivo é desenvolver e aperfeiçoar os nossos modelos YOLO . Esta página oferece uma comparação técnica detalhada entre o YOLOv9 e o YOLOv10, dois modelos de deteção de objectos de última geração. Iremos aprofundar as suas nuances arquitectónicas, referências de desempenho e aplicações adequadas para o ajudar a selecionar o modelo ideal para as suas tarefas específicas de visão por computador.
YOLOv9: Informação de gradiente programável
O YOLOv9, apresentado em fevereiro de 2024 por Chien-Yao Wang e Hong-Yuan Mark Liao do Instituto de Ciências da Informação, Academia Sinica, Taiwan, representa um avanço significativo na deteção eficiente de objectos. A principal inovação do YOLOv9 está em seu Programmable Gradient Information (PGI), projetado para lidar com a perda de informações durante o processo de aprendizado profundo. Isto é conseguido através de técnicas como as Redes de Agregação de Camadas Eficientes Generalizadas (GELAN), garantindo que o modelo aprende exatamente o que se pretende que ele aprenda.
Arquitetura e principais caraterísticas: O YOLOv9 utiliza o GELAN para melhorar a extração de caraterísticas e manter a integridade da informação em toda a rede. Esta abordagem conduz a um modelo que não é apenas exato mas também eficiente em termos de parâmetros, tornando-o adequado para implementações em que os recursos computacionais são limitados. O YOLOv9 é implementado a partir do documento"YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information".
Métricas de desempenho: O YOLOv9 demonstra um desempenho impressionante no conjunto de dados COCO. Por exemplo, o YOLOv9c atinge um mAPval50-95 de 53,0% com 25,3M parâmetros e 102,1B FLOPs. A arquitetura do modelo foi concebida para ser eficiente, permitindo-lhe alcançar uma elevada precisão com menos parâmetros e cálculos em comparação com os modelos anteriores.
Pontos fortes:
- Elevada precisão: Obtém a mais elevada precisão na deteção de objectos.
- Eficiência de parâmetros: Utiliza parâmetros e cálculos de forma eficaz devido ao GELAN e ao PGI.
- Abordagem inovadora: Introduz informação de gradiente programável para uma melhor aprendizagem.
Pontos fracos:
- Relativamente novo: Sendo um modelo mais recente, pode ter uma comunidade mais pequena e menos exemplos de implantação em comparação com modelos mais estabelecidos.
Casos de utilização: O YOLOv9 é adequado para aplicações que exigem elevada precisão e eficiência, tais como:
- Robótica avançada: Deteção de objectos em sistemas robóticos complexos.
- Análise de imagens de alta resolução: Cenários que exigem uma análise pormenorizada de imagens de grandes dimensões.
- Ambientes com recursos limitados: Dispositivos periféricos e aplicações móveis em que a potência computacional é limitada.
Autores e recursos:
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organização: Instituto de Ciência da Informação, Academia Sinica, Taiwan
- Data: 2024-02-21
- Arxiv: arXiv:2402.13616
- GitHub: github.com/WongKinYiu/yolov9
- Documentos: docsultralytics.com/models/yolov9/
YOLOv10: Conceção holística orientada para a eficiência e a precisão
O YOLOv10, lançado em maio de 2024 por Ao Wang, Hui Chen, Lihao Liu, et al. da Universidade de Tsinghua, foi concebido para a deteção de objectos em tempo real de ponta a ponta, dando ênfase à máxima eficiência e velocidade. O YOLOv10 introduz várias melhorias metodológicas importantes para melhorar a precisão e a eficiência, incluindo atribuições duplas consistentes para treinamento sem NMS e um design de modelo holístico orientado para a eficiência e precisão.
Arquitetura e principais caraterísticas: A arquitetura do YOLOv10 foi meticulosamente concebida para minimizar a redundância computacional e maximizar o desempenho. Os principais aprimoramentos de eficiência incluem um cabeçote de classificação leve, redução da amostragem desacoplada de canal espacial e design de bloco guiado por ranqueamento. A precisão é aumentada através de convoluções de núcleo grande e auto-atenção parcial (PSA). Estas inovações permitem que o YOLOv10 atinja uma velocidade e eficiência de ponta sem sacrificar a precisão. O YOLOv10 é detalhado no documento"YOLOv10: Real-Time End-to-End Object Detection".
Métricas de desempenho: O YOLOv10 estabelece novos padrões de referência na deteção de objectos em tempo real. Por exemplo, o YOLOv10-S é relatado como sendo 1,8x mais rápido que o RT-DETR com AP comparável no conjunto de dados COCO. O YOLOv10-B demonstra menos 46% de latência e menos 25% de parâmetros do que o YOLOv9-C, mantendo níveis de desempenho semelhantes. O YOLOv10-N atinge uma latência impressionante de apenas 1,84 ms numa GPU T4.
Pontos fortes:
- Eficiência extrema: Optimizado para uma latência e custo computacional mínimos.
- Treinamento sem NMS: As atribuições duplas consistentes permitem a implementação de ponta a ponta sem supressão não máxima, reduzindo o tempo de inferência.
- Alta velocidade: Atinge velocidades de inferência significativamente mais rápidas em comparação com as versões anteriores YOLO e outros modelos.
- Boa precisão: Mantém uma precisão competitiva, dando prioridade à eficiência.
Pontos fracos:
- Modelo muito recente: Sendo um modelo muito recente, ainda está em desenvolvimento ativo e o apoio da comunidade está a aumentar.
Casos de uso: O YOLOv10 é ideal para aplicações em que o desempenho em tempo real e a eficiência são fundamentais:
- Computação de ponta: Implementação em dispositivos periféricos com recursos limitados.
- Análise de vídeo em tempo real: Aplicações que requerem deteção imediata de objectos em fluxos de vídeo.
- Sistemas móveis e incorporados: Integração em aplicações móveis e sistemas incorporados onde a velocidade e o consumo de energia são críticos.
Autores e recursos:
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organização: Universidade de Tsinghua
- Data: 2024-05-23
- Arxiv: arXiv:2405.14458
- GitHub: github.com/THU-MIG/yolov10
- Documentos: docsultralytics.com/models/yolov10/
Tabela de comparação
Modelo | tamanho (pixéis) |
mAPval 50-95 |
Velocidade CPU ONNX (ms) |
Velocidade T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Conclusão
Tanto o YOLOv9 como o YOLOv10 representam avanços de ponta na deteção de objectos, cada um com pontos fortes únicos. O YOLOv9 destaca-se pela precisão e eficiência dos parâmetros através da sua Informação de Gradiente Programável, tornando-o adequado para análises complexas e detalhadas. O YOLOv10, por outro lado, dá prioridade à velocidade e ao desempenho em tempo real com o seu design holístico orientado para a eficiência e precisão e formação sem NMS, tornando-o ideal para aplicações de ponta e em tempo real.
Para os utilizadores que procuram um equilíbrio entre maturidade e versatilidade, Ultralytics YOLOv8 continua a ser uma escolha sólida. Para os interessados nos últimos avanços e na mais elevada precisão, Ultralytics YOLO11 também apresenta uma opção atraente, com base nos pontos fortes das iterações anteriores YOLO . Em última análise, o melhor modelo depende dos requisitos específicos do seu projeto, equilibrando a precisão, a velocidade e as restrições de recursos.