YOLOv10 . YOLOv9: Avanços na deteção de objetos em tempo real
O ano de 2024 marcou um período de rápida inovação no panorama da deteção de objetos, com o lançamento de duas arquiteturas significativas: YOLOv10 e YOLOv9. Embora ambos os modelos tenham como objetivo ultrapassar os limites de velocidade e precisão, eles alcançam isso por meio de filosofias arquitetónicas fundamentalmente diferentes.
YOLOv10 em eliminar a latência de inferência causada pelo pós-processamento através de um design NMS, enquanto YOLOv9 a retenção de informações em redes profundas usando Informação de Gradiente Programável (PGI).
Comparação de Desempenho
A tabela a seguir fornece uma visão detalhada de como esses modelos se comparam em benchmarks padrão. Os dados destacam as compensações entre eficiência de parâmetros, velocidade de inferência e precisão de detecção (mAP).
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv10: O Pioneiro Ponta a Ponta
YOLOv10, desenvolvido por investigadores da Universidade de Tsinghua, representa uma mudança em direção ao processamento de ponta a ponta. Lançado em 23 de maio de 2024 por Ao Wang, Hui Chen e colegas, ele aborda o gargalo da supressão não máxima (NMS).
Principais Características Arquitetônicas
- TreinamentoNMS: Ao empregar atribuições duplas consistentes, YOLOv10 a necessidade de NMS a inferência. Isso reduz a latência e simplifica os pipelines de implementação, especialmente para aplicações de computação de ponta.
- Design de eficiência holística: a arquitetura otimiza vários componentes para reduzir a sobrecarga computacional (FLOPs) enquanto mantém alta capacidade.
- Latência melhorada: conforme mostrado na tabela, YOLOv10 geralmente oferecem tempos de inferência mais baixos em comparação com os seus YOLOv9 para níveis de precisão semelhantes.
Para detalhes técnicos, pode consultar o artigoYOLOv10 .
YOLOv9: Dominando o fluxo de informações
YOLOv9, lançado em 21 de fevereiro de 2024 por Chien-Yao Wang e Hong-Yuan Mark Liao, da Academia Sinica, concentra-se na questão teórica da perda de informação em redes neurais profundas.
Principais Características Arquitetônicas
- Arquitetura GELAN: A Rede Generalizada de Agregação de Camadas Eficientes combina os pontos fortes da CSPNet e da ELAN para maximizar a utilização dos parâmetros.
- Informação de gradiente programável (PGI): Este mecanismo de supervisão auxiliar garante que as camadas profundas retenham informações críticas para uma deteção precisa, tornando o modelo altamente eficaz para tarefas que exigem alta precisão.
- Alta precisão: O modelo YOLOv9e atinge um impressionantemAPval de 55,6%, superando muitos concorrentes contemporâneos em precisão de detecção pura.
Para uma análise mais aprofundada, leia o artigoYOLOv9 .
Treino e Facilidade de Uso
Ambos os modelos estão totalmente integrados ao Ultralytics , proporcionando uma experiência unificada e perfeita para os programadores. Quer esteja a utilizar YOLOv10 YOLOv9, a Python Ultralytics abstrai a complexidade dos pipelines de treino, aumento de dados e registo.
Exemplo de Código
Treinar um modelo em um conjunto de dados personalizado ou em um benchmark padrão como COCO8 muito simples. A estrutura lida automaticamente com as diferenças na arquitetura.
from ultralytics import YOLO
# Load a model (Choose YOLOv10 or YOLOv9)
model = YOLO("yolov10n.pt") # or "yolov9c.pt"
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model
model.val()
Eficiência de Memória
YOLO Ultralytics são projetados para otimizar o uso GPU . Em comparação com arquiteturas baseadas em transformadores ou modelos de detecção mais antigos, eles permitem tamanhos de lote maiores em hardware de nível consumidor, tornando a IA de última geração acessível a um público mais amplo.
Casos de Uso Ideais
A escolha entre YOLOv10 YOLOv9 depende YOLOv9 das restrições específicas do seu ambiente de implementação.
Quando Escolher YOLOv10
- Restrições de baixa latência: se a sua aplicação é executada em dispositivos móveis ou sistemas incorporados, onde cada milésimo de segundo conta, o design NMS do YOLOv10 uma vantagem significativa.
- Implementação simples: a remoção das etapas de pós-processamento simplifica a exportação para formatos como ONNX ou TensorRT, reduzindo o risco de incompatibilidade do operador.
- Vídeo em tempo real: Ideal para gestão de tráfego ou linhas de produção de alta velocidade, onde o rendimento é fundamental.
Quando Escolher YOLOv9
- Precisão máxima: para aplicações de pesquisa ou cenários em que a precisão é fundamental (por exemplo, análise de imagens médicas), a arquitetura aprimorada com PGI do YOLOv9e oferece resultados superiores.
- Detecção de pequenos objetos: A rica preservação de recursos do GELAN torna YOLOv9 robusto para detectar objetos pequenos ou ocultos em imagens aéreas.
- Cenas complexas: em ambientes com grande confusão visual, as informações de gradiente programáveis ajudam o modelo a distinguir características relevantes de forma mais eficaz.
O futuro está aqui: YOLO26
Embora YOLOv9 YOLOv10 ferramentas poderosas, o campo da visão computacional evolui rapidamente. Ultralytics lançou Ultralytics o YOLO26, um modelo que sintetiza as melhores características das gerações anteriores e introduz otimizações inovadoras.
O YOLO26 é a escolha recomendada para novos projetos, oferecendo um equilíbrio superior entre velocidade, precisão e versatilidade.
Por que Atualizar para o YOLO26?
- NMS de ponta a ponta: Assim como YOLOv10, o YOLO26 é nativamente de ponta a ponta. Ele elimina NMS , garantindo uma inferência mais rápida e pipelines de implementação simplificados.
- Otimizador MuSGD: Inspirado nas inovações no treinamento de Modelos de Linguagem Grande (LLM) (especificamente o Kimi K2 da Moonshot AI), o YOLO26 utiliza um híbrido de SGD o otimizador Muon. Isso resulta em um treinamento significativamente mais estável e uma convergência mais rápida.
- Remoção de DFL: Ao remover a perda focal de distribuição, o YOLO26 simplifica a arquitetura do modelo, tornando-o mais fácil de exportar e compatível com uma gama mais ampla de dispositivos de ponta/baixo consumo de energia.
- Aumento de desempenho: otimizações específicas para CPU proporcionam velocidades até 43% mais rápidas do que as gerações anteriores, tornando-o uma potência para IA de ponta.
- Versatilidade de tarefas: Ao contrário das versões v9 e v10, focadas na detecção, o YOLO26 inclui melhorias especializadas para todas as tarefas:
- Segmentação: Nova perda de segmentação semântica e proto multiescala.
- Pose: Estimativa da Log-Verossimilhança Residual (RLE) para pontos-chave de alta precisão.
- OBB: Perda de ângulo especializada para lidar com questões de limites em tarefas de Oriented Bounding Box.
Fluxo de trabalho simplificado com Ultralytics
Os programadores podem aproveitar a Ultralytics (anteriormente HUB) para gerir todo o ciclo de vida dos seus modelos YOLO26. Desde a anotação de conjuntos de dados até ao treino na nuvem e à implementação em dispositivos de ponta, a Plataforma oferece uma interface unificada que acelera o tempo de comercialização.
Conclusão
Ambos YOLOv10 e YOLOv9 representam marcos significativos na história da detecção de objetos. YOLOv10 que arquiteturas NMS poderiam atingir um desempenho de ponta, enquanto YOLOv9 a importância do fluxo de informações de gradiente em redes profundas.
No entanto, para os programadores que procuram a solução mais robusta, versátil e preparada para o futuro, o YOLO26 destaca-se como a melhor escolha. Ao combinar um design NMS com o revolucionário otimizador MuSGD e um amplo suporte a tarefas, o YOLO26 oferece o melhor equilíbrio de desempenho para aplicações modernas de visão computacional.
Modelos relacionados
- YOLO11 - O robusto antecessor do YOLO26, conhecido pela sua estabilidade.
- YOLOv8 - Um clássico versátil amplamente utilizado na indústria.
- RT-DETR - Um detetor em tempo real baseado em transformador.