Ir para o conteúdo

YOLOv8 vs YOLOv9: Uma comparação técnica para a deteção de objectos

A seleção do modelo de visão computacional ideal é uma decisão fundamental que influencia o sucesso dos projectos de IA, equilibrando os requisitos de precisão, velocidade de inferência e eficiência computacional. Este guia completo compara Ultralytics YOLOv8um modelo versátil e pronto para produção, com o YOLOv9uma arquitetura focada em maximizar a precisão da deteção por meio de novos gradientes. Analisamos as suas distinções arquitectónicas, métricas de desempenho e cenários de implementação ideais para o ajudar a fazer uma escolha informada.

Ultralytics YOLOv8: O padrão para versatilidade e facilidade de utilização

Lançado pela Ultralytics, YOLOv8 representa uma grande evolução na série YOLO , concebida não apenas como um modelo, mas como uma estrutura completa para IA prática. Dá prioridade a uma experiência de utilizador sem falhas, a um desempenho robusto em todo o hardware e ao suporte de uma vasta gama de tarefas de visão para além da simples deteção.

Arquitetura e ecossistema

YOLOv8 introduz uma cabeça de deteção sem âncoras e um módulo C2f (Cross-Stage Partial com 2 convoluções), que melhora a integração de caraterísticas, mantendo uma execução leve. Ao contrário dos modelos centrados na investigação, YOLOv8 foi construído tendo em mente a implementação. Suporta nativamente a classificação de imagens, segmentação de instâncias, estimativa de pose e deteção de caixa delimitadora orientada (OBB).

O verdadeiro poder do YOLOv8 reside no ecossistemaUltralytics . Os programadores beneficiam de uma APIPython unificada e de um CLI que padronizam o treinamento, a validação e a implantação. Essa abordagem de "baterias incluídas" reduz drasticamente o tempo de lançamento no mercado de aplicativos de visão computacional.

Pontos Fortes

  • Versatilidade inigualável: Lida com deteção, segmentação, classificação e estimativa de pose numa única biblioteca.
  • Pronto para implantação: Suporte nativo à exportação para ONNX, OpenVINO, TensorRTe CoreML simplifica a integração em dispositivos periféricos e servidores na nuvem.
  • Eficiência de memória: Otimizado para menor uso de memória CUDA durante o treinamento em comparação com arquiteturas baseadas em transformadores, tornando-o acessível em GPUs de consumo padrão.
  • Equilíbrio entre velocidade e precisão: Oferece velocidades excepcionais de inferência em tempo real, muitas vezes superando os concorrentes em CPU e hardware de ponta.
  • Suporte ativo: Apoiado por uma enorme comunidade de código aberto e actualizações frequentes da Ultralytics, garantindo a compatibilidade com as bibliotecas e o hardware mais recentes.

Saiba mais sobre o YOLOv8.

YOLOv9: Inovação arquitetónica para uma elevada precisão

YOLOv9 foi lançado com o objetivo de resolver o problema do "gargalo de informação" na aprendizagem profunda. Introduz conceitos teóricos destinados a preservar a informação dos dados à medida que passam por camadas profundas, visando principalmente os limites superiores da precisão da deteção de objectos.

Inovações fundamentais

A arquitetura do YOLOv9 assenta em dois componentes principais: Programmable Gradient Information (PGI) e a Generalized Efficient Layer Aggregation Network (GELAN). O PGI funciona para evitar a perda de informações críticas de entrada durante o processo de alimentação em redes profundas, garantindo que gradientes confiáveis sejam gerados para atualizações. O GELAN foi concebido para otimizar a eficiência dos parâmetros, permitindo que o modelo atinja uma elevada precisão com uma pegada computacional respeitável.

Pontos Fortes

  • Alta precisão: A maior variante, YOLOv9, estabelece padrões de referência impressionantes para o mAP no conjunto de dados COCO , destacando-se em cenários onde a precisão é fundamental.
  • Eficiência de parâmetros: Graças ao GELAN, os modelos YOLOv9 de média dimensão atingem uma precisão competitiva com menos parâmetros do que algumas arquitecturas mais antigas.
  • Avanço teórico: Aborda questões fundamentais no treinamento de redes profundas no que diz respeito à preservação da informação.

Fraquezas

  • Versatilidade limitada: Principalmente focado na deteção de objectos. Embora capaz, não possui o suporte nativo e simplificado para segmentação, pose e classificação visto na linha principal Ultralytics .
  • Formação complexa: A introdução de ramos auxiliares para a IGP pode tornar o processo de formação mais intensivo em termos de recursos e complexo de afinar, em comparação com o pipeline YOLOv8 simplificado.
  • Velocidade de inferência: Embora eficiente, a complexidade arquitetónica pode levar a tempos de inferência mais lentos em determinado hardware, em comparação com os blocos altamente optimizados utilizados no YOLOv8.

Saiba mais sobre o YOLOv9

Comparação Direta de Desempenho

Ao comparar YOLOv8 e YOLOv9, a escolha geralmente se resume às restrições específicas do seu ambiente de implantação. YOLOv8 domina a velocidade de inferência e a flexibilidade de implantação, enquanto YOLOv9 ultrapassa o limite das métricas de deteção.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Os dados destacam uma distinção clara: YOLOv8 oferece velocidade superior, particularmente em GPU TensorRT) e CPU ONNX), o que é crítico para aplicações de IA de ponta. Por exemplo, YOLOv8n é significativamente mais rápido que o YOLOv9t em GPUs T4 (1,47ms vs 2,3ms). Por outro lado, o YOLOv9e atinge o maior mAP (55,6%), tornando-o adequado para o processamento do lado do servidor, onde a latência é menos crítica do que a deteção de detalhes minuciosos.

Sabia que?

Ultralytics YOLOv8 foi concebido com suporte nativo para todos principais tarefas de visão computacional. Pode passar da deteção de objectos para segmentação de instâncias simplesmente alterando o ficheiro de pesos do modelo (por exemplo, yolov8n.pt para yolov8n-seg.pt), um nível de flexibilidade não disponível no repositório YOLOv9 padrão.

Casos de Uso Ideais

Escolha Ultralytics YOLOv8 If:

  • Você precisa de uma solução pronta para produção: A extensa documentação, o suporte da comunidade e as integrações pré-construídas (como MLFlow e TensorBoard) simplificam o caminho do protótipo ao produto.
  • A velocidade é fundamental: Para análise de vídeo em tempo real, navegação autónoma ou aplicações móveis, a velocidade de inferência optimizada do YOLOv8 proporciona uma vantagem distinta.
  • Necessita de múltiplas tarefas de visão: Os projectos que envolvem estimativa de pose ou segmentação juntamente com deteção são melhor servidos pela estrutura unificada do YOLOv8.
  • Existem restrições de recursos: Os modelos YOLOv8 são altamente optimizados para vários tipos de hardware, garantindo um funcionamento eficiente em dispositivos que vão desde Raspberry Pis a NVIDIA Jetsons.

Escolha YOLOv9 se:

  • A precisão máxima é a única métrica: Para investigação académica ou tarefas de inspeção especializadas em que cada fração de percentagem no mAP é mais importante do que a velocidade ou a facilidade de utilização.
  • Está a investigar a arquitetura: Os conceitos PGI e GELAN são valiosos para os investigadores que estudam o fluxo de gradientes em redes profundas.

Implementação do código

Uma das principais vantagens do ecossistema Ultralytics é o facto de suportar ambos os modelos com a mesma API simples. Isto permite-lhe compará-los facilmente com os seus próprios conjuntos de dados personalizados.

Eis como pode treinar um modelo YOLOv8 em apenas algumas linhas de código:

from ultralytics import YOLO

# Load a YOLOv8 model
model = YOLO("yolov8n.pt")

# Train the model on your data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Como Ultralytics integra o YOLOv9, pode trocar a cadeia de modelos para yolov9c.pt para experimentar o YOLOv9 dentro do mesmo pipeline robusto, embora os modelos YOLOv8 nativos beneficiem frequentemente de uma maior integração com as ferramentas de implementação.

Conclusão

Para a grande maioria dos programadores e das aplicações comerciais, Ultralytics YOLOv8 continua a ser a escolha recomendada. O seu equilíbrio superior de velocidade e precisão, combinado com um ecossistema maduro e bem mantido, garante que os projectos estão preparados para o futuro e são mais fáceis de manter. A capacidade de lidar com deteção, segmentação e estimativa de pose em uma única estrutura oferece versatilidade sem igual.

Embora YOLOv9 introduza teorias arquitectónicas interessantes e atinja picos de precisão elevados, é frequentemente reservado para nichos de investigação específicos ou cenários em que a latência da inferência não é uma limitação.

Para quem procura as últimas novidades em tecnologia de visão por computador, não deixe de visitar o YOLO11que aperfeiçoa ainda mais a eficiência e o desempenho estabelecidos pelo YOLOv8. Além disso, os investigadores interessados em abordagens baseadas em transformadores podem explorar RT-DETR para diferentes compromissos arquitectónicos.

Explore mais comparações na nossa página de comparação de modelos.


Comentários