YOLOv9 vs. YOLO: Uma comparação técnica exaustiva
No panorama em rápida evolução da visão por computador, a seleção da arquitetura ideal de deteção de objectos é fundamental para o sucesso do projeto. Esta análise fornece uma comparação técnica pormenorizada entre dois modelos formidáveis: YOLOv9celebrado pelas suas inovações arquitectónicas na informação de gradiente, e o YOLO, um modelo do Alibaba Group concebido para inferência a alta velocidade. Examinamos as suas arquitecturas únicas, métricas de desempenho e cenários de implementação ideais para orientar os programadores e investigadores na tomada de decisões informadas.
YOLOv9: Informação de gradiente programável para uma precisão superior
YOLOv9 marca uma evolução significativa na série You Only Look OnceYOLO), centrando-se na resolução do problema do estrangulamento da informação inerente às redes neurais profundas. Ao assegurar que os dados de entrada cruciais são preservados ao longo das camadas da rede, YOLOv9 atinge uma precisão de ponta.
Autores: Chien-Yao Wang e Hong-Yuan Mark Liao
Organização:Institute of Information Science, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9 Documentation
Arquitetura e inovações essenciais
A arquitetura do YOLOv9 baseia-se em dois conceitos inovadores concebidos para otimizar a eficiência da aprendizagem profunda:
- Informação de Gradiente Programável (PGI): O PGI é uma estrutura de supervisão auxiliar que aborda a questão da perda de informações à medida que os dados se propagam através de camadas profundas. Garante que a função de perda recebe gradientes fiáveis, permitindo que o modelo aprenda caraterísticas mais eficazes sem adicionar custos de inferência.
- Rede de agregação de camadas eficiente e generalizada (GELAN): Esta nova arquitetura combina os pontos fortes da CSPNet e da ELAN. A GELAN foi concebida para maximizar a utilização de parâmetros e a eficiência computacional, fornecendo um backbone leve mas poderoso que suporta vários blocos computacionais.
Pontos fortes e ecossistema
- Precisão de topo: YOLOv9 atinge um nível excecional mAP excepcionais no conjunto de dadosCOCO , estabelecendo padrões de referência para detectores de objectos em tempo real.
- Eficiência de parâmetros: Graças ao GELAN, o modelo proporciona um elevado desempenho com menos parâmetros em comparação com muitos dos seus antecessores.
- IntegraçãoUltralytics : YOLOv9 facto de fazer parte do ecossistema Ultralytics significa que YOLOv9 beneficia de uma APIPython unificada, opções de exportação de modelos sem falhasONNX, TensorRT, CoreML) e documentação robusta.
- Estabilidade de treinamento: A estrutura PGI melhora significativamente a velocidade de convergência e a estabilidade durante o treinamento do modelo.
Fraquezas
- Intensidade de recursos: Embora eficientes para a sua classe de precisão, as variantes maiores (como YOLOv9) requerem GPU memória GPU para o treino.
- Foco da tarefa: A investigação principal visa principalmente a deteção de objectos, enquanto outros modelos Ultralytics como YOLO11 suportam nativamente um leque mais vasto de tarefas, incluindo a estimativa de pose e o OBB de imediato.
YOLO: Arquitetura Neural em busca de velocidade
O YOLO é uma prova do poder da conceção automatizada da arquitetura. Desenvolvido pela Alibaba, utiliza a Pesquisa de Arquitetura Neural (NAS) para encontrar o equilíbrio ideal entre latência de inferência e desempenho de deteção, visando especificamente aplicações industriais.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 2022-11-23
Arxiv:2211.15444
GitHub:YOLO
Arquitetura e Principais Características
A YOLO distingue-se por vários avanços tecnológicos destinados a maximizar o rendimento:
- Backbone MAE-NAS: Utiliza uma estrutura de backbone derivada da Pesquisa de Arquitetura Neural Eficiente Consciente de Métodos, optimizando a topologia da rede para restrições específicas de hardware.
- RepGFPN eficiente: O modelo utiliza uma rede de pirâmide de caraterísticas generalizada reparametrizada para o seu pescoço, melhorando a fusão de caraterísticas enquanto mantém uma baixa latência.
- ZeroHead: Um design de cabeça de deteção leve que reduz a sobrecarga computacional tipicamente associada às camadas de previsão final.
- AlignedOTA: Uma estratégia melhorada de atribuição de etiquetas que resolve o desalinhamento entre as tarefas de classificação e regressão durante o treino.
Pontos Fortes
- Baixa latência: O YOLO foi concebido para ser rápido, o que o torna altamente eficaz para inferência em tempo real em dispositivos de ponta e GPUs.
- Conceção automatizada: A utilização de NAS garante que a arquitetura é matematicamente ajustada para ser eficiente, em vez de depender apenas de heurísticas manuais.
- Sem âncoras: adopta uma abordagem sem âncoras, simplificando o processo de afinação de hiperparâmetros relacionado com as caixas de âncoras.
Fraquezas
- Ecossistema limitado: Em comparação com o vasto conjunto de ferramentas disponíveis para os modelos Ultralytics , o YOLO tem uma comunidade mais pequena e menos ferramentas de integração prontas para MLOps.
- Versatilidade: É principalmente especializado na deteção, não possuindo as capacidades multitarefa nativas (segmentação, classificação) encontradas em estruturas mais abrangentes.
Análise de Desempenho: Velocidade vs. Precisão
Ao comparar as métricas de desempenho, as compensações entre as duas arquitecturas tornam-se claras. YOLOv9 dá prioridade à preservação da informação para atingir uma precisão superior, ultrapassando frequentemente a YOLO em pontuações mAP em modelos de dimensões semelhantes. Por outro lado, a YOLO concentra-se no rendimento bruto.
No entanto, a eficiência da arquitetura GELAN do YOLOv9 permite-lhe manter-se altamente competitivo em termos de velocidade, ao mesmo tempo que oferece uma melhor qualidade de deteção. Por exemplo, YOLOv9 atinge um mAP significativamente mais elevado (53,0%) em comparação com o YOLO (50,8%), utilizando menos parâmetros (25,3M vs 42,1M). Este facto realça a capacidade do YOLOv9 de fornecer "mais por menos" em termos de complexidade do modelo.
Interpretação do desempenho
Ao avaliar os modelos, considere os FLOPs (Floating Point Operations) juntamente com a contagem de parâmetros. Um número inferior de FLOPs indica geralmente um modelo que é computacionalmente mais leve e potencialmente mais rápido em hardware de IA móvel ou de ponta.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Casos de Uso Ideais
As diferenças arquitectónicas determinam os cenários de implementação ideais para cada modelo.
Aplicações YOLOv9
YOLOv9 é a escolha preferida para aplicações em que a precisão não é negociável.
- Imagiologia médica: Detetar anomalias subtis na análise de imagens médicas em que a falta de uma deteção pode ser crítica.
- Navegação autónoma: Sistemas avançados de perceção para carros autónomos que exigem elevada confiança na deteção de objectos.
- Vigilância pormenorizada: Sistemas de segurança que necessitam de identificar pequenos objectos ou operar em ambientes complexos com muita confusão.
Aplicações YOLO
O YOLO destaca-se em ambientes limitados por orçamentos de latência rigorosos.
- Fabricação de alta velocidade: Linhas industriais onde os sistemas de visão computacional devem acompanhar o ritmo das correias transportadoras rápidas.
- Análise de vídeo: Processamento de volumes maciços de fluxos de vídeo em que o custo do débito é uma preocupação fundamental.
A vantagem Ultralytics
Embora ambos os modelos sejam tecnicamente impressionantes, a escolha de um modelo dentro do ecossistemaUltralytics - comoo YOLOv9 ou o inovador YOLO11-oferece vantagens distintas para desenvolvedores e empresas.
Fluxo de trabalho e usabilidade contínuos
Ultralytics dá prioridade à facilidade de utilização. Os modelos são acessíveis através de uma interface unificada que abstrai o complexo código padrão. Quer esteja a treinar com dados personalizados ou a executar inferência, o processo é consistente e intuitivo.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Ecossistema bem conservado
Os modelos Ultralytics são apoiados por uma comunidade ativa e por actualizações frequentes. Caraterísticas como HUB doUltralytics permitem a gestão e a formação de conjuntos de dados com base na Web, enquanto as integrações extensivas com ferramentas como o TensorBoard e o MLflow simplificam o ciclo de vida dos MLOps. Em contrapartida, os modelos de investigação como o YOLO carecem frequentemente deste nível de apoio contínuo e de integração de ferramentas.
Versatilidade e eficiência
Os modelos Ultralytics foram concebidos para serem versáteis. Enquanto o YOLO é específico para a deteção, os modelos Ultralytics como o YOLO11 alargam as capacidades à segmentação de instâncias, estimativa de pose e deteção de caixas delimitadoras orientadas (OBB). Além disso, eles são otimizados para eficiência de memória, muitas vezes exigindo menos memória CUDA durante o treinamento em comparação com outras arquiteturas, economizando em custos de hardware.
Conclusão
Na comparação entre YOLOv9 e o YOLO, ambos os modelos demonstram os rápidos avanços da IA. O YOLO oferece uma arquitetura convincente para uma otimização pura da velocidade. No entanto, YOLOv9 destaca-se como a solução mais robusta para a maioria das aplicações práticas. Oferece uma precisão superior por parâmetro, utiliza uma arquitetura avançada para evitar a perda de informação e reside no próspero ecossistema Ultralytics . Para os programadores que procuram o melhor equilíbrio entre desempenho, facilidade de utilização e suporte a longo prazo, os modelos Ultralytics continuam a ser a escolha recomendada.
Explore Outros Modelos
Descubra a comparação com outros modelos topo de gama na nossa documentação: