Ir para o conteúdo

DAMO-YOLO vs. YOLOv9: Avanços na Deteção de Objetos em Tempo Real

O panorama da deteção de objetos está em constante evolução, com os investigadores a expandirem continuamente os limites da precisão, latência e eficiência. Duas arquiteturas notáveis que causaram um grande impacto na comunidade de visão computacional são YOLO, desenvolvida pelo Alibaba Group, e a YOLOv9, criada pelos investigadores da Academia Sinica.

Embora ambos os modelos tenham como objetivo resolver o desafio da deteção em tempo real, eles abordam o problema com filosofias arquitetónicas distintas.YOLO a Pesquisa de Arquitetura Neural (NAS) e a reparametrização pesada para otimizar a baixa latência, enquanto YOLOv9 conceitos como Informação de Gradiente Programável (PGI) para maximizar a retenção de informações durante o processo de aprendizagem profunda.

YOLO (Distillation-Enhanced Neural Architecture Search for You Only Look Once) foi introduzido no final de 2022, com foco no equilíbrio rigoroso entre desempenho e velocidade para aplicações industriais.

Principais Características Arquitetônicas

YOLO construído com base em três tecnologias principais, concebidas para extrair o máximo desempenho de recursos de hardware limitados:

  1. Backbone MAE-NAS: Ao contrário dos backbones projetados manualmente,YOLO uma pesquisa de arquitetura neural baseada em autoencoder mascarado (MAE) para encontrar a estrutura de rede ideal. Isso resulta em uma estrutura matematicamente adaptada para restrições computacionais específicas.
  2. RepGFPN eficiente: emprega uma Rede Piramidal de Características Generalizadas (GFPN) aprimorada com mecanismos de reparametrização. Isso permite que o modelo aproveite os benefícios da fusão complexa de características multiescala durante o treinamento, enquanto se reduz a uma estrutura mais simples e rápida durante a inferência.
  3. ZeroHead & AlignedOTA: O cabeçote de detecção, denominado "ZeroHead", é mantido extremamente leve para reduzir a carga computacional das camadas finais de saída. Além disso, a estratégia de atribuição de rótulos, AlignedOTA, resolve problemas de desalinhamento entre tarefas de classificação e regressão durante o treinamento.

Forças e Fraquezas

O principal ponto forte doYOLO a sua relação latência-precisão. Para hardware industrial específico, a espinha dorsal derivada do NAS pode oferecer um rendimento superior. No entanto, a dependência do modelo de um complexo pipeline de treino de destilação — em que um modelo «professor» maior deve primeiro ser treinado para orientar o modelo menor — pode tornar o processo de treino complicado para os programadores que precisam de iterações rápidas. Além disso, o ecossistema em tornoYOLO menos ativo em comparação com a YOLO mais ampla, limitando potencialmente o suporte para novos alvos de implementação.

YOLOv9: Aprendizagem com gradientes programáveis

YOLOv9, lançado no início de 2024, aborda a questão da perda de informação em redes profundas. À medida que as redes neurais convolucionais se tornam mais profundas, os dados essenciais necessários para mapear a entrada para a saída são frequentemente perdidos — um fenómeno conhecido como gargalo de informação.

Principais Características Arquitetônicas

YOLOv9 dois conceitos inovadores para mitigar a perda de informação:

  1. Informação de gradiente programável (PGI): PGI é uma estrutura de supervisão auxiliar que gera gradientes confiáveis para atualizar os pesos da rede, garantindo que as camadas profundas retenham informações semânticas críticas. Inclui um ramo auxiliar reversível que é usado apenas durante o treinamento e removido para inferência, sem incorrer em custos adicionais na implementação.
  2. GELAN (Generalized Efficient Layer Aggregation Network): Esta arquitetura combina as melhores características da CSPNet e da ELAN. A GELAN foi concebida para ser leve e rápida, ao mesmo tempo que suporta blocos computacionais variáveis, permitindo uma contagem de parâmetros rigorosamente controlada sem sacrificar o campo recetivo.

Forças e Fraquezas

YOLOv9 em precisão, estabelecendo novos padrões de referência no COCO . Sua capacidade de reter informações o torna excepcional para detectar objetos difíceis que outros modelos podem deixar passar. No entanto, a complexidade arquitetónica introduzida pelos ramos auxiliares pode tornar a base de código mais difícil de modificar para tarefas personalizadas em comparação com designs modulares mais simples. Embora altamente eficaz em GPUs, as agregações de camadas específicas podem não ser totalmente otimizadas para todos os dispositivos de ponta CPU em comparação com modelos projetados especificamente para esses alvos.

Saiba mais sobre o YOLOv9

Comparação de Desempenho

A tabela a seguir destaca as métricas de desempenho doYOLO YOLOv9. Observe as compensações entre contagem de parâmetros, carga computacional (FLOPs) e precisão (mAP).

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Enquanto YOLOv9 geralmente atinge uma precisão máxima mais elevada (até 55,6% mAP), YOLO oferece um desempenho competitivo no regime de modelos pequenos, embora ao custo de um número mais elevado de parâmetros para a variante «tiny». O YOLOv9t é significativamente mais leve em termos de FLOPs (7,7G vs 18,1G), tornando-o potencialmente melhor para dispositivos com recursos extremamente limitados, apesar do mAP mais baixo.

A Vantagem Ultralytics: Apresentando o YOLO26

EmboraYOLO YOLOv9 conquistas académicas significativas, os programadores focados na produção no mundo real muitas vezes precisam de uma combinação de desempenho de ponta, facilidade de uso e flexibilidade de implementação. É aí que Ultralytics se destaca como a escolha superior para aplicações modernas de IA.

Porquê YOLO26?

Lançado em janeiro de 2026, o YOLO26 baseia-se no legado das gerações anteriores, mas introduz mudanças fundamentais na arquitetura e na estabilidade do treinamento.

  1. Design completo NMS: Ao contrário YOLOv9 YOLO, que normalmente requerem supressão não máxima (NMS) para filtrar caixas delimitadoras duplicadas, o YOLO26 é nativamente completo. Isso elimina totalmente a etapa NMS , reduzindo a latência e a variação da inferência e simplificando significativamente os pipelines de implementação.
  2. Otimizador MuSGD: Inspirado nas inovações no treinamento de Modelos de Linguagem Grande (LLM), o YOLO26 utiliza o otimizador MuSGD. Esse híbrido de SGD Muon (do Kimi K2 da Moonshot AI) traz uma estabilidade sem precedentes ao treinamento, garantindo uma convergência mais rápida e reduzindo a necessidade de ajustes extensivos de hiperparâmetros.
  3. Eficiência Edge-First: Ao remover a Distribuição Focal Loss (DFL) e otimizar a arquitetura para CPU , o YOLO26 alcança velocidades CPU até 43% mais rápidas. Isso o torna o candidato ideal para computação de ponta em dispositivos como Raspberry Pi ou telemóveis, onde não há GPUs.
  4. Detecção aprimorada de pequenos objetos: com a introdução do ProgLoss + STAL (Self-Taught Anchor Learning), o YOLO26 apresenta melhorias notáveis no reconhecimento de pequenos objetos, um requisito crítico para imagens de drones e sensores IoT.

Fluxo de trabalho simplificado com Ultralytics

Esqueça os complexos pipelines de destilação ou as configurações manuais do ambiente. Com a Ultralytics , pode gerir os seus conjuntos de dados, treinar modelos YOLO26 na nuvem e implementar em qualquer formato (ONNX, TensorRT, CoreML) com um único clique.

Versatilidade Incomparável

EmboraYOLO principalmente um modelo de detecção, o Ultralytics garante que o YOLO26 suporte uma gama completa de tarefas prontas para uso. Se você precisa de segmentação de instâncias, estimativa de pose com Estimativa Residual de Log-Likelihood (RLE) ou detecção de Oriented Bounding Box (OBB) para levantamentos aéreos, a API permanece consistente e simples.

Saiba mais sobre YOLO26

Exemplo de Código: Treinamento com Ultralytics

Python Ultralytics elimina a complexidade do treinamento de modelos avançados. Você pode alternar entre YOLOv9 o YOLO26 sem problemas.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Use GPU 0
)

# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")

Conclusão

A escolha do modelo certo depende das suas restrições específicas. YOLO é uma forte opção se estiver a pesquisar arquiteturas NAS ou tiver hardware que se beneficia especificamente da sua estrutura RepGFPN. YOLOv9 é uma excelente escolha para cenários que exigem a maior precisão possível em benchmarks académicos como COCO.

No entanto, para desenvolvedores e empresas que buscam uma solução pronta para produção, Ultralytics oferece o pacote mais atraente. Seu designNMS, CPU e integração com a Ultralytics reduzem significativamente o tempo de comercialização. Ao combinar os pontos fortes teóricos dos modelos anteriores com inovações práticas, como o otimizador MuSGD, o YOLO26 garante que você não está apenas a adquirir um modelo, mas uma solução de visão completa e preparada para o futuro.


Comentários