Ir para o conteúdo

EfficientDet vs.YOLO: uma análise aprofundada da evolução da deteção de objetos

No dinâmico mundo da visão computacional, a busca pelo equilíbrio ideal entre precisão e latência impulsiona a inovação constante. Duas arquiteturas que definiram as suas respectivas épocas são o EfficientDet, Google, e YOLO, da Alibaba. Enquanto o EfficientDet introduziu uma abordagem baseada em princípios para o dimensionamento de modelos,YOLO os limites do desempenho em tempo real usando a Pesquisa de Arquitetura Neural (NAS).

Este guia fornece uma comparação técnica abrangente desses dois modelos, analisando suas características arquitetónicas distintas, métricas de desempenho e adequação para implementações modernas. Para desenvolvedores que buscam soluções de ponta, também exploramos como frameworks mais recentes, como Ultralytics , se baseiam nesses fundamentos para oferecer facilidade de uso e desempenho superiores.

Visão Geral do EfficientDet

Lançado no final de 2019, o EfficientDet marcou uma mudança de paradigma na forma como os modelos de deteção de objetos eram dimensionados. Antes do seu lançamento, o dimensionamento era frequentemente feito de forma arbitrária. A equipa da Google introduziu um método de dimensionamento composto que dimensiona uniformemente a resolução, a profundidade e a largura, levando a uma família de modelos (D0-D7) que atendem a várias restrições de recursos.

Autores: Mingxing Tan, Ruoming Pang e Quoc V. Le
Organização:Google
Data: 20 de novembro de 2019
Arxiv:EfficientDet Paper
GitHub:google

Principais Características Arquitetônicas

  • BiFPN (Rede Piramidal de Características Bidirecionais Ponderadas): Ao contrário das FPNs tradicionais, a BiFPN permite a fusão de características multiescala de cima para baixo e de baixo para cima. Ela introduz pesos aprendíveis para diferentes características de entrada, reconhecendo que nem todas as características contribuem igualmente para a saída.
  • Escalonamento composto: Um coeficiente unificado $\phi$ controla a largura, profundidade e resolução da rede, garantindo que a espinha dorsal, a rede de recursos e os cabeçotes de previsão sejam escalonados em harmonia.
  • EfficientNet Backbone: A utilização do EfficientNet como backbone permite uma elevada eficiência de parâmetros, aproveitando as camadas de convolução invertida móvel (MBConv).

Saiba mais sobre o EfficientDet

Visão Geral do DAMO-YOLO

YOLO, desenvolvido pelo Alibaba Group em 2022, foi projetado com foco estrito em aplicações industriais onde a latência é fundamental. Ele se afasta do projeto arquitetónico manual, empregando NAS para descobrir estruturas eficientes adaptadas para inferência de alto desempenho.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 23 de novembro de 2022
Arxiv:YOLO
GitHub:YOLO

Principais Inovações Arquitetônicas

  • Backbone MAE-NAS: Utilizando um método chamado Method-Aware Efficiency Neural Architecture Search (Pesquisa de Arquitetura Neural com Eficiência Consciente do Método),YOLO backbones especificamente otimizados para velocidade de inferência, diferindo significativamente do CSPNet projetado manualmente usado no YOLOv5 ou YOLOv8.
  • RepGFPN: Um FPN generalizado eficiente que emprega reparametrização (estilo RepVGG) para mesclar características, reduzindo a latência durante a inferência e mantendo a alta expressividade das características durante o treinamento.
  • ZeroHead: Um cabeçote de detecção leve que reduz significativamente a carga computacional em comparação com os cabeçotes desacoplados encontrados nos modelos anteriores.
  • AlignedOTA: Uma estratégia de atribuição de rótulos aprimorada que resolve o desalinhamento entre as tarefas de classificação e regressão durante o treinamento.

Saiba mais sobre o DAMO-YOLO.

Comparação de Desempenho

A tabela a seguir compara o desempenho do EfficientDet eYOLO várias escalas de modelo. Enquanto o EfficientDet oferece uma ampla variedade de tamanhos (até D7 para tarefas de alta resolução),YOLO no «ponto ideal» de latência em tempo real (T/S/M/L).

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Análise

  • Latência vs. Precisão: YOLO eficiência superior em GPU . Por exemplo, DAMO-YOLOs atinge 46,0 mAP apenas com 3,45 ms latência numa GPU T4. Em contrapartida, EfficientDet-d3 alcança um nível ligeiramente superior 47,5 mAP mas a um custo de 19,59 ms—quase 5,5 vezes mais lento.
  • Envelhecimento da arquitetura: O EfficientDet depende fortemente de convoluções separáveis em profundidade. Embora sejam eficientes em termos de parâmetros, essas operações são frequentemente limitadas pela memória nas GPUs modernas, levando a uma menor utilização em comparação com as convoluções densas otimizadas na estrutura NASYOLO.
  • Requisitos computacionais: O EfficientDet-d7 requer recursos computacionais massivos (325 GFLOPs) para ganhos marginais em precisão (53,7 mAP), tornando difícil a sua implementação em dispositivos de ponta.

Treinamento e Ecossistema

A experiência do utilizador difere drasticamente entre estas duas gerações de modelos.

Ecossistema EfficientDet

O EfficientDet está profundamente enraizado no ecossistema Google e TensorFlow. Embora seja poderoso, os utilizadores frequentemente enfrentam:

  • Complexidade de dependências: Navegar entre as versões TensorFlow .x e 2.x pode ser um desafio.
  • Limitações do gráfico estático: a exportação de modelos para ONNX TensorRT requer scripts de conversão complexos que podem não suportar todas as operações BiFPN nativamente.

YOLO

YOLO PyTorch, que geralmente é mais flexível para pesquisa. No entanto:

  • Foco especializado: É principalmente um repositório de pesquisa. Embora seja excelente para tarefas de deteção específicas, carece da utilidade ampla e imediata para outras tarefas, como segmentação ou estimativa de pose.
  • Dependência da destilação: para alcançar o melhor desempenho,YOLO utiliza a destilação de modelos maiores, adicionando complexidade ao pipeline de treino.

O Ecossistema Importa

Ao escolher um modelo para produção, considere não apenas o mAP a facilidade de treinar com dados personalizados. Um modelo que leva semanas para ser integrado muitas vezes custa mais em tempo de engenharia do que o ganho marginal de precisão vale a pena.

A Vantagem Ultralytics: Apresentando o YOLO26

Embora o EfficientDet eYOLO marcos na visão computacional, o campo evoluiu. Ultralytics representa a próxima geração de IA de visão, combinando a eficiência arquitetónica dos modelos baseados em NAS com a usabilidade do Ultralytics .

Por que Atualizar para o YOLO26?

O YOLO26 resolve os pontos fracos das arquiteturas anteriores com vários recursos inovadores:

  1. Design completo NMS: Ao contrário do EfficientDet eYOLO, que requerem pós-processamento de supressão não máxima (NMS), o YOLO26 é nativamente completo. Isso elimina um grande gargalo nas linhas de implementação, reduzindo a variabilidade da latência e simplificando a exportação para formatos como CoreML TensorRT.
  2. Otimizador MuSGD: Inspirado na estabilidade do treinamento LLM, o novo otimizador MuSGD (um híbrido de SGD Muon) garante uma convergência mais rápida e execuções de treinamento mais estáveis, mesmo em conjuntos de dados menores.
  3. ProgLoss + STAL: Novas funções de perda (ProgLoss e Soft-Target Assignment Loss) proporcionam melhorias significativas na detecção de pequenos objetos, um ponto fraco tradicional dos modelos sem âncora.
  4. OtimizaçãoCPU da borda: com a remoção do DFL (Distribution Focal Loss) e otimizações arquitetónicas, o YOLO26 alcança CPU até 43% mais rápida, tornando-o a escolha superior para implementações em Raspberry Pi e dispositivos móveis.

Resumo da Comparação

FuncionalidadeEfficientDetDAMO-YOLOUltralytics YOLO26
ArquiteturaBiFPN + Escalonamento CompostoNAS + RepGFPNSem NMS de ponta a ponta
Pós-processamentoNMSNMSNenhum (ponta a ponta)
Suporte a TarefasDetecçãoDetecçãodetect, segment, Pose, obb, classify
PlataformaTensorFlowPyTorchPlataforma Ultralytics
ImplantaçãoComplexoModeradoUm clique (mais de 10 formatos)

Saiba mais sobre YOLO26

Facilidade de uso e formação

Uma das características marcantes dos Ultralytics é a API unificada. Seja para treinar um detetor de objetos, um modelo Oriented Bounding Box (OBB) ou um modelo Pose Estimation, o código permanece consistente e simples.

Veja como é fácil treinar um modelo YOLO26 de última geração com os seus dados personalizados:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")

Casos de Uso no Mundo Real

Quando utilizar o EfficientDet?

O EfficientDet continua a ser relevante em cenários que envolvem:

  • Pipelines Google legados: sistemas profundamente integrados com APIs mais antigas Google Vision ou infraestrutura TPU .
  • Benchmarking académico: Como base padrão para a investigação sobre escalonamento composto.

Quando usar oYOLO?

YOLO em:

  • Restrições rigorosas GPU : linhas de produção industrial onde milissegundos são importantes e o hardware é fixado em NVIDIA .
  • Análise de vídeo: Processamento de fluxos de vídeo com alta taxa de quadros por segundo (FPS), onde a taxa de transferência (tamanho do lote 1) é a principal métrica.

Quando usar o YOLO26?

O YOLO26 é a solução recomendada para:

  • Edge AI: Implementação em telemóveis, drones ou dispositivos IoT, onde a inferência NMS simplifica a lógica da aplicação e CPU é fundamental.
  • Aplicações multitarefas: projetos que exigem segmentação de instâncias ou estimativa de poses juntamente com detecção dentro de uma única base de código.
  • Desenvolvimento rápido: equipas que precisam passar da recolha de dados na Ultralytics para a implementação em horas, não em semanas.

Conclusão

Enquanto o EfficientDet nos ensinou a importância do dimensionamento eYOLO o poder do NAS, Ultralytics sintetiza essas lições em uma ferramenta poderosa pronta para produção. Com seu designNMS, versatilidade em várias tarefas e ecossistema bem mantido, o YOLO26 oferece ao programador moderno o caminho mais robusto para o sucesso em visão computacional.

Para explorar mais a fundo as arquiteturas dos modelos, considere rever as comparações com YOLOv10 ou RT-DETR, que também exploram inovações baseadas em transformadores.


Comentários