EfficientDet vs YOLO11: Avaliando a evolução da detecção de objetos
A seleção da arquitetura ideal para aplicações de visão computacional geralmente envolve equilibrar a relação entre eficiência computacional e precisão de detecção. Esta comparação abrangente explora as diferenças técnicas entre o EfficientDet, a arquitetura de detecção escalável Google de 2019, e o YOLO11, um lançamento de 2024 da Ultralytics que redefiniu o desempenho em tempo real.
Enquanto o EfficientDet introduziu conceitos inovadores no dimensionamento de modelos, YOLO11 um avanço significativo em termos de usabilidade, velocidade de inferência e versatilidade multitarefa. Para os programadores que iniciarem novos projetos em 2026, também recomendamos explorar o mais recente YOLO26, que se baseia nas inovações discutidas aqui com processamento nativo de ponta a ponta.
Análise de Benchmark de Desempenho
O panorama da deteção de objetos mudou drasticamente, passando da otimização para FLOPs teóricos para a otimização para latência no mundo real. A tabela abaixo destaca o contraste acentuado nas velocidades de inferência. Enquanto o EfficientDet-d0 requer aproximadamente 10 ms para CPU , arquiteturas modernas como o YOLO11n executam tarefas semelhantes significativamente mais rápidas, muitas vezes abaixo de 2 ms em hardware comparável, mantendo uma precisão média competitiva (mAP).
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLO11n | 640 | 39.5 | 1.5 | 2.6 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 2.5 | 9.4 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 4.7 | 20.1 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 6.2 | 25.3 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 11.3 | 56.9 | 56.9 | 194.9 |
EfficientDet: O Pioneiro da Escala Composta
O EfficientDet, desenvolvido pela equipa Google , surgiu como uma abordagem sistemática para modelagem de escalonamento. Foi construído com base na estrutura EfficientNet e introduziu a Weighted Bi-directional Feature Pyramid Network (BiFPN), que permite a fusão fácil e rápida de recursos em várias escalas.
A principal inovação foi o dimensionamento composto, um método que dimensiona uniformemente a resolução, a profundidade e a largura da espinha dorsal da rede, da rede de recursos e das redes de previsão de caixas/classes. Isso permitiu que a família EfficientDet (D0 a D7) visasse uma ampla gama de restrições de recursos, desde dispositivos móveis até GPU de alta potência.
Apesar do seu sucesso académico e alta eficiência em termos de FLOPs, o EfficientDet frequentemente enfrenta dificuldades com a latência em hardware real devido aos custos de acesso à memória das suas complexas conexões BiFPN e convoluções separáveis em profundidade, que nem sempre são otimizadas por aceleradores como o TensorRT.
Metadados EfficientDet:
- Autores: Mingxing Tan, Ruoming Pang e Quoc V. Le
- Organização:Google Research
- Data: 2019-11-20
- Arxiv:EfficientDet: Detecção de Objetos Escalável e Eficiente
- GitHub:google/automl
Saiba mais sobre o EfficientDet
Ultralytics YOLO11: Redefinindo o estado da arte em tempo real
Lançado em setembro de 2024, YOLO11 foi concebido para a deteção prática e de alta velocidade de objetos e para implementação instantânea. Ao contrário do EfficientDet, que se concentra fortemente na eficiência dos parâmetros, YOLO11 a utilização do hardware, garantindo que o modelo funcione de forma excepcionalmente rápida tanto em CPUs de ponta como em GPUs empresariais.
YOLO11 refinamentos arquitetónicos, como o bloco C3k2 e um módulo SPPF (Spatial Pyramid Pooling - Fast) aprimorado. Essas alterações melhoram a capacidade do modelo de extrair recursos em várias escalas sem a penalidade de latência observada em projetos de pirâmide de recursos mais antigos. Além disso, YOLO11 uma estrutura unificada para várias tarefas de visão, incluindo segmentação de instâncias, estimativa de pose e deteção de Oriented Bounding Box (OBB), capacidades que requerem implementações personalizadas complexas com o EfficientDet.
Vantagem do Ecossistema
Ultralytics estão totalmente integrados à Ultralytics , permitindo o gerenciamento contínuo de conjuntos de dados, anotação automática e treinamento de modelos com um clique na nuvem.
YOLO11 :
- Autores: Glenn Jocher e Jing Qiu
- Organização:Ultralytics
- Data: 2024-09-27
- GitHub:ultralytics/ultralytics
- Documentação:Documentação do YOLO11
Principais Diferenças Técnicas
Arquitetura e fusão de recursos
O EfficientDet depende do BiFPN, uma camada complexa de fusão de características ponderadas que conecta mapas de características de cima para baixo e de baixo para cima repetidamente. Embora seja teoricamente eficiente, os padrões irregulares de acesso à memória podem retardar a inferência nas GPUs.
Em contrapartida, YOLO11 uma arquitetura simplificada inspirada na PANet (Path Aggregation Network) com blocos C3k2. Esse design favorece padrões de acesso à memória densos e regulares que se alinham bem com CUDA e as arquiteturas NPU modernas, resultando nos enormes ganhos de velocidade observados na tabela de benchmark (por exemplo, o YOLO11x é muito mais rápido que o EfficientDet-d7, mantendo uma precisão mais alta).
Eficiência e Facilidade de Uso no Treinamento
O treinamento de um modelo EfficientDet normalmente envolve o uso da API de detecção TensorFlow ou da biblioteca AutoML, que podem ter uma curva de aprendizagem íngreme e arquivos de configuração complexos.
Ultralytics a experiência do programador. O treinamento YOLO11 acessível através de uma Python simples ou Interface de Linha de Comando (CLI). A biblioteca lida com o ajuste de hiperparâmetros, aumento de dados e formatação de conjuntos de dados automaticamente.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Versatilidade e implementação
O EfficientDet é principalmente uma arquitetura de detecção de objetos. Adaptá-lo para tarefas como segmentação ou estimativa de pose requer modificações arquitetónicas significativas.
YOLO11 nativamente multimodal. A mesma estrutura e pipeline de treino suportam:
- Detecção: Caixas delimitadoras padrão.
- Segmentação: Máscaras ao nível do pixel para limites precisos dos objetos.
- Classificação: Categorização de imagem inteira.
- Pose: Detecção de pontos-chave para rastreamento esquelético.
- OBB: Caixas rotacionadas para imagens aéreas e deteção de texto.
Essa versatilidade torna YOLO11 "canivete suíço" para engenheiros de IA, permitindo que um único repositório alimente diversas aplicações, desde imagens médicas até robótica autónoma.
Por que escolher os modelos Ultralytics?
Ao comparar essas duas arquiteturas para sistemas de produção modernos, Ultralytics oferecem vantagens distintas:
- Menor consumo de memória: YOLO são otimizados para serem treinados em hardware de nível consumidor. Ao contrário dos modelos baseados em transformadores ou arquiteturas pesadas mais antigas que exigem uma enorme quantidade de CUDA , YOLO eficientes democratizam o acesso ao treinamento de IA de ponta.
- Implementação simplificada: exportação para ONNX, TensorRT, CoreML ou TFLite um comando de linha única na Ultralytics .
- Suporte ativo: A Ultralytics é vibrante e ativa. Com atualizações frequentes, a estrutura garante compatibilidade com as versões mais recentes do PyTorch CUDA.
Conclusão: A escolha moderna
Embora o EfficientDet continue a ser um marco importante na história da investigação em visão computacional, demonstrando o poder do dimensionamento composto, YOLO11 e o mais recente YOLO26 são as melhores opções para implementação prática atualmente. Eles oferecem um melhor equilíbrio entre velocidade e precisão, uma experiência de usuário significativamente mais fácil e a flexibilidade para lidar com várias tarefas de visão computacional dentro de uma única estrutura.
Para os programadores que desejam permanecer na vanguarda absoluta, recomendamos investigar o YOLO26, que introduz um design completo NMS para uma latência ainda menor e pipelines de implementação mais simples.
Para explorar outras opções de alto desempenho, considere ler as nossas comparações sobre YOLOv10 ou RT-DETR.