Link to this sectionEfficientDet vs RTDETRv2#

Escolher a arquitetura ideal para projetos de visão computacional requer navegar num panorama diversificado de redes neuronais. Este guia explora uma comparação técnica detalhada entre duas abordagens distintas: EfficientDet, uma família de Redes Neuronais Convolucionais (CNN) altamente escalável, e RTDETRv2, um modelo transformer de última geração para tempo real. Avaliamos as suas diferenças estruturais, metodologias de treino e adequação de implementação em vários ambientes de hardware.

Ao compreender os compromissos entre a eficiência legada e as capacidades modernas dos transformers, podes tomar decisões informadas. Além disso, exploraremos como alternativas modernas como o novo Ultralytics YOLO26 preenchem a lacuna, oferecendo velocidade, precisão e facilidade de utilização inigualáveis.

Link to this sectionCompreender o EfficientDet#

O EfficientDet revolucionou a deteção de objetos ao introduzir uma abordagem fundamentada para o escalonamento de modelos.

Autores: Mingxing Tan, Ruoming Pang e Quoc V. Le
Organização: Google
Data: 20 de novembro de 2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: Repositório Google AutoML
Docs: Documentação do EfficientDet

Link to this sectionArquitetura e Conceitos Principais#

Na sua essência, o EfficientDet utiliza o EfficientNet como espinha dorsal (backbone) e introduz a Bi-directional Feature Pyramid Network (BiFPN). A BiFPN permite uma fusão de características multiescala fácil e rápida, aplicando pesos aprendíveis para determinar a importância de diferentes características de entrada. Isto é combinado com um método de escalonamento composto que escala uniformemente a resolução, profundidade e largura para todas as redes de espinha dorsal, rede de características e redes de previsão de caixa/classe ao mesmo tempo.

Link to this sectionPontos Fortes e Limitações#

A principal força do EfficientDet reside na sua eficiência de parâmetros. Na altura do lançamento, modelos como o EfficientDet-D0 alcançaram maior precisão com menos parâmetros e FLOPs em comparação com versões anteriores do YOLO. Isto tornou-o altamente atrativo para ambientes com limites rigorosos de computação.

No entanto, o EfficientDet baseia-se na supressão não-máxima (NMS) padrão durante o pós-processamento para filtrar caixas delimitadoras sobrepostas, o que pode introduzir estrangulamentos de latência em pipelines de tempo real. Além disso, embora o processo de treino esteja bem documentado, o ajuste fino do EfficientDet pode ser complicado em comparação com as experiências de programador altamente otimizadas encontradas nas ferramentas modernas.

Saiba mais sobre o EfficientDet

Suporte Legado

Embora o EfficientDet tenha aberto caminho para redes escaláveis, a implementação destes modelos em NPUs modernas requer frequentemente uma otimização manual extensa. Para implementações simplificadas, os modelos mais recentes da Ultralytics oferecem funcionalidade de exportação com 1 clique.

Link to this sectionExplorar o RTDETRv2#

O RTDETRv2 representa a evolução das arquiteturas baseadas em transformer, mudando o paradigma para longe das CNNs tradicionais baseadas em âncoras.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organização: Baidu
Data: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: Repositório RT-DETR
Documentação: Documentação do RTDETRv2

Link to this sectionAvanços nos Transformers#

O RTDETRv2 baseia-se no Real-Time Detection Transformer (RT-DETR). Aproveita mecanismos de atenção global, permitindo que o modelo compreenda contextos de cena complexos sem as restrições localizadas das convoluções padrão. A vantagem arquitetónica mais significativa é o seu design nativamente sem NMS. Ao prever objetos diretamente a partir da imagem de entrada, simplifica o pipeline de inferência, evitando o ajuste heurístico necessário pelo pós-processamento de NMS.

Link to this sectionPontos Fortes e Fracos#

O RTDETRv2 destaca-se em ambientes de alta densidade onde objetos sobrepostos confundem as CNNs tradicionais. É altamente preciso em conjuntos de dados de referência complexos como o COCO.

Apesar da sua precisão, os modelos transformer exigem naturalmente uma memória substancial. A eficiência de treino é notavelmente menor; requer significativamente mais épocas e maiores pegadas de memória CUDA para convergir em comparação com as CNNs. Isto torna o RTDETRv2 menos ideal para programadores que operam com orçamentos de cloud limitados ou aqueles que precisam de prototipagem rápida.

Sabe mais sobre o RTDETRv2

Restrições de Memória dos Transformers

Treinar modelos transformer como o RTDETRv2 requer normalmente GPUs de alta performance. Se encontrares erros de falta de memória (OOM), considera usar modelos com requisitos de memória mais baixos durante o treino, como a série Ultralytics YOLO.

Link to this sectionComparação de Referência de Desempenho#

Compreender as métricas de desempenho brutas é vital para a seleção do modelo. A tabela seguinte mostra a comparação entre o EfficientDet e o RTDETRv2 em vários tamanhos.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20,7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Link to this sectionCasos de uso e recomendações#

A escolha entre o EfficientDet e o RT-DETR depende dos requisitos específicos do teu projeto, restrições de implementação e preferências de ecossistema.

Link to this sectionQuando escolher o EfficientDet#

O EfficientDet é uma escolha sólida para:

Pipelines do Google Cloud e TPU: Sistemas profundamente integrados com as APIs do Google Cloud Vision ou infraestrutura de TPU, onde o EfficientDet possui otimização nativa.
Pesquisa de Dimensionamento Composto: Benchmarking acadêmico focado no estudo dos efeitos do equilíbrio entre profundidade de rede, largura e dimensionamento de resolução.
Implantação móvel via TFLite: Projetos que exigem especificamente a exportação para TensorFlow Lite para Android ou dispositivos Linux embarcados.

Link to this sectionQuando escolher o RT-DETR#

O RT-DETR é recomendado para:

Pesquisa de detecção baseada em Transformer: Projetos que exploram mecanismos de atenção e arquiteturas de transformer para detecção de objetos ponta a ponta sem NMS.
Cenários de alta precisão com latência flexível: Aplicações onde a precisão da detecção é a prioridade máxima e uma latência de inferência ligeiramente maior é aceitável.
Detecção de objetos grandes: Cenas com objetos predominantemente de médios a grandes onde o mecanismo de atenção global dos transformers oferece uma vantagem natural.

Link to this sectionQuando escolher a Ultralytics (YOLO26)#

Para a maioria dos novos projetos, o Ultralytics YOLO26 oferece a melhor combinação de desempenho e experiência para o desenvolvedor:

Implantação de borda sem NMS: Aplicações que requerem inferência consistente e de baixa latência sem a complexidade do pós-processamento de Supressão de Não-Máximos.
Ambientes apenas com CPU: Dispositivos sem aceleração de GPU dedicada, onde a inferência em CPU até 43% mais rápida do YOLO26 oferece uma vantagem decisiva.
Detecção de objetos pequenos: Cenários desafiadores como imagens de drone aéreo ou análise de sensores IoT onde ProgLoss e STAL aumentam significativamente a precisão em objetos minúsculos.

Link to this sectionA Vantagem da Ultralytics: Apresentamos o YOLO26#

Embora o EfficientDet e o RTDETRv2 tenham consolidado os seus lugares na história da visão computacional, os ambientes de produção modernos exigem um equilíbrio perfeito de velocidade, precisão e uma experiência de programador excecional. O recém-lançado Ultralytics YOLO26 sintetiza os melhores aspetos destas arquiteturas díspares.

O YOLO26 destaca-se ao combinar o ecossistema simplificado pelo qual a Ultralytics é conhecida com mecânicas internas inovadoras.

Link to this sectionPorquê escolher o YOLO26 em vez da concorrência?#

Design End-to-End Sem NMS: Inspirado em transformers como o RTDETRv2, o YOLO26 é nativamente end-to-end. Elimina o pós-processamento de NMS, garantindo pipelines de implementação mais rápidos e simples sem o enorme inchaço de parâmetros dos transformers puros.
Otimizador MuSGD: Inspirado por inovações no treino de modelos de linguagem grandes (como o Kimi K2 da Moonshot AI), o YOLO26 utiliza um híbrido de SGD e Muon. Isto traz uma estabilidade de treino sem precedentes e taxas de convergência significativamente mais rápidas em comparação com os calendários prolongados exigidos pelo RTDETRv2.
Otimizado para Edge: Com até 43% de inferência CPU mais rápida, o YOLO26 foi criado para edge AI. Supera facilmente modelos transformer pesados em hardware limitado como telemóveis e câmaras inteligentes.
Remoção de DFL: A remoção do Distribution Focal Loss simplifica o grafo do modelo, facilitando exportações contínuas para TensorRT e ONNX.
ProgLoss + STAL: Estas funções de perda avançadas geram melhorias notáveis no reconhecimento de pequenos objetos, resolvendo um estrangulamento comum em imagens aéreas e robótica.
Versatilidade: Ao contrário do RTDETRv2, que se foca principalmente na deteção, o YOLO26 suporta nativamente segmentação de instâncias, estimativa de pose, classificação de imagem e caixas delimitadoras orientadas (OBB) com melhorias específicas da tarefa, como RLE para pose e perda angular especializada para OBB.

Ecossistema Integrado

Aproveitando a Plataforma Ultralytics, podes gerir os teus conjuntos de dados, treinar modelos como o YOLO26 ou o YOLO11 na cloud e implementá-los perfeitamente através de APIs flexíveis.

Link to this sectionSimplicidade de Código com a Ultralytics#

A bem mantida API Python da Ultralytics torna o treino e a inferência de modelos triviais. Os programadores podem facilmente comparar modelos ou iniciar scripts de treino com um mínimo de código boilerplate.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Para aqueles que gerem infraestruturas legadas, o aclamado Ultralytics YOLOv8 continua a ser uma escolha estável e poderosa, demonstrando a fiabilidade a longo prazo do ecossistema Ultralytics. Quer estejas a executar algoritmos de rastreio em tempo real complexos ou uma simples deteção de defeitos, a atualização para o YOLO26 garante que o teu sistema está preparado para o futuro, é altamente preciso e eficiente em termos de memória.

Contribuidores

GLglenn-jocher¹⁷ PDpderrenger¹

Criado 27 de jan. de 2025Atualizado há 3 semanas