EfficientDet vs. RTDETRv2: uma comparação técnica para a deteção moderna de objetos
Selecionar a arquitetura ideal para a deteção de objetos requer um equilíbrio entre complexidade arquitetural, latência de inferência e precisão de deteção. Esta comparação técnica analisa duas abordagens distintas: EfficientDet, uma arquitetura CNN de escalonamento composto da Google, e RTDETRv2, um modelo baseado em transformador em tempo real da Baidu.
Enquanto o EfficientDet estabeleceu referências para escalabilidade em 2019, o RTDETRv2 representa a mudança para arquiteturas de transformadores que eliminam a supressão não máxima (NMS). Para os desenvolvedores que buscam o auge do desempenho em 2026, também exploramos como Ultralytics sintetiza o melhor desses mundos com seu design nativo de ponta a ponta.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
EfficientDet: O legado do escalonamento composto
Lançado no final de 2019, o EfficientDet introduziu uma maneira sistemática de dimensionar redes neurais convolucionais (CNNs). Ele foi projetado para otimizar a eficiência em um amplo espectro de restrições de recursos, desde dispositivos móveis até centros de dados.
- Autores: Mingxing Tan, Ruoming Pang e Quoc V. Le
- Organização:Google
- Data: 2019-11-20
- Arxiv:EfficientDet: Detecção de Objetos Escalável e Eficiente
Arquitetura e Principais Características
O EfficientDet utiliza uma estrutura EfficientNet combinada com uma rede piramidal bidirecional ponderada (BiFPN). A BiFPN permite uma fusão fácil e rápida de características em várias escalas, permitindo que o modelo aprenda a importância das diferentes características de entrada de forma eficaz. A principal inovação foi o Compound Scaling, que dimensiona uniformemente a resolução, profundidade e largura da estrutura da rede, da rede de características e das redes de previsão de caixas/classes.
Apesar do seu sucesso académico, o EfficientDet depende de caixas âncora e etapas pesadas de pós-processamento, como a supressão não máxima (NMS), que podem introduzir variabilidade de latência e complicar a implementação em hardware de ponta.
RTDETRv2: Transformers em Tempo Real
O RTDETRv2 (Real-Time Detection Transformer v2) baseia-se no sucesso do RT-DETR original, com o objetivo de resolver o elevado custo computacional associado aos modelos baseados em DETR, mantendo a sua precisão superior e consciência do contexto global.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organização:Baidu
- Data: 17/04/2023 (Original), Atualizado em 2024
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
Arquitetura e Principais Características
O RTDETRv2 emprega um codificador híbrido que processa recursos multiescala de forma mais eficiente do que os Vision Transformers (ViTs) padrão. Sua característica definidora é o designNMS. Ao prever objetos diretamente como um conjunto, ele elimina a necessidade de pós-processamento heurístico, estabilizando teoricamente a velocidade de inferência.
No entanto, os modelos baseados em transformadores são notoriamente exigentes em termos de memória. O treino do RTDETRv2 normalmente requer uma quantidade significativa GPU , muitas vezes exigindo hardware de ponta, como NVIDIA , para uma convergência eficiente, ao contrário YOLO baseados em CNN, que são mais tolerantes em relação ao hardware de consumo.
A Vantagem Ultralytics: Apresentando o YOLO26
Embora o EfficientDet e o RTDETRv2 representem marcos significativos, Ultralytics (lançado em janeiro de 2026) estabelece um novo padrão ao integrar os pontos fortes de ambas as arquiteturas numa estrutura unificada e de alto desempenho.
O YOLO26 foi concebido para programadores que precisam da precisão de um transformador e da velocidade de uma CNN leve.
- Design NMS de ponta a ponta: Assim como o RTDETRv2, o YOLO26 é nativamente de ponta a ponta. Ele elimina NMS , garantindo uma latência determinística, que é fundamental para aplicações críticas para a segurança, como veículos autónomos.
- Otimizador MuSGD: Inspirado nas inovações no treinamento de Modelos de Linguagem Grande (LLM) da Moonshot AI, o YOLO26 utiliza o otimizador MuSGD. Esse híbrido de SGD Muon garante uma dinâmica de treinamento estável e uma convergência mais rápida, reduzindo a necessidade de "tentativa e erro" frequentemente necessária ao ajustar hiperparâmetros para transformadores.
- Remoção de DFL: Ao remover a perda focal de distribuição, o YOLO26 simplifica o gráfico do modelo. Essa otimização é crucial para exportar modelos para formatos como ONNX CoreML, onde camadas de perda complexas podem causar problemas de compatibilidade em dispositivos de ponta.
- Equilíbrio de desempenho: o YOLO26 oferece CPU até 43% mais rápida em comparação com as gerações anteriores, tornando-o muito mais adequado para implementação de ponta do que o EfficientDet-d7, que exige muito processamento, ou o RTDETRv2, que exige muito VRAM.
Análise Técnica Detalhada
Eficiência e Memória no Treinamento
Um diferencial importante entre esses modelos é o consumo de recursos durante o treinamento.
- EfficientDet: Embora seja eficiente em termos de parâmetros, o método de dimensionamento composto pode resultar em redes profundas que são lentas para treinar. As conexões BiFPN complexas também aumentam o custo de acesso à memória (MAC), diminuindo a taxa de transferência.
- RTDETRv2: Os transformadores requerem o cálculo de mapas de atenção, que variam quadraticamente com o comprimento da sequência. Isso resulta em um alto uso de VRAM, dificultando o treinamento com grandes tamanhos de lote em GPUs padrão (por exemplo, RTX 3060/4070).
- YOLO Ultralytics : Modelos como YOLO11 e YOLO26 são otimizados para eficiência de memória. Eles permitem tamanhos de lote maiores em hardware de consumo, democratizando o acesso à IA de alto desempenho. Além disso, a Ultralytics (anteriormente HUB) simplifica ainda mais esse processo, oferecendo treinamento gerenciado em nuvem que lida automaticamente com as complexidades da infraestrutura.
Versatilidade e Ecossistema
O EfficientDet é principalmente uma arquitetura apenas para detecção. Em contrapartida, o Ultralytics suporta uma vasta gama de tarefas dentro de uma única base de código.
Capacidades multitarefas
Ultralytics não se limitam a caixas delimitadoras. A mesma API permite treinar modelos para Segmentação de Instâncias, estimativa de posee Detecção de Objetos Orientados (OBB), fornecendo um kit de ferramentas flexível para diversos desafios de visão computacional.
O YOLO26 inclui melhorias específicas para tarefas, como ProgLoss e STAL (Soft Target Assignment Loss), que proporcionam melhorias notáveis no reconhecimento de pequenos objetos — um ponto fraco tradicional das CNNs e transformadores anteriores.
Casos de Uso no Mundo Real
Quando usar o RTDETRv2
O RTDETRv2 destaca-se em ambientes onde os recursos de hardware são abundantes e o contexto global é fundamental.
- Compreensão complexa de cenas: em cenas com alta oclusão ou desordem, o mecanismo de atenção global consegue track melhor track entre objetos distantes do que as convoluções locais.
- GPU de ponta: se a implementação for estritamente em GPUs de classe servidor (por exemplo, T4, A10), o RTDETRv2 oferece precisão competitiva.
Quando usar o EfficientDet
O EfficientDet é amplamente considerado uma arquitetura legada, mas continua relevante em nichos específicos.
- Google legados: para equipas profundamente integradas em pipelines TensorFlow mais antigos, manter o EfficientDet pode ser menos disruptivo do que migrar frameworks.
- Referências de pesquisa: continua a ser uma referência padrão para comparar a eficiência das redes de fusão de características.
A escolha superior: YOLO26
Para a grande maioria das aplicações modernas, o YOLO26 é a escolha recomendada devido à sua versatilidade e facilidade de implementação.
- Computação de ponta: com a remoção do DFL e CPU , o YOLO26 é ideal para dispositivos IoT e aplicações móveis, onde a duração da bateria e as restrições térmicas são importantes.
- Robótica: O design NMS garante que os loops de controlo do robô recebam dados de percepção a uma taxa constante e previsível.
- Imagens aéreas: A função ProgLoss melhora a deteção de pequenos objetos, como veículos ou gado, em imagens captadas por drones, superando as linhas de base padrão do EfficientDet.
Conclusão
Enquanto o EfficientDet abriu caminho para o dimensionamento eficiente e o RTDETRv2 demonstrou o poder dos transformadores em tempo real, o panorama evoluiu. O YOLO26 encapsula a próxima geração de visão computacional: nativamente ponta a ponta, altamente otimizado para diversos hardwares e suportado pelo robusto Ultralytics .
Para os programadores que pretendem otimizar os seus pipelines de ML, a transição para Ultralytics oferece não apenas ganhos de desempenho, mas também um fluxo de trabalho simplificado, desde a anotação na Ultralytics até à implementação na periferia.
Leitura Adicional
- Explore a documentaçãoUltralytics para obter detalhes sobre a implementação.
- Leia sobre métricas de desempenho, como mAP IoU.
- Consulte o Guia de exportação de modelos para implementação no TensorRT no OpenVINO.