YOLOv7 vs. YOLO: Uma comparação técnica pormenorizada
Selecionar a arquitetura ideal de deteção de objetos é uma decisão fundamental no desenvolvimento da visão computacional, equilibrando as demandas concorrentes de latência de inferência, precisão e alocação de recursos computacionais. Esta análise técnica contrasta YOLOv7 e o YOLO, dois modelos influentes lançados no final de 2022 que ultrapassaram os limites da deteção em tempo real. Examinamos suas inovações arquitetônicas exclusivas, desempenho de benchmark e adequação para vários cenários de implantação para ajudá-lo a navegar em seu processo de seleção.
YOLOv7: Otimizar o treino para precisão em tempo real
YOLOv7 marcou uma evolução significativa na família YOLO , dando prioridade à eficiência arquitetónica e às estratégias de formação avançadas para melhorar o desempenho sem inflacionar os custos de inferência. Desenvolvido pelos autores originais do Scaled-YOLOv4, introduziu métodos para permitir que a rede aprenda de forma mais eficaz durante a fase de treinamento.
Autores: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organização:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Inovações arquitectónicas
O núcleo do YOLOv7 apresenta a Rede de Agregação de Camada Eficiente Estendida (E-ELAN). Esta arquitetura permite que o modelo aprenda diversas caraterísticas através do controlo dos caminhos de gradiente mais curtos e mais longos, melhorando a convergência sem perturbar o fluxo de gradiente existente. Além disso, YOLOv7 emprega "trainable bag-of-freebies", um conjunto de técnicas de otimização aplicadas durante o processamento de dados de treino que não afectam a estrutura do modelo durante a implementação. Estas incluem a re-parametrização do modelo e cabeças auxiliares para supervisão profunda, assegurando que a espinha dorsal capta caraterísticas robustas.
Saco de brindes
O termo "bag-of-freebies" refere-se a métodos que aumentam a complexidade do treino para aumentar a exatidão, mas que incorrem em custo zero durante a inferência em tempo real. Esta filosofia garante que o modelo final exportado permanece leve.
Forças e Fraquezas
YOLOv7 é conhecido pelo seu excelente equilíbrio no benchmark MS COCO, oferecendo uma precisão média elevada (mAP) para o seu tamanho. A sua principal força reside em tarefas de alta resolução em que a precisão é fundamental. No entanto, a complexidade da arquitetura pode tornar difícil a sua modificação para investigação personalizada. Além disso, embora a inferência seja eficiente, o processo de formação consome muitos recursos, exigindo uma memória GPU substancial em comparação com as arquitecturas mais recentes.
YOLO: Arquitetura Neural em busca do limite
O YOLO, que emerge da equipa de investigação da Alibaba, adopta uma abordagem diferente, tirando partido da Pesquisa de Arquitetura Neural (NAS) para descobrir automaticamente estruturas de rede eficientes adaptadas a ambientes de baixa latência.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO
Inovações arquitectónicas
A YOLO apresenta o MAE-NAS, um método para gerar um backbone chamado GiraffeNet, que maximiza o rendimento sob restrições específicas de latência. Em complemento, o ZeroHead, uma cabeça de deteção leve que dissocia as tarefas de classificação e regressão e remove parâmetros pesados, reduzindo significativamente o tamanho do modelo. A arquitetura também utiliza um pescoço eficiente conhecido como RepGFPN (Generalized Feature Pyramid Network) para fusão de caraterísticas multi-escala e alinha as pontuações de classificação com a precisão da localização utilizando AlignedOTA para atribuição de etiquetas.
Forças e Fraquezas
O YOLO destaca-se em cenários de IA de ponta. As suas variantes mais pequenas (Tiny/Small) oferecem velocidades impressionantes, tornando-as adequadas para dispositivos móveis e aplicações IoT. A utilização de NAS garante que a arquitetura é matematicamente optimizada para eficiência. Por outro lado, os maiores modelos YOLO por vezes ficam atrás dos modelos YOLOv7 de nível mais elevado em termos de precisão pura. Além disso, como um projeto centrado na pesquisa, ele não possui o amplo ecossistema e o suporte de ferramentas encontrados em estruturas mais amplas.
Comparação de métricas de desempenho
A tabela seguinte destaca os compromissos de desempenho. YOLOv7 atinge geralmente uma maior precisãomAP) à custa de uma maior complexidade computacional (FLOPs), enquanto o YOLO dá prioridade à velocidade e à eficiência dos parâmetros, particularmente nas suas configurações mais pequenas.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Aplicações no Mundo Real
A escolha entre estes modelos depende frequentemente do hardware de implementação e das tarefas específicas de visão computacional necessárias.
- Segurança e análise de alto nível (YOLOv7): Para aplicações executadas em servidores potentes onde cada ponto percentual de precisão é importante, como sistemas de alarme de segurança ou gestão de tráfego detalhada, YOLOv7 é um forte candidato. A sua capacidade de resolução de detalhes finos torna-o adequado para a deteção de pequenos objectos em fluxos de vídeo de alta resolução.
- Dispositivos de borda e robótica (YOLO): Em cenários com orçamentos de latência rigorosos, como robótica autónoma ou aplicações móveis, a arquitetura leve do YOLO brilha. A baixa contagem de parâmetros reduz a pressão da largura de banda da memória, o que é fundamental para dispositivos alimentados por bateria que executam a deteção de objectos.
A vantagem Ultralytics : Por que modernizar?
Embora YOLOv7 e o YOLO sejam modelos capazes, o panorama da IA avança rapidamente. Os programadores e investigadores que procuram uma solução preparada para o futuro, eficiente e fácil de utilizar devem considerar o ecossistemaUltralytics , especificamente YOLO11. A atualização para modelos Ultralytics modernos oferece várias vantagens distintas:
1. Facilidade de utilização simplificada
Os modelos Ultralytics dão prioridade à experiência do programador. Ao contrário dos repositórios de pesquisa que muitas vezes exigem configurações de ambiente complexas e execução manual de scripts, Ultralytics fornece uma APIPython e CLI unificadas. É possível treinar, validar e implantar modelos com apenas algumas linhas de código.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. Versatilidade abrangente
YOLOv7 e o YOLO foram concebidos principalmente para a deteção de caixas delimitadoras. Em contraste, YOLO11 suporta uma vasta gama de tarefas nativamente dentro da mesma estrutura, incluindo segmentação de instâncias, estimativa de pose, deteção orientada de objectos (OBB) e classificação de imagens. Isto permite-lhe resolver problemas complexos - como analisar a postura humana em desportos - semmudar de biblioteca.
3. Desempenho e eficiência superiores
YOLO11 baseia-se em anos de I&D para oferecer uma precisão de ponta com uma sobrecarga computacional significativamente reduzida. Utiliza uma cabeça de deteção sem âncoras e operações de backend optimizadas, resultando numa menor utilização de memória durante o treino e a inferência, em comparação com versões mais antigas YOLO ou modelos baseados em transformadores como o RT-DETR. Esta eficiência traduz-se em menores custos de computação em nuvem e processamento mais rápido em hardware de ponta.
4. Ecossistema e apoio robustos
A adoção de um modelo Ultralytics liga-o a um ecossistema próspero e bem mantido. Com actualizações frequentes, documentação extensa e canais activos da comunidade, nunca terá de depurar código sem suporte. Além disso, as integrações perfeitas com ferramentas como o Ultralytics HUB facilitam a implantação de modelos e o gerenciamento de conjuntos de dados.
Conclusão
Tanto YOLOv7 como o YOLO contribuíram significativamente para o campo da deteção de objectos em 2022. YOLOv7 demonstrou como as técnicas de otimização treináveis podem aumentar a precisão, enquanto o YOLO demonstrou o poder da Pesquisa de Arquitetura Neural para criar modelos eficientes e prontos para a utilização.
No entanto, para os ambientes de produção actuais, YOLO11 representa o auge da tecnologia de IA de visão. Ao combinar a velocidade do YOLO, a precisão do YOLOv7 e a inigualável usabilidade da estrutura Ultralytics , YOLO11 oferece uma solução versátil que acelera os ciclos de desenvolvimento e melhora o desempenho da aplicação. Quer esteja a construir uma infraestrutura urbana inteligente ou a otimizar o controlo de qualidade do fabrico, os modelos Ultralytics fornecem a fiabilidade e a eficiência necessárias para o sucesso.
Explore Outros Modelos
Se estiver interessado em explorar outras opções no panorama da visão por computador, considere estes modelos:
- Ultralytics YOLOv8: O antecessor do YOLO11, conhecido pela sua robustez e ampla adoção pela indústria.
- YOLOv10: Um detetor em tempo real centrado na formação NMS para reduzir a latência.
- YOLOv9: Introduz a Informação de Gradiente Programável (PGI) para reduzir a perda de informação em redes profundas.
- RT-DETR: Um detetor baseado em transformador que oferece alta precisão, mas normalmente requer mais memória de GPU .
- YOLOv6: Outro modelo centrado na eficiência e optimizado para aplicações industriais.