YOLO11 .YOLO: Evolução das arquiteturas de deteção de objetos em tempo real
A investigação em visão computacional avança a um ritmo alucinante, com novas arquiteturas a redefinirem constantemente os limites de velocidade e precisão. Duas contribuições significativas para este campo são YOLO11 da Ultralytics YOLO do Alibaba Group. Embora ambos os modelos tenham como objetivo resolver o problema da deteção de objetos em tempo real, eles abordam-no com filosofias diferentes — um focado na usabilidade e implementação contínuas e o outro na pesquisa rigorosa de arquitetura neural (NAS) e exploração académica.
Este guia fornece uma comparação técnica aprofundada para ajudar programadores, investigadores e engenheiros a escolher a ferramenta certa para as suas aplicações específicas de visão computacional.
Visões Gerais do Modelo
YOLO11
YOLO11 representa o culminar de anos de aperfeiçoamento iterativo na família YOLO You Only Look Once). Lançado no final de 2024 pela Ultralytics, ele se baseia no sucesso do YOLOv8 , introduzindo melhorias arquitetónicas que aumentam a eficiência da extração de características, mantendo a filosofia "bag-of-freebies" — oferecendo alto desempenho sem exigir configurações de treino complexas.
- Autores: Glenn Jocher e Jing Qiu
- Organização:Ultralytics
- Data: 27 de setembro de 2024
- GitHub:ultralytics/ultralytics
- Documentação:Documentação do YOLO11
DAMO-YOLO
YOLO é um modelo centrado em pesquisa desenvolvido pela DAMO Academy (Alibaba Group). Ele introduz várias tecnologias inovadoras, incluindo Neural Architecture Search (NAS) para otimização de backbone, Reparameterized Generalized-FPN (RepGFPN) eficiente e uma estrutura de treinamento baseada em destilação. Ele se concentra fortemente em maximizar o equilíbrio entre latência e precisão por meio da pesquisa de design automatizada.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
- Organização: Alibaba Group
- Data: 23 de novembro de 2022
- Arxiv:DAMO-YOLO: Um Relatório sobre o Design de Detecção de Objetos em Tempo Real
- GitHub:tinyvision/DAMO-YOLO
Comparação Técnica
Arquitetura e Filosofia de Design
A principal diferença entre estes dois modelos reside nas suas origens de design. YOLO11 foi criado manualmente para oferecer versatilidade e facilidade de uso. Ele emprega uma estrutura refinada C3k2 (Cross Stage Partial) e um detect aprimorado que equilibra a contagem de parâmetros com a representação de recursos. Esse design garante que o modelo seja robusto em uma ampla variedade de tarefas — não apenas detecção de objetos, mas também segmentação de instâncias, estimativa de pose, classificação e tarefas de Oriented Bounding Box (OBB).
YOLO, por outro lado, usa o MAE-NAS (Método para Pesquisa Automática e Eficiente de Arquitetura Neural) para descobrir a sua estrutura principal. Isso resulta numa topologia de rede que é teoricamente ideal para restrições específicas de hardware, mas pode ser opaca e difícil de modificar manualmente. Além disso,YOLO muito de um pipeline de treino complexo que envolve um design «ZeroHead» e destilação de modelos professores maiores, o que aumenta a complexidade do treino em conjuntos de dados personalizados.
Métricas de Desempenho
A tabela abaixo compara o desempenho de várias escalas de modelos. YOLO11 eficiência superior, particularmente em cenários de menor latência (modelos N/S/M), mantendo a precisão de ponta.
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Análise de Desempenho
YOLO11 atinge consistentemente mAP mais altas com menos parâmetros em comparação comYOLO equivalentes. Por exemplo, o YOLO11 supera o DAMO-YOLO em 1,0 mAP usando quase 40% menos parâmetros (9,4 milhões contra 16,3 milhões). Essa eficiência se traduz diretamente em menor uso de memória e inferência mais rápida em dispositivos de ponta.
Eficiência e usabilidade do treinamento
YOLO11 destaca-se pela sua acessibilidade. Integrado no ultralytics Python , treinar um modelo é tão simples quanto definir um ficheiro YAML de conjunto de dados e executar um único comando. O ecossistema lida com o ajuste de hiperparâmetros, aumento de dados e acompanhamento de experiências automaticamente.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Por outro lado, YOLO emprega um processo de treino em várias etapas. Muitas vezes, é necessário treinar primeiro um modelo «professor» pesado para destilar o conhecimento no modelo «aluno» menor. Isso aumenta significativamente o tempo GPU e a VRAM necessária para o treino. Embora seja eficaz para extrair a última fração de precisão para benchmarks académicos, essa complexidade pode ser um gargalo para equipas de engenharia ágeis.
Casos de Uso Ideais
Por que escolher os modelos Ultralytics?
Para a grande maioria das aplicações do mundo real, YOLO11 (e o mais recente YOLO26) oferece o melhor equilíbrio entre desempenho e praticidade.
- Facilidade de uso: a Ultralytics foi projetada para a satisfação dos programadores. Guias completos e uma CLI unificada CLI a transição do protótipo para a produção.
- Ecossistema bem mantido: Ao contrário de muitos repositórios de pesquisa que ficam inativos após a publicação, Ultralytics são mantidos ativamente. Atualizações regulares garantem a compatibilidade com as últimas versões do PyTorch , CUDA e formatos de exportação como OpenVINO e CoreML.
- Versatilidade: enquantoYOLO estritamente um detetor de objetos, YOLO11 estimativa de pose (pontos-chave) e segmentação de instâncias de forma nativa. Isso permite que uma única família de arquiteturas lide com diversas tarefas de visão em pipelines complexos.
- Eficiência de memória:YOLO Ultralytics YOLO são otimizados para baixo consumo de VRAM. Eles evitam a sobrecarga de memória pesada frequentemente associada a arquiteturas baseadas em transformadores ou pipelines de destilação complexos, tornando-os treináveis em hardware de nível consumidor.
Quando usar o DAMO-YOLO
- Investigação académica: Se o seu objetivo é estudar a Pesquisa de Arquitetura Neural (NAS) ou a reprodução de técnicas específicas de parametrização de repetições apresentadas no YOLO .
- Restrições específicas de hardware: se tiver recursos para realizar pesquisas extensas em NAS para encontrar uma espinha dorsal perfeitamente adaptada a um acelerador de hardware muito específico e não padrão.
Aplicações no Mundo Real
YOLO11 é amplamente utilizado em diversos setores devido à sua robustez:
- Varejo inteligente:análise do comportamento do cliente e gestão automatizada do inventário usando detecção de objetos.
- Saúde:Detecção de tumores em imagens médicas, onde a velocidade permite um rastreio rápido.
- Fabricação: Sistemasde controlo de qualidade que exigem inferência de alta velocidade em dispositivos de ponta para detect nas linhas de montagem.
Avançando: a vantagem do YOLO26
Embora YOLO11 um excelente modelo, o campo continuou a avançar. Para novos projetos com início em 2026, o YOLO26 é a escolha recomendada.
O YOLO26 apresenta várias funcionalidades inovadoras:
- NMS de ponta a ponta: Ao eliminar a supressão não máxima (NMS), o YOLO26 simplifica a lógica de implementação e reduz a variabilidade da latência, um conceito pioneiro no YOLOv10.
- MuSGD Optimizer: Um otimizador híbrido inspirado no treinamento LLM que garante uma convergência estável.
- Detecção aprimorada de pequenos objetos: funções de perda como ProgLoss e STAL melhoram significativamente o desempenho em alvos pequenos, o que é crucial para imagens de drones e sensores IoT.
Conclusão
Ambos YOLO11 e YOLO contribuíram significativamente para o avanço da detecção de objetos.YOLO o potencial da pesquisa automatizada de arquiteturas. No entanto, YOLO11 continua a ser a escolha superior para aplicações práticas devido ao seu fluxo de trabalho simplificado, amplo suporte a tarefas e uso eficiente de parâmetros.
Para os programadores que desejam permanecer na vanguarda absoluta, a migração para o YOLO26 oferece ainda mais velocidade e simplicidade, garantindo que os seus projetos de visão computacional permaneçam preparados para o futuro.
Comece o seu projeto
Pronto para começar o treinamento? Acesse a Ultralytics para anotar, treinar e implementar seus modelos em poucos minutos, sem precisar gerenciar uma infraestrutura complexa.