Ir para o conteúdo

YOLO11 . YOLO26: A evolução da deteção de objetos em tempo real

O panorama da visão computacional está em constante mudança, com cada nova iteração do modelo a expandir os limites de velocidade, precisão e usabilidade. Dois marcos significativos nesta jornada são YOLO11 e o inovador YOLO26. Enquanto YOLO11 um padrão robusto para implementação empresarial no final de 2024, o YOLO26 representa uma mudança de paradigma com a sua arquitetura nativa de ponta a ponta e design CPU.

Este guia fornece uma comparação técnica abrangente para ajudar programadores, investigadores e engenheiros a escolher a ferramenta certa para as suas aplicações específicas de visão computacional.

Resumo executivo: Principais diferenças

Embora ambos os modelos sejam construídos com base nos princípios fundamentais da família YOLO You Only Look Once), eles divergem significativamente na sua filosofia arquitetónica.

  • YOLO11: Concebido para oferecer versatilidade e integração no ecossistema. Baseia-se em métodos tradicionais de pós-processamento, como a supressão não máxima (NMS), mas oferece uma estrutura altamente estável e bem suportada para uma ampla variedade de tarefas.
  • YOLO26: Concebido para a vanguarda e preparado para o futuro. Apresenta um design nativo de ponta a ponta NMS, eliminando etapas complexas de pós-processamento. Também inclui o inovador otimizador MuSGD e foi especificamente concebido para CPU , tornando-o até 43% mais rápido em dispositivos como o Raspberry Pi.

Análise detalhada do desempenho

A diferença de desempenho entre as gerações é frequentemente medida em milissegundos e pontos percentuais da precisão média (mAP). A tabela abaixo destaca as melhorias em velocidade e precisão. Observe a redução significativa no tempo CPU para o YOLO26, uma métrica crítica para implementações de IA de ponta.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
parâmetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

YOLO11: O padrão versátil

YOLO11
Autores: Glenn Jocher e Jing Qiu
Organização: Ultralytics
Data: 27/09/2024
GitHub: Ultralytics

YOLO11 um grande aperfeiçoamento na YOLO , com foco na eficiência da extração de características. Ele melhorou o YOLOv8 otimizando o bloco C3k2 e introduzindo melhorias SPPF.

Forças:

  • Robustez comprovada: amplamente adotado na indústria, com extensos plugins e suporte da comunidade.
  • GPU : Altamente eficiente em NVIDIA (T4, A100) usando TensorRT, tornando-a excelente para inferência baseada em nuvem.
  • Versatilidade de tarefas: Desempenho robusto em deteção, segmentação e estimativa de pose.

Fraquezas:

  • NMS : Requer pós-processamento de supressão não máxima, o que pode introduzir variabilidade de latência e complicar os pipelines de implementação.
  • FLOPs mais elevados: ligeiramente mais dispendioso em termos computacionais do que as arquiteturas mais recentes.

Saiba mais sobre o YOLO11.

YOLO26: O inovador pioneiro

YOLO26
Autores: Glenn Jocher e Jing Qiu
Organização: Ultralytics
Data: 14/01/2026
GitHub: Ultralytics

O YOLO26 é uma arquitetura inovadora que prioriza a eficiência em hardware comum. Ao eliminar a necessidade de NMS otimizar os conjuntos CPU , ele libera o desempenho em tempo real em dispositivos anteriormente considerados lentos demais para a IA moderna.

Principais inovações:

  • NMS de ponta a ponta: ao prever correspondências um-para-um diretamente, o YOLO26 elimina o NMS . Isso simplifica CoreML a exportação para ONNX ou CoreML .
  • Remoção de DFL: A remoção do Distribution Focal Loss simplifica o cabeçote de saída, aumentando a compatibilidade com dispositivos de ponta de baixa potência.
  • Otimizador MuSGD: Inspirado nas técnicas de treino do Large Language Model (LLM) (especificamente o Kimi K2 da Moonshot AI), este otimizador híbrido combina SGD com Muon para uma convergência e estabilidade mais rápidas.
  • ProgLoss + STAL: Novas funções de perda melhoram a deteção de pequenos objetos, um requisito crítico para imagens aéreas e robótica.

Saiba mais sobre YOLO26

Análise Arquitetural Detalhada

A mudança do YOLO11 o YOLO26 não se resume apenas à contagem de parâmetros; trata-se de uma mudança fundamental na forma como o modelo aprende e faz previsões.

Metodologias de Formação e Eficiência

Uma das características mais marcantes dos Ultralytics é a eficiência do treinamento. Ambos os modelos se beneficiam da Ultralytics integrada, que permite o gerenciamento contínuo de conjuntos de dados e o treinamento em nuvem.

No entanto, o YOLO26 introduz o otimizador MuSGD, que adapta as atualizações de momentum para lidar com os complexos cenários de perda dos modelos de visão de forma mais eficaz do que AdamW SGD padrão. Isso resulta em modelos que convergem mais rapidamente, economizando valiosas horas GPU e reduzindo a pegada de carbono do treinamento.

Além disso, o YOLO26 utiliza perdas específicas para tarefas melhoradas:

  • Segmentação: Perda de segmentação semântica aprimorada e módulos proto multiescala.
  • Pose: Estimativa da Log-Verossimilhança Residual (RLE) para uma localização mais precisa dos pontos-chave.
  • OBB: Perda de ângulo especializada para resolver descontinuidades de limites em tarefas de Oriented Bounding Box.

Requisitos de Memória

YOLO Ultralytics são conhecidos pela sua baixa ocupação de memória em comparação com arquiteturas baseadas em transformadores, como RT-DETR ou SAM .

Otimização de Memória

Tanto YOLO11 o YOLO26 foram projetados para serem treinados em GPUs de nível consumidor (por exemplo, NVIDIA 3060 ou 4070). Ao contrário dos modelos de transformadores massivos que exigem 24 GB+ de VRAM, YOLO eficientes podem frequentemente ser ajustadas em dispositivos com apenas 8 GB de VRAM usando tamanhos de lote apropriados.

Casos de Uso no Mundo Real

A escolha entre YOLO11 YOLO26 geralmente depende do seu hardware de implementação e das necessidades específicas da aplicação.

Cenários Ideais para YOLO11

  • Serviços de API na nuvem: onde GPUs potentes estão disponíveis e o alto rendimento (processamento em lote) é mais importante do que a latência de uma única imagem.
  • Integrações legadas: sistemas já construídos em torno de pipelines NMS, nos quais não é viável alterar a lógica de pós-processamento.
  • Análise de finalidade geral: mapeamento térmico de lojas ou contagem de clientes, onde são utilizados GPU padrão.

Cenários Ideais para YOLO26

  • IoT e dispositivos de ponta: execução de deteção de objetos no Raspberry Pi, NVIDIA Nano ou telemóveis. O CPU de 43% CPU é um divisor de águas neste caso.
  • Robótica: A variação da latência é fatal para os loops de controlo. O design NMS garante tempos de inferência determinísticos, cruciais para a navegação autónoma.
  • Levantamento aéreo: A função ProgLoss melhora significativamente o reconhecimento de pequenos objetos, tornando o YOLO26 superior para a análise de imagens captadas por drones.
  • Sistemas incorporados: dispositivos com capacidade computacional limitada que não suportam a sobrecarga de classificar milhares de caixas candidatas durante NMS.

Implementação de Código

Ambos os modelos compartilham a mesma facilidade de uso que define o Ultralytics . A mudança do YOLO11 o YOLO26 requer apenas a alteração da sequência do modelo.

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, CPU optimized)
model = YOLO("yolo26n.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Process results
for result in results:
    result.show()  # Display to screen
    result.save(filename="result.jpg")  # Save to disk

Essa API unificada garante que os programadores possam experimentar diferentes arquiteturas sem precisar reescrever toda a sua base de código.

Conclusão

Ambas as arquiteturas demonstram por que Ultralytics líder em visão computacional de código aberto. YOLO11 oferece uma solução madura, versátil e GPU, perfeita para centros de dados empresariais. O YOLO26, no entanto, representa o futuro da IA de ponta, oferecendo CPU extremamente rápido e um pipeline simplificado de ponta a ponta que elimina os gargalos tradicionais.

Para a maioria dos novos projetos — especialmente aqueles que envolvem implementação de ponta, aplicações móveis ou robótica —o YOLO26 é a escolha recomendada devido à sua relação velocidade-precisão superior e ao seu design arquitetónico moderno.

Outros Modelos para Explorar

  • YOLOv10: O pioneiro da abordagem NMS na YOLO .
  • RT-DETR: Um detetor baseado em transformador que oferece alta precisão para cenários em que a velocidade é secundária.
  • YOLOv8: Um clássico altamente confiável, ainda amplamente utilizado por sua vasta biblioteca de recursos.

Comentários