YOLO . YOLOv8: Evolução arquitetónica na deteção de objetos

A busca pela deteção de objetos em tempo real impulsionou inovações significativas no design de redes neurais. Duas arquiteturas proeminentes que moldaram esse cenário sãoYOLO, desenvolvida pela equipa de pesquisa da Alibaba, e YOLOv8, criada pela Ultralytics. Esta comparação explora as distinções técnicas entre esses modelos, examinando as suas estratégias de treino, eficiências arquitetónicas e adequação para implementação.

DAMO-YOLO Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização: Alibaba Group
Data: 23/11/2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO

YOLOv8 Autores: Glenn Jocher, Ayush Chaurasia e Jing Qiu
Organização: Ultralytics
Data: 10/01/2023
GitHub: ultralytics
Documentação: yolov8

Filosofias Arquitetónicas

A principal diferença entre esses dois modelos reside na origem do seu design.YOLO fortemente de estratégias de pesquisa automatizadas, enquanto YOLOv8 o design arquitetónico manual por meio de testes empíricos extensivos.

YOLO: Pesquisa de Arquitetura Neural (NAS)

YOLO uma abordagem orientada para a tecnologia chamada MAE-NAS (Method-Automated Efficiency Neural Architecture Search, ou Pesquisa Neural de Arquitetura de Eficiência Automatizada por Método). Em vez de projetar blocos manualmente, os autores utilizaram a Pesquisa Neural de Arquitetura para descobrir uma estrutura eficiente sob restrições específicas de latência.

Os principais componentes arquitetônicos incluem:

MAE-NAS Backbone: Uma estrutura otimizada automaticamente para equilibrar a precisão da detecção com a velocidade de inferência.
RepGFPN eficiente: uma rede piramidal de características generalizada (FPN) que usa reparametrização para melhorar a fusão de características sem adicionar custo de inferência.
ZeroHead: Um cabeçote de detecção leve projetado para reduzir a carga computacional nas camadas finais de saída.
AlignedOTA: Uma estratégia dinâmica de atribuição de rótulos que resolve o desalinhamento entre tarefas de classificação e regressão.

YOLOv8: Design manual refinado

YOLOv8 no legado da YOLO , introduzindo o módulo C2f (Cross-Stage Partial Bottleneck com duas convoluções). Este módulo foi concebido para melhorar as informações de fluxo de gradiente, permitindo que a rede aprenda características mais complexas, mantendo-se leve.

As principais características arquitetônicas incluem:

Detecção sem âncora: YOLOv8 as caixas de âncora, prevendo diretamente os centros dos objetos. Isso simplifica o NMS e reduz o número de hiperparâmetros que os utilizadores precisam ajustar.
Cabeça desacoplada: separa os ramos de classificação e regressão, permitindo que cada um converja de forma mais eficaz.
Aumento de mosaico: uma técnica de treino avançada que combina quatro imagens numa só, forçando o modelo a aprender a invariância de contexto e escala.

Métricas de Desempenho

A tabela a seguir compara o desempenho doYOLO YOLOv8 COCO . EnquantoYOLO mAP impressionante mAP destilação pesada, YOLOv8 oferece velocidades de inferência superiores e menor complexidade de implementação.

Modelo	tamanho ^(pixels)	mAP^val 50-95	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	parâmetros ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Eficiência e complexidade do treino

Uma distinção crítica para os programadores é o pipeline de treino.YOLO uma estratégia de destilação sofisticada. Para alcançar os seus resultados de alto nível, um grande modelo «professor» deve primeiro ser treinado para orientar os modelos «alunos» menores. Embora isso produza alta precisão, complica significativamente o fluxo de trabalho de treino, aumenta os requisitos GPU e prolonga o tempo de treino.

Em contrapartida, Ultralytics priorizam a eficiência do treino. YOLOv8 uma abordagem «Bag of Freebies», em que as escolhas arquitetónicas e as estratégias de aumento (como MixUp Mosaic) proporcionam ganhos de precisão sem exigir um pipeline de destilação em várias etapas. Isso torna YOLOv8 mais rápido para treinar em hardware de nível consumidor, reduzindo a barreira de entrada para conjuntos de dados personalizados.

Eficiência de Recursos

YOLO Ultralytics normalmente apresentam requisitos de memória mais baixos durante o treinamento e a inferência em comparação com modelos complexos baseados em Transformer ou pipelines de destilação. Isso permite tamanhos de lote maiores e experimentação mais rápida em GPUs padrão.

A Vantagem do Ecossistema Ultralytics

EmboraYOLO contribuições académicas inovadoras, o Ultralytics oferece uma vantagem distinta para o desenvolvimento de aplicações no mundo real.

Versatilidade além da detecção

YOLO projetado principalmente para a deteção de caixas delimitadoras. Por outro lado, a Ultralytics é nativamente multitarefa. Uma única API permite que os programadores realizem:

Segmentação de instâncias para mascaramento preciso ao nível do pixel.
Estimativa de pose para rastreamento de esqueleto.
Caixa delimitadora orientada (OBB) para deteção de objetos aéreos e rodados.
Classificação de imagens para categorização de imagens inteiras.

Facilidade de Uso e Implantação

Ultralytics uma experiência de utilizador simplificada. O Python permite o treino, a validação e a implementação em menos de cinco linhas de código. Além disso, as extensas opções de exportação permitem uma conversão perfeita para ONNX, TensorRT, CoreML, TFLite e OpenVINO, garantindo que os modelos possam ser implementados em tudo, desde servidores na nuvem até Raspberry Pis.

O futuro da IA visual: YOLO26

Para os programadores que procuram o que há de mais avançado para 2026, Ultralytics o YOLO26. Com base no sucesso do YOLOv8 do YOLO11, o YOLO26 introduz mudanças fundamentais na arquitetura para maior velocidade e estabilidade.

Saiba mais sobre YOLO26

Design sem NMS de Ponta a Ponta

Ao contrárioYOLO YOLOv8, que requerem pós-processamento de supressão não máxima (NMS) para filtrar caixas sobrepostas, o YOLO26 é nativamente ponta a ponta. Essa inovação, pioneira no YOLOv10, elimina NMS . Isso resulta em pipelines de implementação simplificados e menor latência, especialmente em cenários com muitos objetos detetados.

Otimização avançada e funções de perda

O YOLO26 integra o MuSGD Optimizer, um híbrido de SGD Muon (inspirado nas inovações de treino LLM do Kimi K2 da Moonshot AI). Isso traz a estabilidade do treino de grandes modelos de linguagem para a visão computacional, resultando em uma convergência mais rápida. Além disso, a remoção da Perda Focal de Distribuição (DFL) e a introdução do ProgLoss e do STAL (Soft Task-Aligned Loss) melhoram significativamente o desempenho em objetos pequenos — um desafio comum em robótica e IoT.

Equilíbrio de Desempenho

O YOLO26 é otimizado para computação de ponta, oferecendo CPU até 43% mais rápida em comparação com as gerações anteriores. Isso o torna a escolha ideal para aplicações executadas em dispositivos sem GPUs dedicadas, superando a eficiência das abordagens mais antigas baseadas em NAS.

Exemplo de código: Ultralytics

O exemplo a seguir demonstra como é fácil para um programador alternar entre gerações de modelos usando a Ultralytics . Essa flexibilidade permite uma rápida comparação do YOLOv8 o mais recente YOLO26 em um conjunto de dados personalizado.

from ultralytics import YOLO

# Load the models
model_v8 = YOLO("yolov8n.pt")
model_v26 = YOLO("yolo26n.pt")  # Recommended for new projects

# Train YOLO26 on a custom dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model_v26.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the NMS-free architecture
# No post-processing tuning required
prediction = model_v26("https://ultralytics.com/images/bus.jpg")
prediction[0].show()

Resumo

TantoYOLO YOLOv8 marcos significativos na visão computacional.YOLO o poder da pesquisa de arquitetura neural e da destilação para alcançar alta precisão. No entanto, para a maioria dos desenvolvedores, pesquisadores e empresas, Ultralytics YOLOv8— e, especificamente, o mais recente YOLO26— oferece um equilíbrio superior.

A combinação de um ecossistema bem mantido, facilidade de uso, suporte versátil a tarefas e recursos de ponta, como deteção NMS, torna Ultralytics escolha preferida para soluções de IA escaláveis e preparadas para o futuro. Os programadores que procuram outras opções de alto desempenho também podem explorar RT-DETR para precisão baseada em transformadores ou YOLO11 para obter robustez comprovada.