Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs YOLOv10: Uma análise técnica profunda sobre a evolução da detecção de objetos em tempo real#

O cenário da visão computacional em tempo real tem visto avanços imensos, impulsionados em grande parte por pesquisadores que continuamente elevam a fronteira entre desempenho e eficiência. Ao analisar a evolução dos modelos de visão de última geração, YOLOv9 e YOLOv10 representam dois marcos cruciais. Lançados no início de 2024, ambos os modelos introduziram designs arquitetônicos que mudam o paradigma para resolver desafios de longa data em redes neurais profundas, desde gargalos de informação até a latência de pós-processamento.

Esta comparação técnica abrangente explora suas arquiteturas, métricas de desempenho e cenários de implantação ideais, ajudando você a navegar pelas complexidades dos ecossistemas modernos de detecção de objetos.

Link to this sectionOrigens dos modelos e inovações arquitetônicas#

Compreender a linhagem e as bases teóricas desses modelos é crucial para selecionar a arquitetura certa para o seu projeto específico de visão computacional.

Link to this sectionYOLOv9: Dominando o fluxo de informações#

Introduzido em 21 de fevereiro de 2024, o YOLOv9 aborda o problema teórico da perda de informação à medida que os dados passam por redes neurais profundas.

O YOLOv9 apresenta a Generalized Efficient Layer Aggregation Network (GELAN), que maximiza a utilização de parâmetros ao combinar os pontos fortes da CSPNet e da ELAN. Além disso, emprega a Programmable Gradient Information (PGI), um mecanismo de supervisão auxiliar que garante que camadas profundas retenham informações espaciais críticas. Isso torna o YOLOv9 excepcionalmente forte para tarefas que exigem alta fidelidade de recursos, como análise de imagens médicas ou vigilância à distância.

Saiba mais sobre o YOLOv9

Link to this sectionYOLOv10: Eficiência de ponta a ponta em tempo real#

Lançado pouco depois, em 23 de maio de 2024, o YOLOv10 reimagina o pipeline de implantação ao eliminar um dos gargalos de latência mais notórios na detecção de objetos: o Non-Maximum Suppression (NMS).

O YOLOv10 utiliza consistent dual assignments durante o treinamento, permitindo um design nativamente NMS-free. Isso remove a sobrecarga de pós-processamento durante a inferência, reduzindo drasticamente a latência. Combinado com um design de modelo holístico voltado para eficiência e precisão, o YOLOv10 alcança um equilíbrio notável, reduzindo a sobrecarga computacional (FLOPs) enquanto mantém uma precisão competitiva, tornando-o altamente atraente para aplicações de computação de borda.

Saiba mais sobre o YOLOv10

Link to this sectionComparação de desempenho e métricas#

Ao comparar essas duas potências no conjunto de dados padrão MS COCO, surgem trocas distintas entre precisão pura e latência de inferência.

Modelotamanho
(pixels)
mAPval
50-95
Velocidade
CPU ONNX
(ms)
Velocidade
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054,4-12.256,9160.4

Link to this sectionAnalisando os dados#

  1. Latência vs. Precisão: Os modelos YOLOv10 geralmente oferecem velocidades de inferência superiores. Por exemplo, o YOLOv10s atinge 46,7% de mAP em apenas 2,66ms no TensorRT, comparado ao YOLOv9s que requer 3,54ms para um mAP quase idêntico de 46,8%.
  2. Precisão de alto nível: Para cenários de pesquisa que exigem precisão máxima de detecção, o YOLOv9e continua sendo uma escolha formidável, atingindo impressionantes 55,6% de mAP. Sua arquitetura PGI garante que recursos sutis sejam extraídos de forma confiável.
  3. Eficiência: O YOLOv10 se destaca na eficiência de FLOPs. Isso se traduz diretamente em menor consumo de energia, uma métrica crucial para dispositivos operados por bateria que executam modelos de IA de visão.
Dica de implantação

Se você estiver implantando em CPUs ou hardware de borda com recursos limitados, como um Raspberry Pi, a arquitetura NMS-free do YOLOv10 geralmente fornecerá um pipeline mais suave ao eliminar etapas de pós-processamento não determinísticas.

Link to this sectionA vantagem da Ultralytics: Treinamento e ecossistema#

Embora as diferenças arquitetônicas sejam críticas, o ecossistema de software ao redor dita fortemente o sucesso de um projeto. Tanto o YOLOv9 quanto o YOLOv10 estão totalmente integrados ao ecossistema Ultralytics, proporcionando uma experiência de desenvolvedor inigualável.

Link to this sectionFacilidade de uso e eficiência de memória#

Ao contrário de arquiteturas complexas baseadas em Transformer que sofrem com enorme inchaço de memória, os modelos YOLO da Ultralytics são projetados para o uso ideal de memória de GPU. Isso permite que pesquisadores utilizem batch sizes maiores em hardware de nível de consumidor, tornando a IA de última geração acessível.

A API Python unificada abstrai as complexidades de data augmentation e hyperparameter tuning. Você pode alternar entre arquiteturas facilmente, apenas alterando a string do arquivo de pesos.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Se você precisa registrar métricas no MLflow ou exportar para TensorRT para implantação de hardware de alta velocidade, a plataforma Ultralytics lida com isso nativamente.

Link to this sectionCasos de uso ideais#

Escolher entre esses modelos depende das suas restrições de implantação:

Link to this sectionPreparação para o futuro: A mudança para o YOLO26#

Embora YOLOv8, YOLOv9 e YOLOv10 sejam excelentes modelos, desenvolvedores que buscam construir soluções de IA modernas devem considerar o Ultralytics YOLO26, lançado em janeiro de 2026.

O YOLO26 representa a síntese definitiva das gerações anteriores, combinando os melhores aspectos da precisão do YOLOv9 e da eficiência do YOLOv10.

Link to this sectionPrincipais inovações do YOLO26#

  • Design de ponta a ponta NMS-Free: Construindo sobre as bases estabelecidas pelo YOLOv10, o YOLO26 elimina nativamente o pós-processamento NMS para uma implantação mais simples.
  • Otimizador MuSGD: Um híbrido de SGD e Muon, trazendo inovações avançadas de treinamento de LLM para a visão computacional para uma convergência incrivelmente estável e rápida.
  • Até 43% mais rápida inferência de CPU: Especificamente otimizado para computação de borda e dispositivos sem GPUs dedicadas.
  • Remoção de DFL: O Distribution Focal Loss foi removido para simplificar a exportação de modelo e aumentar a compatibilidade com dispositivos de baixo consumo de energia.
  • ProgLoss + STAL: Essas funções de perda aprimoradas trazem melhorias notáveis no reconhecimento de objetos pequenos, igualando ou superando as capacidades do YOLOv9.

Para pesquisadores que avaliam arquiteturas legadas, RT-DETR e YOLO11 também são alternativas bem documentadas dentro do ecossistema Ultralytics. No entanto, para máxima versatilidade em todas as tarefas de visão, a transição para o YOLO26 na Plataforma Ultralytics garante que você esteja aproveitando o que há de melhor em IA de visão de código aberto.

Colaboradores

Comentários