YOLOX vs.YOLO: Analisando arquiteturas de detecção de objetos de última geração
No cenário em rápida evolução da visão computacional, a mudança de detetores baseados em âncoras para detetores sem âncoras marcou um marco significativo. Dois modelos proeminentes que moldaram essa transição são o YOLOX e YOLO. Esta comparação explora as suas inovações arquitetónicas, métricas de desempenho e metodologias de treino para ajudar investigadores e engenheiros a selecionar a ferramenta certa para as suas necessidades específicas de deteção de objetos.
Benchmarks de Desempenho
A tabela a seguir apresenta uma comparação direta das principais métricas de desempenho entreYOLO YOLOX eYOLO .
| Modelo | tamanho (pixels) | mAPval 50-95 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOX: Ligando a Pesquisa e a Indústria
O YOLOX surgiu como uma atualização fundamental para a YOLO , mudando para um mecanismo sem âncora e introduzindo técnicas avançadas de detecção que simplificaram o fluxo entre a investigação académica e a aplicação industrial.
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organização:Megvii
Data: 2021-07-18
Arxiv:YOLOX: Superando a Série YOLO em 2021
GitHub:Megvii-BaseDetection/YOLOX
Arquitetura e Inovação
O YOLOX distingue-se por remover as caixas de âncora encontradas em iterações anteriores, como o YOLOv4 e o YOLOv5. A sua arquitetura «Decoupled Head» separa as tarefas de classificação e localização, o que melhora significativamente a velocidade de convergência e a precisão.
Além disso, o YOLOX emprega SimOTA, uma estratégia dinâmica de atribuição de rótulos que encara o processo de treino como um problema de transporte ótimo. Isso permite que o modelo atribua automaticamente amostras positivas a verdades fundamentais com base numa estratégia de otimização global, reduzindo a necessidade de ajuste heurístico de hiperparâmetros.
DAMO-YOLO: Eficiência na Busca de Arquitetura Neural
YOLO os limites das compensações entre latência e precisão, aproveitando a Pesquisa de Arquitetura Neural (NAS) e a reparametrização pesada.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organização:Alibaba Group
Data: 23/11/2022
Arxiv:YOLO: Um relatório sobre o design de detecção de objetos em tempo real
GitHub:YOLO
Tecnologias-chave
YOLO uma espinha dorsal MAE-NAS, construída usando uma pesquisa evolutiva multiobjetiva para encontrar a estrutura de rede ideal sob restrições de latência específicas. Ele também utiliza RepGFPN (Rede Piramidal de Características Generalizadas Reparametrizada Eficiente) para uma fusão eficaz de características em todas as escalas.
Uma característica notável é o ZeroHead, que simplifica o cabeçote de detecção para uma complexidade mínima, contando com a espinha dorsal e o pescoço pesados para fazer o trabalho pesado. O treinamento é complementado pelo AlignedOTA para atribuição de rótulos e uma fase de destilação em que um modelo professor maior orienta o aluno, garantindo alto desempenho mesmo para variantes de modelos menores.
A Vantagem Ultralytics
Enquanto o YOLOX eYOLO soluções robustas para cenários específicos, o Ultralytics fornece uma alternativa abrangente, fácil de usar e de alto desempenho que aborda as complexidades do desenvolvimento moderno de IA.
Facilidade de utilização e ecossistema perfeitos
Um dos principais pontos de atrito com modelos comoYOLO a complexidade das suas receitas de treino, que muitas vezes envolvem destilação em várias etapas ou espaços de pesquisa NAS especializados. Em contrapartida, Ultralytics são concebidos para serem imediatamente acessíveis. Quer esteja a utilizar o YOLO11 ou o avançado YOLO26, todo o fluxo de trabalho — desde o carregamento do conjunto de dados até a exportação do modelo — é tratado por meio de uma API unificada.
Os programadores podem aproveitar a Ultralytics para gerir conjuntos de dados, visualizar experiências e implementar modelos de forma integrada. Esta abordagem integrada elimina as barreiras à entrada, permitindo que as equipas se concentrem na resolução de problemas empresariais, em vez de depurar scripts de formação.
Equilíbrio de desempenho com YOLO26
Para aqueles que buscam o máximo em velocidade e precisão, o YOLO26 representa o que há de mais avançado. Ele se baseia nas lições aprendidas com modelos como o YOLOX (design sem âncoras) e o YOLOv10 (inferênciaNMS) para oferecer um desempenho excecional.
Inovação YOLO26: NMS de ponta a ponta
O YOLO26 é nativamente ponta a ponta, eliminando a necessidade de pós-processamento de supressão não máxima (NMS). Isso simplifica significativamente os pipelines de implementação, especialmente em dispositivos de ponta, onde NMS podem ser um gargalo de latência.
As principais características do YOLO26 incluem:
- Remoção de DFL: A remoção da perda focal de distribuição simplifica o gráfico do modelo para facilitar a exportação para formatos como ONNX e TensorRT.
- Otimizador MuSGD: Um híbrido de SGD Muon (inspirado no treinamento LLM) garante uma convergência estável.
- CPU : Arquitetura otimizada para computação de ponta, proporcionando uma inferência até 43% mais rápida nas CPUs.
- ProgLoss + STAL: Funções de perda avançadas que melhoram drasticamente a deteção de pequenos objetos, um requisito crítico para imagens de drones e robótica.
Versatilidade em Diferentes Tarefas
Ao contrário do YOLOX eYOLO, que se concentram principalmente na deteção de objetos, Ultralytics são inerentemente multimodais. Uma única biblioteca suporta:
Essa versatilidade permite que os programadores enfrentem projetos complexos, como analisar a mecânica dos jogadores em esportes usando estimativa de pose, sem precisar mudar de estrutura.
Eficiência e Memória no Treinamento
Ultralytics são projetados para serem eficientes em termos de recursos. Normalmente, eles exigem menos GPU durante o treinamento em comparação com modelos pesados baseados em transformadores, como o RT-DETR. Essa eficiência democratiza a IA, permitindo que modelos poderosos sejam treinados em hardware padrão de consumo.
Veja como é simples treinar um modelo YOLO26 de última geração usando o Ultralytics Python :
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Aplicações no Mundo Real
A escolha do modelo certo depende frequentemente das restrições específicas do ambiente de implementação.
Controlo de qualidade industrial
Para linhas de produção de alta velocidade, YOLO é um forte concorrente devido à sua baixa latência no GPU , tornando-o adequado para detetar defeitos em transportadores de movimento rápido. No entanto, o YOLO26 é cada vez mais preferido aqui porque o seu designNMS garante tempos de inferência determinísticos, evitando instabilidades que podem dessincronizar os atuadores robóticos.
IA de ponta e dispositivos móveis
O YOLOX-Nano tem sido historicamente um dos favoritos para aplicações móveis devido ao seu pequeno número de parâmetros. Hoje, o YOLO26n (Nano) oferece uma alternativa superior, proporcionando maior precisão em tamanhos de modelo semelhantes, ao mesmo tempo que beneficia de CPU 43% mais rápida. Isto torna-o ideal para dispositivos alimentados por bateria, como câmaras inteligentes ou sensores agrícolas.
Sistemas Autônomos
Na robótica e na condução autónoma, a capacidade de lidar com escalas de objetos variáveis é crucial. Embora a cabeça desacoplada do YOLOX ajude, a implementação do ProgLoss + STAL no YOLO26 proporciona um aumento tangível no reconhecimento de objetos distantes ou pequenos, como sinais de trânsito ou peões, melhorando a segurança geral do sistema.
Resumo
Tanto o YOLOX quantoYOLO significativamente para o avanço da deteção de objetos. O YOLOX popularizou o paradigma sem âncora, enquantoYOLO o poder da Pesquisa de Arquitetura Neural.
No entanto, para uma solução moderna e preparada para o futuro que equilibra desempenho, facilidade de uso e flexibilidade de implementação, Ultralytics se destaca. A sua integração no Ultralytics mais amplo Ultralytics , suporte para múltiplas tarefas e processos de exportação simplificados tornam-no a escolha recomendada tanto para pesquisa académica como para aplicações de nível empresarial.
Explore todo o potencial destes modelos visitando a Ultralytics e iniciando a sua jornada de formação hoje mesmo.