Vai al contenuto

YOLOX vs.YOLO: analisi delle architetture di rilevamento oggetti di nuova generazione

Nel panorama in rapida evoluzione della visione artificiale, il passaggio dai rilevatori basati su anchor a quelli senza anchor ha segnato una tappa fondamentale. Due modelli di spicco che hanno plasmato questa transizione sono YOLOX e YOLO. Questo confronto esplora le loro innovazioni architetturali, le metriche di prestazione e le metodologie di addestramento per aiutare ricercatori e ingegneri a selezionare lo strumento giusto per le loro specifiche esigenze di rilevamento degli oggetti.

Benchmark delle prestazioni

La tabella seguente presenta un confronto diretto tra i principali parametri di prestazioneYOLO YOLOX eYOLO .

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOX: Collegamento tra Ricerca e Industria

YOLOX è emerso come un aggiornamento fondamentale della YOLO , passando a un meccanismo senza ancoraggio e introducendo tecniche di rilevamento avanzate che hanno semplificato il percorso tra la ricerca accademica e l'applicazione industriale.

Autori: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organizzazione:Megvii
Data: 2021-07-18
Arxiv:YOLOX: Superare la serie YOLO nel 2021
GitHub:Megvii-BaseDetection/YOLOX

Architettura e innovazione

YOLOX si distingue per l'eliminazione delle caselle di ancoraggio presenti nelle versioni precedenti come YOLOv4 e YOLOv5. La sua architettura "Decoupled Head" separa le attività di classificazione e localizzazione, migliorando significativamente la velocità di convergenza e la precisione.

Inoltre, YOLOX utilizza SimOTA, una strategia di assegnazione dinamica delle etichette che considera il processo di addestramento come un problema di trasporto ottimale. Ciò consente al modello di assegnare automaticamente campioni positivi alle verità di base sulla base di una strategia di ottimizzazione globale, riducendo la necessità di una regolazione euristica degli iperparametri.

Scopri di più su YOLOX

YOLO: Efficienza nella ricerca dell'architettura neurale

YOLO i limiti del compromesso tra latenza e precisione sfruttando la ricerca dell'architettura neurale (NAS) e una profonda riparametrizzazione.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione:Alibaba Group
Data: 23/11/2022
Arxiv:YOLO: Relazione sulla progettazione del rilevamento di oggetti in tempo reale
GitHub:YOLO

Tecnologie chiave

YOLO una dorsale MAE-NAS, costruita utilizzando una ricerca evolutiva multiobiettivo per trovare la struttura di rete ottimale in base a specifici vincoli di latenza. Utilizza inoltre RepGFPN (Efficient Reparameterized Generalized Feature Pyramid Network) per un'efficace fusione delle caratteristiche su tutte le scale.

Una caratteristica degna di nota è ZeroHead, che semplifica la complessità della testa di rilevamento al minimo, affidandosi alla struttura portante e al collo per svolgere il lavoro più pesante. La formazione è potenziata da AlignedOTA per l'assegnazione delle etichette e da una fase di distillazione in cui un modello insegnante più grande guida lo studente, garantendo prestazioni elevate anche per varianti di modelli più piccoli.

Scopri di più su DAMO-YOLO

Il vantaggio di Ultralytics

Mentre YOLOX eYOLO soluzioni robuste per scenari specifici, Ultralytics fornisce un'alternativa completa, intuitiva e ad alte prestazioni che affronta le complessità dello sviluppo dell'IA moderna.

Facilità d'uso e ecosistema senza soluzione di continuità

Uno dei principali punti di attrito con modelli comeYOLO la complessità delle loro ricette di addestramento, che spesso comportano una distillazione in più fasi o spazi di ricerca NAS specializzati. Al contrario, Ultralytics sono progettati per essere immediatamente accessibili. Sia che utilizziate YOLO11 o l'innovativo YOLO26, l'intero flusso di lavoro, dal caricamento del set di dati all'esportazione del modello, viene gestito tramite un'API unificata.

Gli sviluppatori possono sfruttare la Ultralytics per gestire set di dati, visualizzare esperimenti e implementare modelli senza soluzione di continuità. Questo approccio integrato elimina le barriere all'ingresso, consentendo ai team di concentrarsi sulla risoluzione dei problemi aziendali piuttosto che sul debug degli script di formazione.

Equilibrio delle prestazioni con YOLO26

Per chi cerca il massimo in termini di velocità e precisione, YOLO26 rappresenta lo stato dell'arte. Si basa sulle lezioni apprese da modelli come YOLOX (design senza ancoraggi) e YOLOv10 (inferenzaNMS) per offrire prestazioni eccezionali.

YOLO26 Innovazione: End-to-End NMS

YOLO26 è nativamente end-to-end, eliminando la necessità di post-elaborazione Non-Maximum Suppression (NMS). Ciò semplifica notevolmente le pipeline di implementazione, in particolare sui dispositivi edge dove NMS possono rappresentare un collo di bottiglia in termini di latenza.

Le caratteristiche principali di YOLO26 includono:

  • Rimozione DFL: la rimozione della perdita focale di distribuzione semplifica il grafico del modello per facilitare l'esportazione in formati come ONNX e TensorRT.
  • MuSGD Optimizer: un ibrido tra SGD Muon (ispirato all'addestramento LLM) garantisce una convergenza stabile.
  • CPU : ottimizzata dal punto di vista architettonico per l'edge computing, offre un'inferenza fino al 43% più veloce sulle CPU.
  • ProgLoss + STAL: funzioni di perdita avanzate che migliorano notevolmente il rilevamento di oggetti di piccole dimensioni, un requisito fondamentale per le immagini dei droni e la robotica.

Versatilità tra le attività

A differenza di YOLOX eYOLO, che si concentrano principalmente sul rilevamento di oggetti, Ultralytics sono intrinsecamente multimodali. Una singola libreria supporta:

Questa versatilità consente agli sviluppatori di affrontare progetti complessi, come l'analisi delle meccaniche di gioco negli sport utilizzando la stima della posa, senza dover cambiare framework.

Efficienza dell'addestramento e memoria

Ultralytics sono progettati per essere efficienti dal punto di vista delle risorse. In genere richiedono meno GPU durante l'addestramento rispetto ai modelli basati su trasformatori pesanti come RT-DETR. Questa efficienza democratizza l'IA, consentendo di addestrare modelli potenti su hardware consumer standard.

Ecco quanto è semplice addestrare un modello YOLO26 all'avanguardia utilizzandoPython Ultralytics :

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Scopri di più su YOLO26

Applicazioni nel mondo reale

La scelta del modello giusto dipende spesso dai vincoli specifici dell'ambiente di implementazione.

Controllo qualità industriale

Per le linee di produzione ad alta velocità, YOLO è un forte concorrente grazie alla sua bassa latenza GPU , che lo rende adatto al rilevamento di difetti su nastri trasportatori in rapido movimento. Tuttavia, YOLO26 è sempre più preferito in questo caso perché il suo designNMS garantisce tempi di inferenza deterministici, prevenendo il jitter che può desincronizzare gli attuatori robotici.

Edge AI e dispositivi mobili

YOLOX-Nano è stato storicamente uno dei preferiti per le applicazioni mobili grazie al suo numero ridotto di parametri. Oggi, YOLO26n (Nano) offre un'alternativa superiore, garantendo una maggiore precisione con modelli di dimensioni simili e beneficiando di CPU più veloce del 43%. Ciò lo rende ideale per dispositivi alimentati a batteria come telecamere intelligenti o sensori agricoli.

Sistemi Autonomi

Nella robotica e nella guida autonoma, la capacità di gestire oggetti di dimensioni variabili è fondamentale. Sebbene la testa disaccoppiata di YOLOX sia di aiuto, l'implementazione di ProgLoss + STAL in YOLO26 offre un notevole miglioramento nel riconoscimento di oggetti distanti o piccoli, come segnali stradali o pedoni, migliorando la sicurezza complessiva del sistema.

Riepilogo

Sia YOLOX cheYOLO contribuito in modo significativo al progresso nel campo del rilevamento degli oggetti. YOLOX ha reso popolare il paradigma senza ancoraggi, mentreYOLO la potenza della ricerca dell'architettura neurale.

Tuttavia, per una soluzione moderna e a prova di futuro che bilancia prestazioni, facilità d'uso e flessibilità di implementazione, Ultralytics si distingue. La sua integrazione nel più ampio Ultralytics , il supporto per più attività e i processi di esportazione semplificati lo rendono la scelta consigliata sia per la ricerca accademica che per le applicazioni di livello aziendale.

Esplora tutto il potenziale di questi modelli visitando la Ultralytics e iniziando oggi stesso il tuo percorso di formazione.


Commenti