Vai al contenuto

PP-YOLOE+ vs. RTDETRv2: Confronto tra sistemi di rilevamento oggetti basati sul deep learning

La progressione delle architetture di rilevamento degli oggetti è stata caratterizzata da una forte rivalità tra le reti neurali convoluzionali (CNN) e i modelli basati su trasformatori. Due pietre miliari significative in questa cronologia sono PP-YOLOE+, un rilevatore raffinato basato su CNN PaddlePaddle , e RTDETRv2, un trasformatore di rilevamento in tempo reale all'avanguardia.

Questo confronto tecnico valuta le loro architetture, le metriche delle prestazioni e l'idoneità all'implementazione per aiutare ricercatori e ingegneri a selezionare il modello ottimale per le loro specifiche applicazioni di visione artificiale.

Riepilogo

PP-YOLOE+ rappresenta il vertice dellaYOLO , concentrandosi sul perfezionamento dei meccanismi senza ancoraggio e delle strategie di assegnazione delle etichette all'interno di un framework CNN puro. Eccelle in ambienti profondamente integrati con PaddlePaddle di Baidu, ma può incontrare difficoltà durante l'esportazione in altri ecosistemi.

RTDETRv2 (Real-Time Detection Transformer v2) supera i limiti introducendo un decodificatore flessibile e regolabile e ottimizzando il codificatore ibrido. Elimina con successo la necessità della soppressione non massima (NMS), un collo di bottiglia comune nella post-elaborazione, sfruttando le capacità di attenzione globale dei trasformatori.

Tuttavia, per gli sviluppatori alla ricerca di una soluzione unificata che combini la velocità delle CNN con la praticità dei trasformatori NMS, senza l'enorme sovraccarico computazionale,Ultralytics offre un'alternativa superiore. Con il suo design nativo end-to-end e CPU fino al 43% più veloce, YOLO26 colma il divario tra server ad alte prestazioni e dispositivi edge.

PP-YOLOE+: La Potenza CNN senza Anchor

Rilasciato nel 2022, PP-YOLOE+ è una versione aggiornata di PP-YOLOE, che incorpora una solida struttura portante e un'assegnazione dinamica delle etichette per ottenere una precisione competitiva.

Autori: PaddlePaddle
Organizzazione:Baidu
Data: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection

Punti Salienti Architetturali

PP-YOLOE+ utilizza CSPRepResStage, una struttura portante che combina i vantaggi del flusso gradiente di CSPNet con le tecniche di riparametrizzazione viste in RepVGG. Ciò consente al modello di avere dinamiche di addestramento complesse che si riducono a semplici convoluzioni durante l'inferenza, accelerando l'implementazione.

Il modello utilizza una testa Anchor-Free con una strategia Task Alignment Learning (TAL). A differenza dei metodi più datati basati su anchor che si affidano a riquadri predefiniti, PP-YOLOE+ prevede il centro degli oggetti e le loro distanze dai bordi del riquadro di delimitazione. Ciò semplifica la ricerca degli iperparametri e migliora la generalizzazione su diversi set di dati come COCO.

Vincoli legacy

Sebbene PP-YOLOE+ offra prestazioni elevate, la sua forte dipendenza dal PaddlePaddle può complicare le pipeline di implementazione standardizzate su PyTorch ONNX. Gli utenti spesso necessitano di convertitori specializzati per trasferire i modelli su piattaforme edge.

Scopri di più su PP-YOLOE+

RTDETRv2: l'evoluzione del Transformer

RTDETRv2 si basa sul successo dell'originale RT-DETR, con l'obiettivo di dimostrare che i trasformatori possono superare gli YOLO in scenari in tempo reale. Affronta l'elevato costo computazionale dei Vision Transformer (ViT) standard utilizzando un codificatore ibrido che elabora in modo efficiente le caratteristiche multiscala.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu
Data: 17/04/2023 (originale), 24/07/2024 (versione v2)
Arxiv:2304.08069
GitHub:RT-DETR

Punti Salienti Architetturali

L'innovazione principale di RTDETRv2 è il suo encoder ibrido e la selezione delle queryIoU. I trasformatori tradizionali hanno difficoltà con la complessità quadratica dei meccanismi di attenzione quando elaborano mappe di caratteristiche ad alta risoluzione. RTDETRv2 mitiga questo problema separando l'interazione intra-scala e la fusione cross-scala, riducendo significativamente l'utilizzo della memoria.

Fondamentalmente, RTDETRv2 è un rilevatore end-to-end. Durante l'addestramento utilizza un Hungarian Matcher per assegnare le previsioni alla verità di base in modo univoco. Ciò significa che l'output del modello non richiede alcuna NMS , evitando i picchi di latenza e la regolazione dei parametri associati ai YOLO tradizionali.

Scopri di più su RTDETR

Confronto delle prestazioni

La tabella seguente mette a confronto le prestazioni delle due architetture. Mentre PP-YOLOE+ dimostra competenza con un numero inferiore di parametri, RTDETRv2 mostra una scalabilità superiore con dimensioni maggiori, sebbene con requisiti computazionali più elevati (FLOP).

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Il Vantaggio Ultralytics: Perché Scegliere YOLO26?

Sebbene RTDETRv2 abbia introdotto i vantaggi del rilevamento NMS, ciò ha comportato l'utilizzo di blocchi di trasformatori pesanti che spesso sono lenti da addestrare e difficili da implementare suGPU . Ultralytics rivoluziona questo panorama ottenendo un rilevamento end-to-end NMS utilizzando un'architettura CNN pura.

Adottando una strategia CDA (Consistent Dual Assignment) durante l'addestramento, YOLO26 impara a sopprimere internamente i riquadri duplicati. Ciò elimina il sovraccarico di inferenza NMS incorrere nelle penalità di latenza dei trasformatori.

Vantaggi principali di YOLO26

  1. Ottimizzatore MuSGD: ispirato alle innovazioni nella formazione LLM come Kimi K2 di Moonshot AI, l'ottimizzatore MuSGD combina SGD Muon per una convergenza più rapida e una formazione stabile, una caratteristica esclusiva della generazione YOLO26.
  2. Efficienza ottimizzata ai margini: grazie all'eliminazione della perdita focale di distribuzione (DFL) e dei complessi livelli di attenzione, YOLO26 raggiunge CPU fino al 43% più veloce rispetto alle iterazioni precedenti. Ciò lo rende ideale per l'esecuzione su Raspberry Pi o dispositivi mobili dove RTDETR incontra difficoltà.
  3. Versatilità delle attività: a differenza di PP-YOLOE+, che è principalmente un rilevatore, YOLO26 supporta nativamente la stima della posa, la segmentazione delle istanze e OBB in un'unica libreria.
  4. ProgLoss + STAL: le nuove funzioni di perdita migliorano il rilevamento di oggetti di piccole dimensioni, un punto debole critico in molti modelli di trasformatori, rendendo YOLO26 superiore per l'analisi delle immagini aeree.

Flusso di lavoro semplificato con Ultralytics

Dimentica i complessi file di configurazione. Puoi addestrare, versionare e distribuire i modelli YOLO26 direttamente tramite la Ultralytics . L'ecosistema gestisce tutto, dall'annotazione dei set di dati all'esportazione con un solo clic per TensorRT, CoreML e TFLite.

Esempio di Codice: Iniziare con YOLO26

Eseguire il modello più recente e all'avanguardia è incredibilmente semplice conPython Ultralytics :

from ultralytics import YOLO

# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx")

Scopri di più su YOLO26

Casi d'uso ideali

Quando usare PP-YOLOE+

  • Sistemi Paddle legacy: se la vostra infrastruttura esistente è interamente basata su PaddlePaddle di Baidu, PP-YOLOE+ offre un percorso di aggiornamento nativo senza modificare i framework.
  • CNN lato server: per scenari in cui GPU è abbondante, ma il supporto del trasformatore (ad esempio, TensorRT per Multi-Head Attention) è carente nell'ambiente di implementazione.

Quando usare RTDETRv2

  • Scene affollate: il meccanismo di attenzione globale dei trasformatori è utile nelle scene con forte occlusione, dove le CNN potrebbero avere difficoltà a separare gli oggetti sovrapposti.
  • Hardware fisso: adatto per GPU di fascia alta (come NVIDIA o A100) in cui il sovraccarico della moltiplicazione matriciale dei trasformatori è trascurabile rispetto ai guadagni in termini di precisione.

Quando utilizzare Ultralytics

  • Edge & Mobile AI: il basso impatto sulla memoria e CPU elevata CPU rendono YOLO26 la scelta definitiva per Android o sistemi integrati.
  • Analisi video in tempo reale: per applicazioni che richiedono un elevato numero di fotogrammi al secondo (FPS), come il monitoraggio del traffico o le linee di produzione, il design NMS garantisce una latenza deterministica.
  • Ricerca e prototipazione rapida: l'ampia documentazione e il supporto attivo della community consentono ai ricercatori di iterare rapidamente, sfruttando i pesi pre-addestrati per una varietà di attività che vanno oltre il semplice rilevamento dei bounding box.

Conclusione

Sia PP-YOLOE+ che RTDETRv2 hanno contribuito in modo significativo al campo della visione artificiale. PP-YOLOE+ ha ampliato i limiti delle CNN all'interno dell'ecosistema Paddle, mentre RTDETRv2 ha dimostrato la fattibilità dei trasformatori per le attività in tempo reale. Tuttavia, Ultralytics rappresenta la sintesi di questi progressi: offre la semplicità architettonica e la velocità di una CNN con l'eleganza end-to-end e NMS di un trasformatore. In combinazione con il robusto Ultralytics , si pone come lo strumento più versatile per lo sviluppo dell'IA moderna.


Commenti