Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs PP-YOLOE+#

Il settore in rapida evoluzione della computer vision ha prodotto diversi approcci architettonici per risolvere complesse sfide di real-time object detection. Tra i progressi recenti più notevoli ci sono RTDETRv2 e PP-YOLOE+, due potenti modelli che affrontano il riconoscimento visivo partendo da filosofie di progettazione fondamentalmente diverse. Sebbene entrambi i modelli mirino a fornire un rilevamento ad alte prestazioni, i loro meccanismi sottostanti, i paradigmi di addestramento e gli scenari di implementazione ideali variano in modo significativo.

Questa guida completa analizza le sfumature tecniche di entrambi i modelli, confrontando le loro architetture, le metriche di performance e il supporto dell'ecosistema per aiutare sviluppatori e ricercatori a scegliere la soluzione ottimale per le loro specifiche esigenze di implementazione.

Link to this sectionPanoramica dei modelli#

Prima di analizzare i dati sulle performance, è importante comprendere le origini e gli obiettivi architettonici di ciascun modello. Entrambi provengono dai team di ricerca di Baidu, eppure rappresentano rami diversi dell'albero genealogico del rilevamento di oggetti.

Link to this sectionRTDETRv2#

RTDETRv2 rappresenta un salto significativo nelle architetture di visione basate su Transformer. Basandosi sul Real-Time Detection Transformer originale, sfrutta un backbone vision transformer flessibile abbinato a un efficiente encoder ibrido. La sua caratteristica più definente è la capacità di previsione nativamente end-to-end, che elimina completamente la necessità di Non-Maximum Suppression (NMS) durante la post-elaborazione.

Autore: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu Data: 2024-07-24 Arxiv: 2407.17140
GitHub: RT-DETR Repository

Scopri di più su RTDETRv2

Link to this sectionPP-YOLOE+#

PP-YOLOE+ è un'iterazione avanzata della serie YOLO, pesantemente ottimizzata per applicazioni industriali ad alte prestazioni. È dotata di un'architettura CNN scalabile con una head di rilevamento anchor-free. Progettata per offrire eccezionali compromessi tra velocità e precisione, introduce tecniche potenti come l'ET-head e una funzione di generalized focal loss per migliorare il small object detection.

Autore: PaddlePaddle Authors
Organizzazione: Baidu
Data: 2022-04-02
Arxiv: 2203.16250
GitHub: PaddleDetection Repository

Scopri di più su PP-YOLOE+

Integrazione dell'ecosistema

Sebbene entrambi i modelli abbiano repository di ricerca autonomi, puoi sperimentare facilmente con RTDETRv2 direttamente all'interno del pacchetto Python Ultralytics, beneficiando di un'API unificata e di opzioni di esportazione semplificate.

Link to this sectionDifferenze architettoniche#

La differenza fondamentale tra questi due modelli risiede nel modo in cui elaborano il contesto visivo e generano le previsioni.

PP-YOLOE+ utilizza un backbone CNN (Convolutional Neural Network) tradizionale ma altamente ottimizzato. Si affida a campi ricettivi locali per estrarre le caratteristiche, rendendolo incredibilmente veloce ed efficiente per l'implementazione standard. Tuttavia, richiede ancora la post-elaborazione standard NMS per filtrare i bounding box sovrapposti, il che può introdurre colli di bottiglia di latenza in scene dense.

Al contrario, RTDETRv2 impiega un Hybrid Encoder e un Transformer Decoder. Ciò consente al modello di catturare il contesto globale dell'intera immagine simultaneamente. I meccanismi di attenzione comprendono intrinsecamente le relazioni tra gli oggetti, consentendo al modello di restituire i bounding box finali direttamente senza NMS. Questo approccio end-to-end garantisce una latenza di inferenza stabile indipendentemente dal numero di oggetti rilevati.

Link to this sectionMetriche di performance e confronto#

Quando valuti le metriche di performance YOLO, è fondamentale bilanciare la precisione (mAP) rispetto al costo computazionale (FLOPs) e alla velocità di inferenza. La tabella sottostante evidenzia le performance di entrambi i modelli in varie dimensioni.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Mentre PP-YOLOE+x raggiunge un mAPval marginalmente superiore del 54,7% sul dataset COCO, i modelli RTDETRv2 offrono generalmente una precisione competitiva con il vantaggio aggiuntivo di una latenza costante grazie al loro design senza NMS. Tuttavia, PP-YOLOE+ mantiene un netto vantaggio nel conteggio dei parametri e nei FLOPs per i modelli più piccoli, rendendolo altamente efficiente per le implementazioni edge.

Link to this sectionIl vantaggio di Ultralytics: arriva YOLO26#

Sebbene RTDETRv2 e PP-YOLOE+ siano formidabili di per sé, lo stato dell'arte ha continuato a evolversi. Per gli sviluppatori che cercano il massimo equilibrio tra velocità, precisione e supporto dell'ecosistema, Ultralytics YOLO26 rappresenta il nuovo standard del settore.

YOLO26 sintetizza i migliori aspetti sia delle CNN che dei Transformer. Adotta il design End-to-End NMS-Free introdotto dalle architetture moderne, eliminando efficacemente i colli di bottiglia della post-elaborazione. Inoltre, introduce il rivoluzionario MuSGD Optimizer, un approccio ibrido ispirato alle innovazioni nell'addestramento dei LLM che garantisce un addestramento altamente stabile e una rapida convergenza.

Ottimizzato per l'Edge

A differenza dei pesanti modelli transformer che richiedono una sostanziale memoria CUDA, YOLO26 presenta la Rimozione DFL (Distribution Focal Loss) ed è specificamente ottimizzato per l'edge computing, offrendo fino al 43% di velocità di inferenza CPU in più rispetto alle generazioni precedenti.

Inoltre, YOLO26 non si limita al semplice rilevamento di oggetti. È nativamente versatile, supportando segmentazione di istanza, stima della posa e oriented bounding boxes (OBB) nativamente, mentre PP-YOLOE+ è focalizzato principalmente sul rilevamento di bounding box.

Scopri di più su YOLO26

Link to this sectionMetodologie di Addestramento ed Ecosistema#

L'efficienza dell'addestramento e la facilità d'uso sono gli aspetti in cui l'ecosistema Ultralytics brilla davvero rispetto ai repository di ricerca standalone. Mentre PP-YOLOE+ si affida al framework PaddlePaddle e RTDETRv2 richiede spesso complesse configurazioni ambientali, integrare i modelli tramite Ultralytics offre un'esperienza senza interruzioni.

Con l'API Ultralytics, benefici di minori requisiti di memoria durante l'addestramento, gestione automatizzata dei dataset e ottimizzazione semplificata degli iperparametri. Inoltre, l'implementazione dei modelli in formati di produzione come ONNX o TensorRT può essere eseguita con un singolo comando.

Link to this sectionEsempio di codice: Inferenza semplificata#

Di seguito una dimostrazione di quanto sia facile utilizzare RTDETRv2 insieme al modello consigliato YOLO26 utilizzando il pacchetto Python Ultralytics:

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Link to this sectionApplicazioni nel mondo reale e casi d'uso#

La scelta tra queste architetture dipende spesso dai requisiti specifici dell'hardware e dell'applicazione.

  • RTDETRv2 eccelle in ambienti lato server e nella comprensione di scene complesse. Il suo meccanismo di attenzione globale lo rende altamente efficace per la gestione della folla e la analisi di immagini mediche densa, dove gli oggetti sovrapposti di solito causano il fallimento degli algoritmi NMS standard.
  • PP-YOLOE+ è altamente adatto per l'ispezione industriale ad alta velocità e per gli ambienti pesantemente investiti nell'ecosistema PaddlePaddle. Il suo basso conteggio di parametri nelle scale più piccole lo rende praticabile per alcune applicazioni robotiche.
  • Ultralytics YOLO26 è la soluzione universalmente raccomandata per un'implementazione commerciale completa. Con le sue funzioni avanzate ProgLoss + STAL, migliora drasticamente il riconoscimento di piccoli oggetti, fondamentale per operazioni di droni aerei e monitoraggio del traffico nelle smart city.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra RT-DETR e PP-YOLOE+ dipende dai requisiti specifici del tuo progetto, dai vincoli di implementazione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è una scelta solida per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere PP-YOLOE+#

PP-YOLOE+ è consigliato per:

  • Integrazione con l'Ecosistema PaddlePaddle: Organizzazioni con infrastrutture esistenti costruite sul framework e sugli strumenti di Baidu PaddlePaddle.
  • Deployment su Edge con Paddle Lite: Deployment su hardware con kernel di inferenza altamente ottimizzati specificamente per il motore Paddle Lite o Paddle.
  • Rilevamento ad alta precisione lato server: Scenari che danno priorità alla massima precisione di rilevamento su potenti server GPU dove la dipendenza dal framework non rappresenta un problema.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionConclusione#

Sia RTDETRv2 che PP-YOLOE+ hanno spinto i confini di ciò che è possibile fare nella computer vision, dimostrando la fattibilità sia delle architetture transformer che di quelle CNN altamente ottimizzate. Tuttavia, la complessità dell'implementazione di codebase di ricerca frammentate può ostacolare le tempistiche di produzione.

Per i moderni ingegneri IA, sfruttare la Piattaforma Ultralytics offre un vantaggio senza pari. Migrando verso modelli integrati senza interruzioni come YOLO11 o il cutting-edge YOLO26, i team possono ottenere i migliori rapporti precisione-velocità possibili, riducendo drasticamente i requisiti di memoria e l'overhead di sviluppo.

Commenti