Vai al contenuto

YOLOv5 vs RTDETRv2: Confronto tecnico dettagliato

La scelta del modello ottimale di rilevamento degli oggetti è una decisione cruciale per i progetti di computer vision. Ultralytics offre una vasta gamma di modelli per rispondere alle diverse esigenze dei progetti. Questa pagina offre un confronto tecnico tra Ultralytics YOLOv5 e RTDETRv2 di Ulralytics, sottolineando le loro differenze architettoniche, i benchmark delle prestazioni e l'idoneità a diverse applicazioni.

YOLOv5: ottimizzato per velocità ed efficienza

Ultralytics YOLOv5 è un rilevatore di oggetti a uno stadio largamente diffuso, famoso per la sua velocità di inferenza e la sua efficienza operativa. L'architettura di YOLOv5 è composta da:

  • Backbone: CSPDarknet53, responsabile dell'estrazione delle caratteristiche.
  • Collo: PANet, utilizzato per la fusione delle caratteristiche.
  • Testa: testa YOLOv5 , progettata per le attività di rilevamento.

YOLOv5 è disponibile in diverse dimensioni (n, s, m, l, x), offrendo agli utenti la possibilità di bilanciare velocità e precisione in base alle loro specifiche esigenze.

Punti di forza:

  • Velocità di inferenza: YOLOv5 eccelle in velocità e rappresenta una scelta eccellente per le applicazioni in tempo reale, come i sistemi di allarme di sicurezza.
  • Efficienza: I modelli YOLOv5 sono compatti, richiedono meno risorse di calcolo e sono adatti a implementazioni edge come Raspberry Pi e NVIDIA Jetson.
  • Versatilità: Adattabile a vari ambienti hardware, compresi i dispositivi con risorse limitate.
  • Facilità d'uso: Ben documentato e semplice da implementare utilizzando ilpacchetto Ultralytics Python e Ultralytics HUB.

Punti deboli:

  • Trade-off di accuratezza: pur raggiungendo un'elevata accuratezza, i modelli più grandi come RTDETRv2 possono offrire una mAP superiore, in particolare in scenari complessi.

Casi d'uso ideali:

Per saperne di più su YOLOv5

RTDETRv2: Trasformatore di rilevamento in tempo reale ad alta precisione

RTDETRv2(Real-Time Detection Transformer v2) è un modello di rilevamento di oggetti all'avanguardia che privilegia l'alta precisione e le prestazioni in tempo reale. È stato presentato in un documento intitolato"RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer" del 2023-04-17 dagli autori Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu di Baidu. Basato su un'architettura Vision Transformer (ViT), RTDETRv2 eccelle nelle applicazioni che richiedono una precisa localizzazione e classificazione degli oggetti.

Architettura e caratteristiche principali:

RTDETRv2 sfrutta un'architettura basata su trasformatori, che gli consente di catturare il contesto globale all'interno delle immagini attraverso meccanismi di autoattenzione. Questo approccio consente al modello di soppesare l'importanza delle diverse regioni dell'immagine, portando a una migliore estrazione delle caratteristiche e a una maggiore accuratezza, soprattutto nelle scene complesse.

Punti di forza:

  • Precisione superiore: L'architettura del trasformatore offre una maggiore precisione nel rilevamento degli oggetti, in particolare in ambienti complessi, come dimostrato in scenari come la visione-ai-in-gestione della folla.
  • Capacità in tempo reale: Raggiunge velocità di inferenza competitive, in particolare quando si utilizza l'accelerazione hardware come le GPU NVIDIA T4.
  • Estrazione robusta delle caratteristiche: I trasformatori di visione catturano in modo efficace il contesto globale e i dettagli più complessi, utili in applicazioni come l'uso della visione computerizzata per analizzare le immagini satellitari.

Punti deboli:

  • Dimensioni maggiori del modello: I modelli RTDETRv2, in particolare le varianti più grandi, hanno un numero di parametri e FLOP più elevato rispetto a YOLOv5, il che richiede maggiori risorse di calcolo.
  • Velocità di inferenza: sebbene sia in grado di operare in tempo reale, la velocità di inferenza potrebbe essere inferiore rispetto ai modelli YOLOv5 più veloci, soprattutto sui dispositivi meno potenti.

Casi d'uso ideali:

RTDETRv2 è ideale per le applicazioni in cui la precisione è fondamentale e le risorse di calcolo sono sufficienti. Queste includono:

Per saperne di più su RTDETRv2

Tabella di confronto dei modelli

Modello dimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4TensorRT10
(ms)
params
(M)
FLOP
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Conclusione

Sia RTDETRv2 che YOLOv5 sono modelli robusti di rilevamento degli oggetti, ciascuno progettato per priorità diverse. RTDETRv2 è preferito quando la precisione è fondamentale e le risorse di calcolo sono disponibili. Al contrario, YOLOv5 eccelle in scenari che richiedono prestazioni ed efficienza in tempo reale, soprattutto su piattaforme con risorse limitate.

Per gli utenti che desiderano esplorare altri modelli, Ultralytics offre un ampio zoo di modelli, tra cui:

La scelta tra RTDETRv2, YOLOv5 o altri modelli Ultralytics deve basarsi sulle esigenze specifiche del progetto di computer vision, considerando attentamente il bilanciamento tra precisione, velocità e disponibilità di risorse. Consultate la documentazione di Ultralytics e il repository GitHub per dettagli completi e guide all'implementazione.

📅C reato 1 anno fa ✏️ Aggiornato 1 mese fa

Commenti