Vai al contenuto

RTDETRv2 vs YOLO: un confronto tecnico per il rilevamento di oggetti

La scelta del modello di rilevamento degli oggetti ottimale è fondamentale per il successo delle applicazioni di computer vision. Ultralytics offre una vasta gamma di modelli e questa pagina offre un confronto tecnico dettagliato tra RTDETRv2 e YOLO, due modelli avanzati nel panorama del rilevamento degli oggetti. Questa analisi vi aiuterà a prendere una decisione informata in base ai requisiti del vostro progetto.

RTDETRv2: Rilevamento ad alta precisione basato su trasformatore

RTDETRv2(Real-Time Detection Transformer v2) è un modello di rilevamento degli oggetti all'avanguardia sviluppato da Baidu, noto per l'elevata precisione e le efficienti prestazioni in tempo reale. Presentato il 2023-04-17 nell'articolo"DETRs Beat YOLOs on Real-time Object Detection" di Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu, RTDETRv2 sfrutta un'architettura Vision Transformer (ViT) per ottenere un'estrazione robusta delle caratteristiche e una comprensione globale del contesto.

Architettura e caratteristiche

RTDETRv2 si distingue per la sua architettura basata su trasformatori, che gli consente di catturare il contesto globale all'interno delle immagini in modo più efficace rispetto ai rilevatori tradizionali basati su CNN. Questa architettura consente un'accuratezza superiore, soprattutto in scene complesse dove la comprensione del contesto più ampio è fondamentale. Il modello è implementato in PyTorch ed è disponibile su GitHub.

Prestazioni

RTDETRv2 dimostra prestazioni impressionanti, raggiungendo un mAPval50-95 di 54,3 per la sua variante più grande, RTDETRv2-x. Anche la velocità di inferenza è competitiva, rendendolo adatto ad applicazioni in tempo reale quando si utilizza un hardware adeguato.

Punti di forza e di debolezza

Punti di forza:

  • Alta precisione: L'architettura del trasformatore offre un'eccellente precisione di rilevamento degli oggetti.
  • Capacità in tempo reale: Raggiunge velocità di inferenza elevate, soprattutto con l'accelerazione di TensorRT .
  • Apprendimento contestuale efficace: I trasformatori di visione eccellono nel catturare il contesto globale nelle immagini.

Punti deboli:

  • Dimensioni maggiori del modello: I modelli RTDETRv2, in particolare le varianti più grandi, hanno un numero significativo di parametri e FLOP, che richiedono maggiori risorse di calcolo.
  • Esigenza di calcolo: Pur essendo ottimizzato per la velocità, potrebbe non essere leggero come altri modelli per l'implementazione su dispositivi con risorse molto limitate.

Casi d'uso

RTDETRv2 è ideale per le applicazioni che privilegiano un'elevata accuratezza e che hanno accesso a notevoli risorse computazionali:

Per saperne di più su RTDETRv2

YOLO: rilevamento efficiente e veloce degli oggetti

YOLO(DAMO series YOLO), sviluppato da Alibaba Group e presentato il 2022-11-23 nel documento"YOLO: Rethinking Scalable and Accurate Object Detection" di Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun, è stato progettato per garantire velocità ed efficienza, mantenendo una precisione competitiva. YOLO si concentra sulle prestazioni in tempo reale ed è disponibile su GitHub.

Architettura e caratteristiche

YOLO incorpora diverse tecniche innovative per migliorare l'efficienza, tra cui le dorsali Neural Architecture Search (NAS), un efficiente RepGFPN e uno ZeroHead. Queste scelte architettoniche contribuiscono alla sua velocità e alla riduzione dei requisiti computazionali, rendendolo una scelta eccellente per le applicazioni in tempo reale e le implementazioni edge.

Prestazioni

YOLO eccelle nella velocità di inferenza, offrendo prestazioni molto rapide su diverse piattaforme hardware. Sebbene la sua precisione sia leggermente inferiore a quella di RTDETRv2, offre un equilibrio convincente tra velocità e precisione, in particolare per le applicazioni che richiedono un'elaborazione rapida.

Punti di forza e di debolezza

Punti di forza:

  • Alta velocità: Ottimizzato per un'inferenza estremamente veloce, ideale per i sistemi in tempo reale.
  • Efficienza: Le dimensioni ridotte dei modelli e i minori requisiti di calcolo lo rendono adatto ai dispositivi edge.
  • Scalabilità: Progettato per essere scalabile e adattabile a vari scenari di implementazione.

Punti deboli:

  • Precisione: Pur essendo preciso, potrebbe non raggiungere gli stessi punteggi mAP di alto livello di RTDETRv2, soprattutto negli scenari che richiedono la massima precisione.
  • Comprensione contestuale: Essendo incentrato sulla CNN, potrebbe non catturare il contesto globale con la stessa efficacia dei modelli basati su trasformatori in scene molto complesse.

Casi d'uso

YOLO è adatto alle applicazioni in cui velocità ed efficienza sono fondamentali e in cui è necessaria l'implementazione su hardware meno potente:

  • Videosorveglianza in tempo reale: Ideale per applicazioni come i sistemi di allarme di sicurezza che richiedono un rilevamento immediato.
  • Edge Computing: Perfetto per l'implementazione su dispositivi edge come Raspberry Pi e NVIDIA Jetson.
  • Applicazioni di elaborazione rapida: Adatto alla robotica(ROS Quickstart) e ad altre applicazioni che richiedono un processo decisionale rapido.
  • Distribuzioni mobili: Abbastanza efficiente per le applicazioni mobili e per gli ambienti a risorse limitate.

Per saperne di più su YOLO

Tabella di confronto dei modelli

Modello dimensione(pixel) mAPval
50-95
CPU ONNX
(ms)
VelocitàT4TensorRT10
(ms)
params(M) FLOP(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLO 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Conclusione

Sia RTDETRv2 che YOLO sono potenti modelli di rilevamento degli oggetti, ciascuno con vantaggi distinti. RTDETRv2 si distingue quando la priorità è la massima precisione e le risorse computazionali sono disponibili. YOLO è la scelta preferita per le applicazioni che richiedono un'elaborazione in tempo reale e un'implementazione efficiente, soprattutto sui dispositivi edge.

Per gli utenti che considerano altre opzioni, Ultralytics offre un'ampia gamma di modelli, tra cui:

La scelta tra RTDETRv2, YOLO o altri modelli Ultralytics deve basarsi sulle esigenze specifiche del progetto di computer vision, considerando attentamente l'equilibrio tra precisione, velocità e risorse disponibili. Per ulteriori dettagli e guide all'implementazione, consultare la documentazione di Ultralytics e il repository GitHub di Ultralytics .

📅C reato 1 anno fa ✏️ Aggiornato 1 mese fa

Commenti