YOLOv5 vs RTDETRv2: Confronto tecnico dettagliato
La scelta del modello ottimale di rilevamento degli oggetti è una decisione cruciale per i progetti di computer vision. Ultralytics offre una vasta gamma di modelli per rispondere alle diverse esigenze dei progetti. Questa pagina offre un confronto tecnico tra Ultralytics YOLOv5 e RTDETRv2 di Ulralytics, sottolineando le loro differenze architettoniche, i benchmark delle prestazioni e l'idoneità a diverse applicazioni.
YOLOv5: ottimizzato per velocità ed efficienza
Ultralytics YOLOv5 è un rilevatore di oggetti a uno stadio largamente diffuso, famoso per la sua velocità di inferenza e la sua efficienza operativa. L'architettura di YOLOv5 è composta da:
- Backbone: CSPDarknet53, responsabile dell'estrazione delle caratteristiche.
- Collo: PANet, utilizzato per la fusione delle caratteristiche.
- Testa: testa YOLOv5 , progettata per le attività di rilevamento.
YOLOv5 è disponibile in diverse dimensioni (n, s, m, l, x), offrendo agli utenti la possibilità di bilanciare velocità e precisione in base alle loro specifiche esigenze.
Punti di forza:
- Velocità di inferenza: YOLOv5 eccelle in velocità e rappresenta una scelta eccellente per le applicazioni in tempo reale, come i sistemi di allarme di sicurezza.
- Efficienza: I modelli YOLOv5 sono compatti, richiedono meno risorse di calcolo e sono adatti a implementazioni edge come Raspberry Pi e NVIDIA Jetson.
- Versatilità: Adattabile a vari ambienti hardware, compresi i dispositivi con risorse limitate.
- Facilità d'uso: Ben documentato e semplice da implementare utilizzando ilpacchetto Ultralytics Python e Ultralytics HUB.
Punti deboli:
- Trade-off di accuratezza: pur raggiungendo un'elevata accuratezza, i modelli più grandi come RTDETRv2 possono offrire una mAP superiore, in particolare in scenari complessi.
Casi d'uso ideali:
- Scenari di rilevamento di oggetti in tempo reale, tra cui la videosorveglianza e l'intelligenza artificiale nella gestione del traffico.
- Edge computing e implementazioni mobili.
- Applicazioni che richiedono un'elaborazione rapida, come la robotica(ROS Quickstart) e i veicoli autonomi.
RTDETRv2: Trasformatore di rilevamento in tempo reale ad alta precisione
RTDETRv2(Real-Time Detection Transformer v2) è un modello di rilevamento di oggetti all'avanguardia che privilegia l'alta precisione e le prestazioni in tempo reale. È stato presentato in un documento intitolato"RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer" del 2023-04-17 dagli autori Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu di Baidu. Basato su un'architettura Vision Transformer (ViT), RTDETRv2 eccelle nelle applicazioni che richiedono una precisa localizzazione e classificazione degli oggetti.
Architettura e caratteristiche principali:
RTDETRv2 sfrutta un'architettura basata su trasformatori, che gli consente di catturare il contesto globale all'interno delle immagini attraverso meccanismi di autoattenzione. Questo approccio consente al modello di soppesare l'importanza delle diverse regioni dell'immagine, portando a una migliore estrazione delle caratteristiche e a una maggiore accuratezza, soprattutto nelle scene complesse.
Punti di forza:
- Precisione superiore: L'architettura del trasformatore offre una maggiore precisione nel rilevamento degli oggetti, in particolare in ambienti complessi, come dimostrato in scenari come la visione-ai-in-gestione della folla.
- Capacità in tempo reale: Raggiunge velocità di inferenza competitive, in particolare quando si utilizza l'accelerazione hardware come le GPU NVIDIA T4.
- Estrazione robusta delle caratteristiche: I trasformatori di visione catturano in modo efficace il contesto globale e i dettagli più complessi, utili in applicazioni come l'uso della visione computerizzata per analizzare le immagini satellitari.
Punti deboli:
- Dimensioni maggiori del modello: I modelli RTDETRv2, in particolare le varianti più grandi, hanno un numero di parametri e FLOP più elevato rispetto a YOLOv5, il che richiede maggiori risorse di calcolo.
- Velocità di inferenza: sebbene sia in grado di operare in tempo reale, la velocità di inferenza potrebbe essere inferiore rispetto ai modelli YOLOv5 più veloci, soprattutto sui dispositivi meno potenti.
Casi d'uso ideali:
RTDETRv2 è ideale per le applicazioni in cui la precisione è fondamentale e le risorse di calcolo sono sufficienti. Queste includono:
- Guida autonoma: Per una percezione ambientale affidabile e precisa nell'IA delle auto a guida autonoma.
- Robotica: Permettere ai robot di interagire con precisione con l'ambiente circostante, essenziale per i compiti discussi in"Dagli algoritmi all'automazione: Il ruolo dell'IA nella robotica".
- Imaging medico: Per il rilevamento preciso delle anomalie, per aiutare la diagnostica, come evidenziato in AI in Healthcare, e potenzialmente utile in aree come l'utilizzo di yolo11 per il rilevamento dei yolo11 nell'imaging medico.
- Analisi di immagini ad alta risoluzione: Applicazioni che richiedono l'analisi dettagliata di immagini di grandi dimensioni, come le immagini satellitari o le ispezioni industriali, come si vede in improving-manufacturing-with-computer-vision.
Per saperne di più su RTDETRv2
Tabella di confronto dei modelli
Modello | dimensione (pixel) |
mAPval 50-95 |
Velocità CPU ONNX (ms) |
Velocità T4TensorRT10 (ms) |
params (M) |
FLOP (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Conclusione
Sia RTDETRv2 che YOLOv5 sono modelli robusti di rilevamento degli oggetti, ciascuno progettato per priorità diverse. RTDETRv2 è preferito quando la precisione è fondamentale e le risorse di calcolo sono disponibili. Al contrario, YOLOv5 eccelle in scenari che richiedono prestazioni ed efficienza in tempo reale, soprattutto su piattaforme con risorse limitate.
Per gli utenti che desiderano esplorare altri modelli, Ultralytics offre un ampio zoo di modelli, tra cui:
- YOLOv8 e YOLO11: Successori di YOLOv5, forniscono ulteriori progressi in termini di prestazioni ed efficienza, come evidenziato inUltralytics YOLOv8 compie un anno: un anno di scoperte e innovazioni" eUltralytics YOLO11 è arrivato: Ridefinire il possibile nell'IA".
- YOLO: Modelli architettati con Neural Architecture Search per ottimizzare le prestazioniYOLO di Deci AI).
- FastSAM e MobileSAM: Per le attività di segmentazione delle istanze in tempo reale (FastSAM e MobileSAM).
La scelta tra RTDETRv2, YOLOv5 o altri modelli Ultralytics deve basarsi sulle esigenze specifiche del progetto di computer vision, considerando attentamente il bilanciamento tra precisione, velocità e disponibilità di risorse. Consultate la documentazione di Ultralytics e il repository GitHub per dettagli completi e guide all'implementazione.