Vai al contenuto

YOLOv7 vs YOLOv6-3.0: Confronto dettagliato dei modelli per il rilevamento di oggetti

La scelta del modello di object detection ottimale è una decisione fondamentale nei progetti di computer vision, che richiede un equilibrio tra accuratezza, velocità e utilizzo delle risorse. Questa pagina fornisce un confronto tecnico dettagliato tra YOLOv7 e YOLOv6-3.0, due modelli di spicco noti per le loro capacità di object detection. Approfondiremo le loro architetture, i benchmark di performance e le applicazioni adatte per guidare il tuo processo di selezione del modello.

YOLOv7: Accuratezza e tecniche avanzate

YOLOv7, sviluppato da ricercatori dell'Institute of Information Science, Academia Sinica, Taiwan, rappresenta un passo significativo nell'object detection in tempo reale, concentrandosi sul raggiungimento di un'elevata accuratezza pur mantenendo l'efficienza.

Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organizzazione: Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentazione: https://docs.ultralytics.com/models/yolov7/

Architettura e caratteristiche principali

YOLOv7 introduce diverse innovazioni architetturali e strategie di training volte a migliorare le prestazioni senza aumentare significativamente i costi di inferenza. Le caratteristiche principali includono:

  • E-ELAN (Extended-Efficient Layer Aggregation Networks): Questo componente fondamentale nella backbone del modello migliora la capacità della rete di apprendere efficacemente le caratteristiche, migliorando l'efficienza dei parametri e del calcolo. Ulteriori dettagli sono disponibili nel paper originale.
  • Scalabilità del Modello: Implementa metodi di scalabilità composita per la profondità e la larghezza del modello, ottimizzando le prestazioni in base alle diverse dimensioni del modello in base ai principi del modello basato sulla concatenazione.
  • Addestramento con Testa Ausiliaria: Utilizza teste ausiliarie durante la fase di addestramento per rafforzare l'apprendimento delle caratteristiche, che vengono poi rimosse per l'inferenza per mantenere la velocità. Questo concetto è correlato alle tecniche di supervisione profonda utilizzate in altre reti neurali.
  • Miglioramenti "Bag-of-Freebies": Integra tecniche di addestramento avanzate come l'aumento dei dati e perfezionamenti nell'assegnazione delle etichette che migliorano la precisione senza costi aggiuntivi in termini di inferenza.

Punti di forza

Punti deboli

  • Complessità: Le caratteristiche architetturali avanzate e le tecniche di training possono rendere il modello più complesso da comprendere e ottimizzare rispetto ad architetture più semplici come YOLOv5.
  • Utilizzo intensivo di risorse per l'addestramento: Le varianti YOLOv7 più grandi (ad esempio, YOLOv7-E6E) richiedono notevoli risorse computazionali per l'addestramento.

Scopri di più su YOLOv7

YOLOv6-3.0: Efficienza e velocità industriale

YOLOv6-3.0, sviluppato da Meituan, è progettato per applicazioni industriali che richiedono object detection ad alte prestazioni con particolare attenzione alla velocità e all'efficienza. La versione 3.0 migliora significativamente i suoi predecessori, offrendo una maggiore accuratezza e tempi di inferenza più rapidi.

Autori: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organizzazione: Meituan
Data: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Documenti: https://docs.ultralytics.com/models/yolov6/

Architettura e caratteristiche principali

YOLOv6-3.0 è progettato pensando all'implementazione, con diverse scelte architettoniche chiave che danno priorità alla velocità di inferenza.

  • Progettazione consapevole dell'hardware: L'architettura è realizzata per prestazioni efficienti su varie piattaforme hardware, in particolare GPU, utilizzando blocchi riparametrizzabili in stile RepVGG.
  • EfficientRep Backbone e Rep-PAN Neck: Queste strutture sono progettate per ridurre i colli di bottiglia computazionali e i costi di accesso alla memoria, il che si traduce direttamente in un'inferenza più rapida.
  • Head Disaccoppiata: Separa le head di classificazione e localizzazione, il che ha dimostrato di migliorare la convergenza e l'accuratezza finale del modello, una tecnica vista anche in modelli come YOLOX.

Punti di forza

  • Elevata velocità di inferenza: Ottimizzato per un'inferenza rapida, il che lo rende altamente adatto per applicazioni in tempo reale dove la latenza è un fattore critico.
  • Focus industriale: Progettato pensando a scenari di implementazione industriale, garantendo robustezza ed efficienza in contesti pratici come la produzione.
  • Design efficiente: Le varianti più piccole di YOLOv6-3.0 hanno un numero di parametri e FLOP molto basso, il che le rende ideali per ambienti con risorse limitate.

Punti deboli

  • Compromesso sulla precisione: Pur essendo altamente efficiente, potrebbe mostrare una precisione leggermente inferiore su set di dati complessi rispetto a modelli come YOLOv7 che privilegiano la massima precisione rispetto alla velocità.
  • Ecosistema e versatilità: L'ecosistema che circonda YOLOv6 è meno completo di quello dei modelli Ultralytics ed è focalizzato principalmente sul rilevamento di oggetti.

Casi d'uso

YOLOv6-3.0 eccelle in applicazioni in cui velocità ed efficienza sono fondamentali:

  • Automazione industriale: Controllo qualità e monitoraggio dei processi nella produzione.
  • Sistemi in tempo reale: Applicazioni con requisiti di latenza rigorosi come la robotica e la sorveglianza.
  • Edge Computing: Implementazione su dispositivi con risorse limitate grazie al suo design efficiente. Consulta le guide sull'implementazione su dispositivi come NVIDIA Jetson.

Scopri di più su YOLOv6-3.0

Confronto delle prestazioni: YOLOv7 vs YOLOv6-3.0

La tabella seguente riassume le metriche di performance per varianti comparabili di YOLOv7 e YOLOv6-3.0 sul dataset COCO.

Modello dimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Nota: i benchmark di velocità possono variare in base all'hardware, al software (TensorRT, ONNX, OpenVINO), alla dimensione del batch e alle configurazioni specifiche. I valori mAP sono tipicamente riportati sul dataset COCO val.

In base alla tabella, YOLOv7x raggiunge il mAP più alto, indicando una precisione superiore. Tuttavia, i modelli YOLOv6-3.0, in particolare le varianti più piccole come YOLOv6-3.0n, offrono velocità di inferenza significativamente più elevate, specialmente su GPU con ottimizzazione TensorRT, e hanno meno parametri e FLOP, rendendoli altamente efficienti. La scelta dipende dal fatto che la priorità sia la massima precisione (YOLOv7) o la velocità/efficienza ottimale (YOLOv6-3.0).

Perché scegliere i modelli Ultralytics YOLO?

Per gli utenti che cercano modelli all'avanguardia all'interno di un ecosistema completo e facile da usare, Ultralytics offre YOLOv8 e l'ultimo Ultralytics YOLO11. Questi modelli offrono vantaggi significativi rispetto a YOLOv7 e YOLOv6.

  • Facilità d'uso: I modelli Ultralytics sono dotati di una API Python semplificata, un'ampia documentazione e semplici comandi CLI, semplificando l'addestramento, la convalida e la distribuzione.
  • Ecosistema ben manutenuto: Approfitta di sviluppo attivo, una forte community open-source, aggiornamenti frequenti e integrazione con strumenti come Ultralytics HUB per MLOps senza interruzioni.
  • Bilanciamento delle prestazioni: I modelli Ultralytics raggiungono un eccellente compromesso tra velocità e precisione, adatto a diversi scenari reali dai dispositivi edge ai server cloud.
  • Versatilità: Modelli come YOLOv8 e YOLO11 supportano molteplici attività oltre al rilevamento oggetti, tra cui segmentazione, classificazione, stima della posa e rilevamento di oggetti orientati (OBB), offrendo una soluzione unificata.
  • Efficienza di addestramento: Approfitta di processi di addestramento efficienti, pesi pre-addestrati facilmente disponibili su dataset come COCO e tempi di convergenza più rapidi.

Per ulteriori approfondimenti, potresti trovare utili anche i confronti con altri modelli come RT-DETR.



📅 Creato 1 anno fa ✏️ Aggiornato 1 mese fa

Commenti