Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 vs YOLOv9#

Il panorama del rilevamento oggetti in tempo reale si è evoluto rapidamente, con ogni nuova iterazione che sposta i limiti di ciò che è possibile ottenere sia su dispositivi edge che su server cloud. Quando valuti le architetture per progetti di computer vision, spesso confronterai benchmark consolidati con nuove innovazioni. Questa guida completa mette a confronto due tappe fondamentali della famiglia YOLO: YOLOv7 e YOLOv9.

Analizzeremo le loro innovazioni architettoniche, le metriche di prestazioni e gli scenari di distribuzione ideali per aiutarti a scegliere il modello giusto per la tua applicazione. Esploreremo anche come la Ultralytics Platform unifica questi modelli, rendendoli più facili da addestrare, convalidare e distribuire.

Link to this sectionLineage del modello e specifiche tecniche#

Comprendere le origini e le filosofie di progettazione di questi modelli fornisce un contesto essenziale per le loro capacità. Entrambi i modelli condividono una comune genealogia di ricerca ma si rivolgono a diversi colli di bottiglia architettonici.

Link to this sectionYOLOv7: Il pioniere dei Bag-of-Freebies#

Rilasciato a metà 2022, YOLOv7 si è affermato come un'architettura altamente affidabile e fortemente ottimizzata. Ha introdotto la riparametrizzazione strutturale e un approccio "trainable bag-of-freebies" per mantenere velocità di inferenza elevate senza compromettere la mean Average Precision (mAP).

Innovazioni architettoniche: YOLOv7 presenta l'Extended Efficient Layer Aggregation Network (E-ELAN), che consente al modello di apprendere caratteristiche più diversificate espandendo, mescolando e unendo la cardinalità. Questo design si traduce in un'eccellente utilizzo della GPU e latenza di inferenza. Tuttavia, può richiedere una memoria significativa durante i cicli di addestramento complessi rispetto alle iterazioni moderne.

Scopri di più su YOLOv7

Link to this sectionYOLOv9: Risolvere il collo di bottiglia dell'informazione#

Introdotto all'inizio del 2024 dallo stesso team di ricerca, YOLOv9 affronta il "collo di bottiglia dell'informazione" intrinseco nelle reti neurali profonde. Man mano che i dati passano attraverso strati profondi, dettagli cruciali vengono spesso persi. YOLOv9 mitiga questo problema attraverso design di strati fondamentalmente nuovi.

Innovazioni architettoniche: YOLOv9 introduce la Programmable Gradient Information (PGI) e la Generalized Efficient Layer Aggregation Network (GELAN). La PGI garantisce che gradienti affidabili vengano preservati e riutilizzati per aggiornare i pesi in modo accurato. La GELAN massimizza l'efficienza dei parametri, consentendo a YOLOv9 di raggiungere un'elevata precisione con un numero significativamente inferiore di FLOPs rispetto ai suoi predecessori.

Scopri di più su YOLOv9

Link to this sectionAnalisi delle prestazioni#

Quando scegli tra diverse architetture, i tecnici IA devono bilanciare precisione, velocità di inferenza e costo computazionale. La tabella seguente evidenzia le differenze di prestazioni tra questi modelli sul dataset COCO standard.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionPunti chiave#

  • Efficienza dei parametri: YOLOv9m eguaglia la precisione di YOLOv7l (51,4% mAP) pur utilizzando quasi il 45% di parametri in meno (20,0M contro 36,9M). Questa drastica riduzione rende YOLOv9m molto più semplice da distribuire su dispositivi di edge AI con memoria limitata.
  • Micro-distribuzioni: L'introduzione della variante YOLOv9t (tiny) fornisce velocità incredibili (2,3ms su T4 TensorRT) per ambienti in cui i vincoli di tempo reale sono assoluti.
  • Precisione massima: Per le applicazioni in cui la precisione è fondamentale, YOLOv9e spinge la precisione di rilevamento al 55,6% mAP, superando significativamente YOLOv7x.
Preparare i tuoi progetti di computer vision per il futuro

Sebbene YOLOv7 e YOLOv9 siano potenti, il nuovo YOLO26 appena rilasciato rappresenta il definitivo salto in avanti. YOLO26 introduce un design nativo end-to-end NMS-free, eliminando la complessa post-elaborazione e aumentando le velocità di inferenza su CPU fino al 43%. Utilizzando l'innovativo ottimizzatore MuSGD e le funzioni di perdita potenziate ProgLoss + STAL, YOLO26 offre una stabilità di addestramento e una precisione nel rilevamento di oggetti piccoli senza pari.

Link to this sectionIl vantaggio di Ultralytics#

Scegliere l'architettura di un modello è solo il primo passo. L'ecosistema software che circonda il modello determina quanto velocemente puoi passare dal prototipo alla produzione. L'integrazione di questi modelli tramite la Ultralytics Python API offre benefici sostanziali per sviluppatori e ricercatori.

Link to this sectionFacilità d'uso ed efficienza nell'addestramento#

Storicamente, l'addestramento di YOLOv7 richiedeva una complessa preparazione dei dati e script altamente personalizzati. Il framework Ultralytics astrae queste complessità del deep learning. Gli sviluppatori possono facilmente passare da un'architettura all'altra, sperimentare con la regolazione degli iperparametri e utilizzare pipeline intelligenti di aumento dei dati con un codice minimo.

Inoltre, Ultralytics ottimizza l'utilizzo della memoria durante l'addestramento e l'inferenza. A differenza dei pesanti modelli Transformer (come RT-DETR), le architetture YOLO di Ultralytics si addestrano significativamente più velocemente e richiedono molta meno memoria CUDA, rendendole ideali per le GPU di fascia consumer.

Link to this sectionEsempio di codice: addestramento semplificato#

Addestrare modelli all'avanguardia è semplice all'interno dell'ecosistema Ultralytics. Ecco un esempio completamente eseguibile che dimostra come addestrare e convalidare un modello YOLOv9:

from ultralytics import YOLO

# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 sample dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=50,
    imgsz=640,
    device="0",  # Use GPU 0 if available
    batch=16,  # Optimized batch size for memory efficiency
)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Link to this sectionVersatilità impareggiabile tra i vari task#

Un ecosistema ben mantenuto significa accesso a diversi task di computer vision. Mentre YOLOv7 era costruito principalmente per il rilevamento oggetti (con successivi fork sperimentali per altri task), i moderni modelli Ultralytics sono nativamente progettati per la versatilità. Senza configurazioni aggiuntive, puoi eseguire segmentazione di istanze, stima della posa, classificazione delle immagini e rilevamento di Oriented Bounding Box (OBB) senza problemi.

Link to this sectionCasi d'uso e applicazioni ideali#

La decisione tra YOLOv7 e YOLOv9 dipende spesso dai vincoli specifici del tuo settore e dalla disponibilità dell'hardware.

Link to this sectionQuando utilizzare YOLOv7#

  • Distribuzioni edge legacy: Per gli ambienti hardware già ampiamente regolati e ottimizzati per l'architettura E-ELAN di YOLOv7, rimane una scelta solida per l'IoT industriale.
  • Monitoraggio del traffico: Le alte frequenze di fotogrammi e la comprovata stabilità di YOLOv7 lo rendono eccellente per le infrastrutture di smart city e la gestione del traffico in tempo reale.
  • Integrazione robotica: Navigare in ambienti dinamici richiede un'elaborazione a bassa latenza, uno scenario in cui le varianti di YOLOv7 sono state ampiamente testate.

Link to this sectionQuando utilizzare YOLOv9#

  • Imaging medico: L'architettura PGI in YOLOv9 è eccezionale nel preservare dettagli minuziosi attraverso strati profondi, il che è fondamentale quando si analizzano complessi task di analisi di immagini mediche come il rilevamento di tumori.
  • Analisi retail densa: Per il tracciamento e il conteggio di articoli densamente raggruppati sugli scaffali dei negozi, l'integrazione delle caratteristiche di YOLOv9 fornisce una precisione superiore e riduce i falsi negativi.
  • Immagini aeree e da droni: L'efficienza dei parametri di YOLOv9m consente l'elaborazione di immagini ad alta risoluzione sui droni, aiutando nella conservazione della fauna selvatica e nel monitoraggio agricolo senza esaurire la durata della batteria.

Link to this sectionConclusione#

Sia YOLOv7 che YOLOv9 hanno cementato il loro posto nella storia della computer vision. YOLOv7 ha introdotto ottimizzazioni essenziali per l'elaborazione in tempo reale, mentre YOLOv9 ha affrontato i colli di bottiglia strutturali del deep learning per massimizzare l'efficienza dei parametri.

Tuttavia, per gli sviluppatori che iniziano oggi nuovi progetti, sfruttare l'ecosistema Ultralytics — in particolare i modelli di prossima generazione come YOLO11 e YOLO26 — offre il miglior compromesso tra velocità, precisione ed esperienza di sviluppo. Con innovazioni come l'ottimizzatore MuSGD e la rimozione della Distribution Focal Loss (DFL) per una maggiore compatibilità hardware, Ultralytics continua a fornire gli strumenti più accessibili e potenti per i professionisti della visione artificiale.

Collaboratori

Commenti