Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 vs YOLOX#

L'evoluzione della computer vision è stata segnata da rapidi progressi nel rilevamento di oggetti in tempo reale. Due pietre miliari fondamentali in questo percorso sono YOLOv7 e YOLOX. Sebbene entrambi i modelli abbiano superato i limiti di velocità e precisione, hanno adottato diverse filosofie architettoniche per raggiungere i loro risultati. Questa guida fornisce un confronto tecnico completo tra questi due potenti modelli, aiutandoti a scegliere l'architettura giusta per i tuoi progetti di computer vision.

Link to this sectionIntroduzione ai modelli#

Comprendere le origini e le scelte progettuali primarie di questi modelli è fondamentale per implementarli in modo efficace nelle moderne operazioni di machine learning.

Link to this sectionDettagli su YOLOv7#

Sviluppato dai ricercatori che hanno mantenuto le architetture CSPNet e Scaled-YOLOv4, YOLOv7 ha introdotto un approccio "bag-of-freebies" addestrabile per massimizzare la precisione senza aumentare il costo dell'inferenza.

Scopri di più su YOLOv7

Link to this sectionDettagli YOLOX#

YOLOX ha intrapreso una strada diversa, riportando il paradigma al rilevamento senza anchor e semplificando notevolmente l'architettura della head, pur mantenendo prestazioni robuste.

Scopri di più su YOLOX

Link to this sectionDifferenze architetturali e innovazioni#

Le differenze principali tra YOLOv7 e YOLOX risiedono nel loro approccio all'estrazione delle caratteristiche, alla previsione dei BBox e all'assegnazione delle label.

Link to this sectionYOLOX: Il pioniere anchor-free#

YOLOX ha rivoluzionato la famiglia YOLO passando a un design senza anchor. I tradizionali rilevatori basati su anchor richiedono una complessa ottimizzazione euristica per il clustering dei BBox, che può dipendere fortemente dal dataset. Eliminando i BBox, YOLOX ha ridotto significativamente il numero di parametri di progettazione. Inoltre, YOLOX utilizza una decoupled head, che separa le attività di classificazione e localizzazione in distinti rami di rete. Questo risolve il conflitto intrinseco tra la classificazione di un oggetto e la regressione delle sue coordinate spaziali. YOLOX integra anche strategie avanzate di assegnazione delle label come SimOTA, che alloca dinamicamente i campioni positivi durante l'addestramento.

Link to this sectionYOLOv7: Extended Efficient Layer Aggregation#

YOLOv7 è tornato alle metodologie basate su anchor ma ha introdotto la Extended Efficient Layer Aggregation Network (E-ELAN). E-ELAN ottimizza la lunghezza del percorso del gradiente, garantendo che la rete impari efficacemente a diverse profondità. L'architettura si affida pesantemente a tecniche di ri-parametrizzazione, fondendo i layer convoluzionali durante l'inferenza per aumentare la velocità senza sacrificare la precisione. La strategia "bag-of-freebies" di YOLOv7 include innovazioni come le convoluzioni ri-parametrizzate pianificate e l'assegnazione delle label guidata da lead da grossolano a fine, che spingono il mAP del modello a livelli notevoli.

Basato su Anchor vs. Senza Anchor

Sebbene YOLOX abbia semplificato le pipeline di distribuzione con la sua configurazione senza anchor, le moderne architetture Ultralytics hanno da allora perfezionato questo approccio, eliminando completamente la necessità di box predefinite nelle generazioni più recenti.

Link to this sectionConfronto delle Prestazioni#

Quando valuti questi modelli per la produzione, bilanciare la precisione con l'efficienza computazionale è essenziale. La tabella seguente illustra i compromessi, evidenziando le metriche con le prestazioni migliori in grassetto.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Come visto sopra, YOLOv7x ottiene il mAP più elevato, rendendolo eccezionalmente preciso per dataset complessi. Al contrario, YOLOX-Nano è altamente ottimizzato per vincoli di risorse estremi. Tuttavia, entrambi i modelli mostrano un utilizzo della memoria relativamente elevato durante l'addestramento rispetto alle architetture moderne.

Link to this sectionMetodologie di Addestramento ed Ecosistema#

Un fattore cruciale per ricercatori e sviluppatori è la facilità di implementazione. Storicamente, le vecchie versioni di YOLO richiedevano script C++ fortemente personalizzati o una complessa gestione delle dipendenze.

Link to this sectionIl vantaggio dell'ecosistema Ultralytics#

Oggi, il modo più efficace per utilizzare queste architetture è attraverso l'ecosistema ben mantenuto di Ultralytics. Ultralytics fornisce un'API Python unificata e altamente intuitiva che semplifica drasticamente l'addestramento, la validazione e la distribuzione.

  • Facilità d'uso: Con solo poche righe di codice, puoi avviare un ciclo di addestramento, riducendo la ripida curva di apprendimento associata alle implementazioni grezze di PyTorch.
  • Efficienza di addestramento: I modelli Ultralytics YOLO utilizzano intrinsecamente meno memoria durante l'addestramento rispetto ai pesanti modelli Transformer come RT-DETR. Ciò consente agli sviluppatori di massimizzare le dimensioni dei batch sull'hardware consumer.
  • Versatilità: Oltre ai semplici BBox, l'ecosistema si estende facilmente ad attività come Instance Segmentation e Pose Estimation.

Ecco un esempio eseguibile al 100% che dimostra come addestrare un modello utilizzando l'API di Ultralytics:

from ultralytics import YOLO

# Load a pre-trained model
model = YOLO("yolov8n.pt")  # Readily available weights for rapid transfer learning

# Train the model efficiently on your custom data
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    batch=16,
    device="0",  # Utilizes optimal CUDA memory management
)

# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")

Standardizzando la export pipeline, gli sviluppatori possono trasferire facilmente i propri pesi in formati come TensorRT o ONNX, garantendo un'inferenza ad alta velocità sull'hardware di destinazione.

Link to this sectionCasi d'uso ideali e applicazioni nel mondo reale#

La scelta tra YOLOX e YOLOv7 dipende in gran parte dagli obiettivi di distribuzione:

  • YOLOX per Edge AI: Le varianti YOLOX-Nano e YOLOX-Tiny sono altamente adatte alla distribuzione su dispositivi a basso consumo. Se stai costruendo una telecamera di sicurezza intelligente su un Raspberry Pi, le semplici convoluzioni senza anchor di YOLOX si traducono facilmente negli acceleratori edge.
  • YOLOv7 per analisi ad alta fedeltà: Se stai elaborando immagini satellitari ad alta risoluzione o eseguendo un complesso controllo qualità di produzione, l'elevato mAP di YOLOv7x, alimentato da GPU NVIDIA di fascia alta, assicura che vengano rilevate anche le anomalie più piccole.

Link to this sectionIl futuro: passare a Ultralytics YOLO26#

Sebbene YOLOv7 e YOLOX fossero rivoluzionari al momento della loro nascita, il panorama della computer vision ha fatto progressi significativi. Per le nuove implementazioni, gli sviluppatori dovrebbero guardare a Ultralytics YOLO26, rilasciato a gennaio 2026. Questo modello all'avanguardia consolida le migliori teorie architettoniche nel sistema definitivo pronto per la produzione.

Ecco perché l'aggiornamento è caldamente raccomandato:

  • Design end-to-end senza NMS: YOLO26 elimina nativamente la Non-Maximum Suppression (NMS) durante il post-processing. Introdotto inizialmente in YOLOv10, questo garantisce una latenza costantemente bassa, semplificando la distribuzione su dispositivi privi di supporto hardware per NMS.
  • Rimozione della DFL: Rimuovendo la Distribution Focal Loss, YOLO26 ottiene una compatibilità nettamente migliore con i dispositivi edge a basso consumo e esportazioni ONNX semplificate.
  • Ottimizzatore MuSGD: Ispirato dalle innovazioni nell'addestramento di LLM, YOLO26 sfrutta un ottimizzatore ibrido MuSGD, garantendo una convergenza più rapida e dinamiche di addestramento incredibilmente stabili.
  • Inferenza su CPU fino al 43% più veloce: Ottimizzato pesantemente per hardware reale, YOLO26 prospera su CPU standard senza richiedere costose infrastrutture GPU.
  • ProgLoss + STAL: Queste funzioni di perdita avanzate migliorano drasticamente il riconoscimento di piccoli oggetti, una caratteristica critica per le ispezioni con droni aerei e le reti IoT sofisticate.

Per gli sviluppatori che cercano il miglior equilibrio di prestazioni tra object detection, segmentazione e oltre, distribuire i modelli tramite la piattaforma Ultralytics offre un'esperienza impareggiabile e priva di attriti.

Scopri di più su YOLO26

Link to this sectionConclusione#

Sia YOLOX che YOLOv7 hanno introdotto tecniche fondamentali che hanno plasmato la traiettoria della vision AI open source. YOLOX ha dimostrato la fattibilità delle decoupled head senza anchor, mentre YOLOv7 ha dimostrato l'immenso potere della ri-parametrizzazione del percorso del gradiente. Oggi, sfruttare l'ecosistema Ultralytics ti assicura di poter estrarre il massimo potenziale da queste architetture storiche, o di passare senza problemi allo stato dell'arte YOLO26 per rendere a prova di futuro la tua prossima applicazione di computer vision.

Collaboratori

Commenti