Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 vs EfficientDet#

Selezionare l'architettura di rete neurale ottimale è il fondamento di qualsiasi progetto di computer vision di successo. Questa guida fornisce un confronto tecnico dettagliato tra due modelli fondamentali nella storia delle architetture di rilevamento oggetti: YOLOv7 e EfficientDet. Esaminando le loro innovazioni architetturali, le metodologie di addestramento e gli scenari di implementazione ideali, potrai prendere decisioni informate. Esploreremo anche come i progressi moderni, in particolare l'innovativo Ultralytics YOLO26, abbiano ridefinito l'attuale stato dell'arte.

Link to this sectionOrigini del modello e dettagli tecnici#

Entrambi i modelli sono stati sviluppati da importanti team di ricerca e hanno introdotto progressi significativi nel campo del machine learning.

YOLOv7 Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao Organizzazione: Institute of Information Science, Academia Sinica, Taiwan Data: 2022-07-06 Arxiv: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors GitHub: WongKinYiu/yolov7 Documentazione: Documentazione Ultralytics YOLOv7

Scopri di più su YOLOv7

EfficientDet Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le Organizzazione: Google Research Data: 2019-11-20 Arxiv: EfficientDet: Scalable and Efficient Object Detection GitHub: Google AutoML EfficientDet

Scopri di più su EfficientDet

Link to this sectionDifferenze architetturali e analisi equilibrata#

Comprendere le differenze strutturali fondamentali tra queste reti è cruciale per un'efficace implementazione del modello.

Link to this sectionEfficientDet: Ridimensionamento composto e BiFPN#

Sviluppato all'interno dell'ecosistema TensorFlow, EfficientDet ha introdotto un approccio basato su principi per la scalabilità dei modelli. Invece di ampliare o approfondire arbitrariamente la rete, i ricercatori di Google hanno utilizzato un metodo di scalabilità composta che uniforma risoluzione, profondità e larghezza.

Inoltre, EfficientDet ha introdotto la Bi-directional Feature Pyramid Network (BiFPN). Questo componente architetturale consente una fusione delle feature multi-scala facile e veloce.

Punti di forza: Altamente efficiente nei parametri, raggiunge una solida mean Average Precision (mAP) con meno FLOP rispetto a molti contemporanei. Debolezze: Si basa pesantemente su strategie di ricerca legacy AutoML. L'integrazione in flussi di lavoro PyTorch moderni e dinamici può essere macchinosa e la latenza sui dispositivi edge è spesso superiore al previsto nonostante il basso numero di FLOP.

Link to this sectionYOLOv7: Trainable Bag-of-Freebies#

YOLOv7 ha dato priorità all'inferenza in tempo reale e all'ottimizzazione dell'addestramento. Ha introdotto il concetto di E-ELAN (extended efficient layer aggregation network), che consente al modello di apprendere continuamente feature più diversificate senza distruggere il percorso del gradiente originale. YOLOv7 ha anche utilizzato una tecnica chiamata "trainable bag-of-freebies", che migliora drasticamente l'accuratezza del rilevamento senza aumentare i costi di inferenza.

Punti di forza: Velocità di elaborazione eccezionali e una latenza di inferenza favorevole, che lo rendono ideale per flussi video ad alto FPS. Debolezze: Sebbene altamente capace, si basa ancora su anchor box e richiede la Non-Maximum Suppression (NMS) durante la post-elaborazione, il che può creare un collo di bottiglia di latenza in scene molto affollate.

Il vantaggio dell'ecosistema Ultralytics

Quando si valutano i modelli, l'ecosistema circostante è tanto vitale quanto l'architettura. La Ultralytics Platform integrata fornisce un'API unificata, una documentazione estesa e un supporto attivo della community. Questo ambiente unificato garantisce un minore utilizzo della memoria durante l'addestramento rispetto ai pesanti modelli Transformer, assicurando una prototipazione rapida e un monitoraggio degli esperimenti senza soluzione di continuità.

Link to this sectionMetriche di performance e benchmark#

La tabella seguente mette a confronto le metriche di performance chiave, consentendo agli sviluppatori di valutare i compromessi tra velocità, conteggio dei parametri e accuratezza.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Come mostrato, mentre EfficientDet-d7 raggiunge una mAP elevata, la sua velocità TensorRT è notevolmente inferiore rispetto alle varianti YOLOv7, evidenziando il dominio di quest'ultimo nel rilevamento oggetti in tempo reale accelerato da GPU.

Link to this sectionL'evoluzione del rilevamento oggetti: YOLO26#

Mentre YOLOv7 ed EfficientDet hanno gettato basi vitali, il panorama della vision AI si evolve rapidamente. Per le applicazioni moderne che richiedono il massimo dell'efficienza e dell'accuratezza, consigliamo vivamente di passare a YOLO26, rilasciato nel gennaio 2026.

YOLO26 risolve i limiti intrinseci delle generazioni precedenti, offrendo una versatilità senza precedenti nel rilevamento oggetti, nella segmentazione di istanze, nella classificazione immagini e nella stima della posa.

Scopri di più su YOLO26

Link to this sectionPrincipali innovazioni di YOLO26#

  • Design end-to-end senza NMS: YOLO26 elimina nativamente la post-elaborazione NMS. Introdotto inizialmente in YOLOv10, questo semplifica la logica di implementazione e garantisce un'esecuzione coerente a bassa latenza indipendentemente dalla densità degli oggetti.
  • Rimozione del DFL: Rimuovendo la Distribution Focal Loss (DFL), l'architettura del modello è enormemente semplificata, migliorando la compatibilità con ambienti di edge computing altamente vincolati.
  • Fino al 43% di inferenza CPU più veloce: Fortemente ottimizzato per ambienti privi di GPU dedicate, rendendolo esponenzialmente più veloce di EfficientDet su hardware leggero.
  • Ottimizzatore MuSGD: Ispirato a tecniche di modelli linguistici di grandi dimensioni (come Kimi K2 di Moonshot AI), questo ibrido tra SGD e Muon porta stabilità a livello di LLM e una rapida convergenza nell'addestramento di computer vision.
  • ProgLoss + STAL: Queste funzioni di perdita avanzate offrono notevoli miglioramenti nel riconoscimento di piccoli oggetti, una funzionalità critica per immagini aeree e applicazioni con droni.
  • Miglioramenti specifici per attività: Include la perdita per segmentazione semantica e proto multi-scala per attività di segmentazione, Residual Log-Likelihood Estimation (RLE) per complesse stime di posa e una perdita angolare specializzata su misura per risolvere problemi di confine di Oriented Bounding Box (OBB).

Per i team che utilizzano attualmente sistemi legacy, la transizione alla Ultralytics Platform sblocca un flusso di lavoro semplificato in cui questi modelli all'avanguardia possono essere addestrati e implementati con facilità. Gli sviluppatori possono anche esplorare precedenti iterazioni robuste come YOLO11 e YOLOv8 a seconda di specifici requisiti di compatibilità con le versioni precedenti.

Link to this sectionAddestramento semplificato e facilità d'uso#

Una delle caratteristiche distintive dei modelli Ultralytics è la pura facilità d'uso. A differenza della configurazione complessa e multi-dipendenza richiesta per gli ambienti TensorFlow AutoML di EfficientDet, Ultralytics fornisce un'API semplice e Pythonic.

Questo ambiente riduce al minimo l'utilizzo della memoria CUDA durante l'addestramento, assicurando che anche dataset di grandi dimensioni possano essere elaborati in modo efficiente senza errori di Out-Of-Memory (OOM) comunemente riscontrati in ingombranti architetture basate su Transformer.

Link to this sectionEsempio di codice: iniziare con Ultralytics#

Il seguente frammento mostra come gli sviluppatori possono sfruttare il pacchetto Ultralytics per addestrare un modello YOLO26 all'avanguardia in modo immediato.

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model for object detection
model = YOLO("yolo26n.pt")

# Train the model effortlessly using the integrated Ultralytics ecosystem
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Auto-selects optimal device
    batch=16,
)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment (e.g., OpenVINO for CPU optimization)
model.export(format="openvino")
Esportazione per la produzione

I modelli addestrati tramite l'API Ultralytics possono essere esportati istantaneamente in vari formati di produzione come OpenVINO o ONNX, garantendo un throughput elevato indipendentemente dall'hardware di destinazione.

Link to this sectionCasi d'uso ideali e applicazioni nel mondo reale#

Quando si progetta una soluzione, è imperativo allineare i punti di forza del modello al caso d'uso specifico.

Link to this sectionQuando utilizzare EfficientDet#

EfficientDet rimane un candidato per la ricerca accademica legacy o ambienti strettamente legati all'ecosistema Google Cloud dove gli esperimenti di scalabilità composta sono l'obiettivo primario. Le sue varianti più piccole (d0-d2) sono vantaggiose quando la dimensione del disco è fortemente limitata.

Link to this sectionQuando utilizzare YOLOv7#

YOLOv7 eccelle in configurazioni legacy ad alte prestazioni, in particolare dove l'integrazione PyTorch è preferita rispetto a TensorFlow. Rimane ampiamente implementato in:

  • Video Analytics: Elaborazione di flussi di sicurezza ad alto frame rate dove l'accelerazione GPU è abbondante.
  • Ispezione industriale: Identificazione di difetti su linee di assemblaggio produttive in rapido movimento.

Link to this sectionQuando scegliere YOLO26#

Per tutte le nuove implementazioni, YOLO26 è la raccomandazione indiscussa. Il suo bilanciamento delle performance senza pari e il robusto ecosistema ben mantenuto lo rendono la scelta ottimale per:

  • Smart Cities e gestione del traffico: Il suo design senza NMS garantisce una latenza di inferenza coerente, vitale per il coordinamento del traffico in tempo reale.
  • Robotica e sistemi autonomi: L'impressionante aumento del 43% nella velocità di inferenza della CPU garantisce algoritmi di navigazione altamente reattivi per dispositivi embedded.
  • Monitoraggio agricolo e aereo: Utilizzo di ProgLoss e STAL per identificare con precisione piccoli oggetti come colture specifiche o fauna selvatica da immagini ad alta quota.

In sintesi, mentre EfficientDet e YOLOv7 offrono un prezioso contesto storico e una specifica utilità di nicchia, l'ingegnere moderno di computer vision è meglio servito adottando l'architettura Ultralytics YOLO26, che risolve elegantemente i precedenti colli di bottiglia spingendo i confini di ciò che è possibile nell'intelligenza artificiale.

Commenti