Confronto tra modelli: scegli il modello di rilevamento oggetti migliore per il tuo progetto

La scelta dell'architettura di rete neurale giusta è la pietra angolare di qualsiasi progetto di computer vision di successo. Benvenuto nell'Ultralytics Model Comparison Hub! Questa pagina centralizza analisi tecniche dettagliate e benchmark delle prestazioni, sezionando i compromessi tra l'ultimo Ultralytics YOLO11 e altre architetture leader come YOLOv10, RT-DETR ed EfficientDet.

Sia che la tua applicazione richieda la latenza di millisecondi dell'edge AI o la precisione ad alta fedeltà richiesta per l'imaging medicale, questa guida fornisce le informazioni basate sui dati necessarie per fare una scelta informata. Valutiamo i modelli in base alla precisione media media (mAP), alla velocità di inferenza, all'efficienza dei parametri e alla facilità di implementazione.

Benchmark interattivi delle prestazioni

Visualizzare la relazione tra velocità e accuratezza è essenziale per identificare la "frontiera di Pareto" del object detection: modelli che offrono la migliore accuratezza per un dato vincolo di velocità. Il grafico sottostante mette a confronto le metriche chiave su dataset standard come COCO.

Questo grafico visualizza le principali metriche di performance, consentendoti di valutare rapidamente i compromessi tra diversi modelli. Comprendere queste metriche è fondamentale per selezionare un modello che si allinei ai tuoi specifici vincoli di implementazione.

Guida rapida alle decisioni

Non sai da dove cominciare? Utilizza questo albero decisionale per restringere l'architettura più adatta alle tue esigenze hardware e di prestazioni.

graph TD
    A[Start: Define Project Needs] --> B{Deployment Hardware?}
    B -- "Edge / Mobile (CPU/NPU)" --> C{Latency Priority?}
    B -- "Cloud / GPU" --> D{Accuracy vs Speed?}

    C -- "Extreme Speed (Real-time)" --> E[YOLO11n / YOLO11s]
    C -- "Balanced Legacy" --> F[YOLOv5s / YOLOv8s]

    D -- "Max Accuracy (SOTA)" --> G[YOLO11x / RT-DETR-X]
    D -- "Balanced Performance" --> H[YOLO11m / YOLO11l]

    A --> I{Specialized Features?}
    I -- "NMS-Free Inference" --> J[YOLOv10]
    I -- "Multitask (Seg/Pose/OBB)" --> K[YOLO11 / YOLOv8]
    I -- "Video Analytics" --> L[YOLO11 + Tracking]

Il panorama attuale: YOLO11 e oltre

Il campo del rilevamento oggetti è in rapida evoluzione. Mentre i modelli più datati rimangono rilevanti per il supporto legacy, le nuove architetture spingono i limiti di ciò che è possibile.

Ultralytics YOLO11

Essendo l'ultima versione stabile, YOLO11 è il punto di partenza consigliato per i nuovi progetti. Introduce miglioramenti architettonici significativi rispetto alle versioni precedenti, tra cui funzionalità avanzate di estrazione delle caratteristiche e grafici di calcolo ottimizzati. Supporta una suite completa di attività—detection, segmentation, stima della posa, classificazione e Oriented Bounding Boxes (OBB)—all'interno di un unico framework unificato.

Perché scegliere YOLO11?

YOLO11 rappresenta l'apice dell'ingegneria Ultralytics, offrendo il miglior equilibrio tra velocità e precisione per applicazioni reali. È pienamente supportato dal nostro ecosistema, garantendo manutenzione e compatibilità a lungo termine.

Modelli della community: una nota su YOLO12 e YOLO13

Potresti imbatterti in riferimenti a YOLO12 o YOLO13 nelle discussioni o nei repository della community.

Attenzione alla produzione

Attualmente non raccomandiamo YOLO12 o YOLO13 per l'uso in produzione.

YOLO12: Utilizza livelli di attenzione che spesso causano instabilità nel training, un consumo eccessivo di memoria e velocità di inferenza della CPU significativamente più lente.
YOLO13: I benchmark indicano solo marginali guadagni di accuratezza rispetto a YOLO11 pur essendo più grande e più lento. I risultati riportati hanno mostrato problemi di riproducibilità.

Uno sguardo al futuro: YOLO26 e la piattaforma Ultralytics

Ultralytics sta sviluppando attivamente YOLO26, con l'obiettivo di rilasciarlo come open source alla fine del 2025. Questo modello di nuova generazione mira a supportare tutte le attività di YOLO11 pur essendo più piccolo, più veloce e nativamente end-to-end. Inoltre, nel 2026, la Piattaforma Ultralytics verrà lanciata come una soluzione SaaS completa per l'approvvigionamento dei dati, l'auto-annotazione e l'addestramento su cloud, semplificando l'intero ciclo di vita MLOps.

Guarda: Confronto tra modelli YOLO: Ultralytics YOLO11 vs. YOLOv10 vs. YOLOv9 vs. Ultralytics YOLOv8 🎉

Confronti dettagliati dei modelli

Esplora i nostri confronti tecnici approfonditi per comprendere le specifiche differenze architetturali, come la selezione del backbone, la progettazione dell'head e le funzioni di loss. Li abbiamo organizzati per modello per un facile accesso:

YOLO11 vs

YOLO11 si basa sul successo dei suoi predecessori con una ricerca all'avanguardia. Presenta un'architettura backbone e neck migliorata per una migliore estrazione delle feature e un'efficienza ottimizzata.

YOLOv10 vs

Sviluppato dalla Tsinghua University, YOLOv10 si concentra sulla rimozione del passaggio di Non-Maximum Suppression (NMS) per ridurre la varianza della latenza, offrendo prestazioni all'avanguardia con un sovraccarico computazionale ridotto.

YOLOv9 vs

YOLOv9 introduce Programmable Gradient Information (PGI) e la Generalized Efficient Layer Aggregation Network (GELAN) per affrontare la perdita di informazioni nelle reti neurali profonde.

YOLOv8 vs

Ultralytics YOLOv8 rimane una scelta molto popolare, grazie alle architetture avanzate di backbone e neck e all'head split senza ancore per un compromesso ottimale tra accuratezza e velocità.

YOLOv7 contro

YOLOv7 ha introdotto "trainable bag-of-freebies" e la riparametrizzazione del modello, concentrandosi sull'ottimizzazione del processo di addestramento senza aumentare i costi di inferenza.

YOLOv6 contro

YOLOv6 di Meituan è progettato per applicazioni industriali, con moduli Bi-directional Concatenation (BiC) e strategie di addestramento anchor-aided.

YOLOv5 vs

Ultralytics YOLOv5 è apprezzato per la sua facilità d'uso, stabilità e velocità. Rimane una scelta solida per i progetti che richiedono un'ampia compatibilità con i dispositivi.

RT-DETR vs

RT-DETR (Real-Time Detection Transformer) sfrutta i transformer di visione per ottenere un'elevata precisione con prestazioni in tempo reale, eccellendo nella comprensione del contesto globale.

PP-YOLOE+ vs

PP-YOLOE+, sviluppato da Baidu, utilizza il Task Alignment Learning (TAL) e un head disaccoppiato per bilanciare efficienza e accuratezza.

DAMO-YOLO contro

Da Alibaba Group, DAMO-YOLO impiega Neural Architecture Search (NAS) ed efficiente RepGFPN per massimizzare l'accuratezza sui benchmark statici.

YOLOX contro

YOLOX, sviluppato da Megvii, è un'evoluzione anchor-free nota per la sua decoupled head e la strategia di assegnazione delle etichette SimOTA.

EfficientDet vs

EfficientDet di Google Brain utilizza lo scaling composto e BiFPN per ottimizzare l'efficienza dei parametri, offrendo uno spettro di modelli (D0-D7) per diversi vincoli.

Questo indice viene continuamente aggiornato man mano che vengono rilasciati nuovi modelli e i benchmark vengono perfezionati. Ti invitiamo a esplorare queste risorse per trovare la soluzione perfetta per il tuo prossimo progetto di computer vision. Se stai cercando soluzioni di livello enterprise con licenze private, visita la nostra pagina delle licenze. Buon confronto!