Link to this sectionPP-YOLOE+ contro DAMO-YOLO#

La continua evoluzione della computer vision ha prodotto una serie di architetture altamente specializzate per il rilevamento di oggetti in tempo reale. Durante la valutazione di modelli per applicazioni industriali e di ricerca, due framework di rilievo del 2022 entrano spesso nella discussione: PP-YOLOE+ di Baidu e DAMO-YOLO di Alibaba Group. Entrambi i modelli hanno spinto i limiti del rilevamento anchor-free introducendo nuove backbone, strategie avanzate di assegnazione delle etichette e tecniche specializzate di fusione delle feature.

Questa guida fornisce un'analisi tecnica dettagliata di PP-YOLOE+ e DAMO-YOLO, esplorando le loro architetture, le metodologie di addestramento e i punti di forza nell'implementazione. Esamineremo anche come questi framework si confrontano con soluzioni moderne come Ultralytics YOLO26 per aiutarti a scegliere lo strumento giusto per i tuoi vincoli di implementazione specifici.

Link to this sectionPP-YOLOE+: Rilevamento di oggetti industriale perfezionato#

Sviluppato all'interno dell'ecosistema Baidu, PP-YOLOE+ è un miglioramento iterativo del PP-YOLOE originale, fortemente ottimizzato per il framework di deep learning PaddlePaddle. È stato progettato per massimizzare la precisione e la velocità di inferenza su hardware di livello server, rendendolo un forte candidato per l'ispezione industriale e le applicazioni di smart retail.

Link to this sectionInnovazioni architettoniche#

PP-YOLOE+ introduce diversi miglioramenti architetturali per superare i precedenti rilevatori anchor-free:

Backbone CSPRepResNet: Questa backbone utilizza un'architettura in stile RepVGG combinata con connessioni Cross Stage Partial (CSP), offrendo un solido equilibrio tra capacità di estrazione delle feature e latenza di inferenza.
Task Alignment Learning (TAL): PP-YOLOE+ impiega una strategia dinamica avanzata di assegnazione delle etichette che allinea i compiti di classificazione e regressione durante l'addestramento, riducendo il divario tra le prestazioni di addestramento e quelle di inferenza.
Efficient Task-aligned Head (ET-head): Una head di rilevamento semplificata progettata per elaborare le feature rapidamente senza sacrificare la risoluzione spaziale, il che è altamente vantaggioso per mantenere elevati mAP metrics.

Dettagli PP-YOLOE+:

Autori: Autori di PaddlePaddle
Organizzazione: Baidu
Data: 02-04-2022
Arxiv: 2203.16250
GitHub: PaddlePaddle/PaddleDetection
Documentazione: Documentazione PP-YOLOE+

Scopri di più su PP-YOLOE+

Link to this sectionDAMO-YOLO: Neural Architecture Search all'edge#

Creato dalla Alibaba DAMO Academy, DAMO-YOLO adotta un approccio decisamente diverso. Invece di progettare manualmente la backbone, il team di ricerca ha utilizzato la Neural Architecture Search (NAS) per scoprire topologie di rete altamente efficienti su misura per rigidi vincoli di latenza.

Link to this sectionCaratteristiche principali e pipeline di addestramento#

DAMO-YOLO enfatizza la bassa latenza e l'elevata precisione attraverso una metodologia automatizzata e basata sulla distillazione:

Backbone MAE-NAS: Utilizzando il Method of Automating Efficient Neural Architecture Search, DAMO-YOLO costruisce backbone ottimizzate specificamente per il compromesso tra parametri e precisione.
Efficient RepGFPN: Una Generalized Feature Pyramid Network riparametrizzata consente una solida fusione multiscala delle feature, il che aiuta il modello a rilevare oggetti di dimensioni molto diverse in un singolo frame.
Design ZeroHead: Una head di rilevamento altamente semplificata che riduce drasticamente il sovraccarico computazionale durante la fase di inferenza.
Miglioramento tramite distillazione: Per aumentare le prestazioni delle varianti più piccole, DAMO-YOLO si affida pesantemente a un complesso processo di distillazione della conoscenza in cui un modello insegnante più grande guida il modello studente.

Dettagli di DAMO-YOLO:

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione: Alibaba Group
Data: 23-11-2022
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Documentazione: Documentazione DAMO-YOLO

Scopri di più su DAMO-YOLO

Dipendenza dal framework

Sebbene sia PP-YOLOE+ che DAMO-YOLO offrano robuste innovazioni teoriche, sono strettamente legati ai rispettivi framework (PaddlePaddle e specifici ambienti Alibaba). Ciò può introdurre attriti quando si tenta di portare questi modelli su implementazioni cloud o edge standardizzate.

Link to this sectionAnalisi delle prestazioni#

Quando valuti questi modelli, il compromesso tra latenza, complessità computazionale (FLOPs) e mean Average Precision (mAP) determina il loro ambiente di implementazione ideale.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

DAMO-YOLO generalmente ottiene latenze TensorRT inferiori alle scale nano e tiny, rendendolo altamente competitivo per flussi video ad alto throughput. Tuttavia, PP-YOLOE+ scala incredibilmente bene nella sua variante extra-large (x), ottenendo una precisione di alto livello per immagini complesse dove il tempo di inferenza è una preoccupazione secondaria.

Link to this sectionIl vantaggio di Ultralytics: andare oltre le architetture del 2022#

Mentre PP-YOLOE+ e DAMO-YOLO hanno rappresentato pietre miliari significative, lo sviluppo moderno richiede maggiore versatilità, pipeline di addestramento più semplici e minori requisiti di memoria. La Piattaforma Ultralytics risponde a queste esigenze offrendo un'esperienza senza attriti che supera drasticamente la complessa distillazione e le configurazioni specifiche per framework richieste dai modelli più vecchi.

Per gli sviluppatori che cercano di ottenere il miglior equilibrio di prestazioni oggi, Ultralytics YOLO26 fornisce un salto rivoluzionario nell'efficienza dell'implementazione nel mondo reale.

Link to this sectionPerché YOLO26 guida il settore#

Rilasciato all'inizio del 2026, YOLO26 si basa sull'eredità di YOLO11 introducendo tecnologie rivoluzionarie su misura per la produzione:

Design end-to-end NMS-free: YOLO26 elimina la post-elaborazione Non-Maximum Suppression (NMS). Questo si traduce in una logica di implementazione più semplice e latenze di inferenza coerenti e altamente prevedibili.
Ottimizzatore MuSGD: Ispirato alle tecniche di addestramento di modelli linguistici di grandi dimensioni, YOLO26 utilizza un ottimizzatore ibrido MuSGD. Ciò garantisce un addestramento incredibilmente stabile e una convergenza rapida, risparmiando preziose ore GPU.
Inferenza CPU superiore: Rimuovendo la Distribution Focal Loss (DFL) e ottimizzando il grafo di rete, YOLO26 ottiene un'inferenza CPU fino al 43% più veloce, rendendolo la scelta principale per dispositivi edge AI.
ProgLoss + STAL: Queste funzioni di perdita avanzate producono notevoli miglioramenti nel riconoscimento di piccoli oggetti, fondamentale per operazioni con droni e telerilevamento.
Versatilità impareggiabile: A differenza di PP-YOLOE+ che si concentra rigorosamente sul rilevamento, YOLO26 supporta nativamente stima della posa, segmentazione di istanze, classificazione di immagini e oriented bounding boxes (OBB) senza soluzione di continuità.

Link to this sectionFacilità d'uso ed efficienza nell'addestramento#

Addestrare un modello DAMO-YOLO richiede la gestione di una pesante pipeline di distillazione insegnante-studente. Al contrario, addestrare un modello Ultralytics richiede solo poche righe di Python, con un utilizzo minimo della memoria CUDA rispetto alle architetture concorrenti.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Scopri di più su YOLO26

Link to this sectionCasi d'uso ideali e raccomandazioni#

La selezione dell'architettura di computer vision ottimale dipende fortemente dall'integrazione dell'ecosistema del tuo team e dagli obiettivi di implementazione.

Scegli PP-YOLOE+ se l'intera pipeline è profondamente integrata nell'ecosistema Baidu PaddlePaddle. Rimane una scelta eccellente per l'analisi di immagini statiche su server potenti in cui massimizzare la precisione è l'obiettivo principale.
Scegli DAMO-YOLO se stai conducendo ricerche specifiche sugli algoritmi di Neural Architecture Search o se disponi delle risorse ingegneristiche per mantenere complesse pipeline di distillazione per raggiungere target di latenza TensorRT aggressivi.
Scegli Ultralytics YOLO26 per quasi tutti gli scenari di produzione moderni. L'ecosistema Ultralytics fornisce documentazione senza pari, minori requisiti di memoria e un'API semplificata. Che tu stia costruendo sistemi di controllo qualità automatizzato o eseguendo il tracciamento in tempo reale su un Raspberry Pi, l'architettura NMS-free di YOLO26 garantisce risultati rapidi, stabili e altamente accurati fin da subito.

Per gli sviluppatori che esplorano altre soluzioni all'avanguardia, la documentazione Ultralytics fornisce anche ampie risorse sul largamente adottato YOLOv8 e sul robusto YOLO11, assicurandoti di avere il modello giusto per qualsiasi sfida di computer vision.

Collaboratori

GLglenn-jocher¹⁵

Creato 27 gen 2025Aggiornato 3 settimane fa