Meet YOLO26: next-gen vision AI.

Link to this sectionConfronto tra RTDETRv2 ed EfficientDet#

Selezionare l'architettura di rete neurale ottimale è una scelta determinante per qualsiasi progetto di computer vision. Questo confronto tecnico completo analizza due modelli influenti di object detection: RTDETRv2, un rilevatore basato su Transformer all'avanguardia, ed EfficientDet, una rete neurale convoluzionale altamente scalabile. Valuteremo le loro distinte architetture, metriche di performance, metodologie di addestramento e scenari di deployment ideali per aiutarti a prendere decisioni basate sui dati per le tue pipeline di AI.

Link to this sectionRTDETRv2: Il Transformer per il rilevamento in tempo reale#

Basandosi sul successo del RT-DETR originale, RTDETRv2 perfeziona il paradigma di object detection basato su Transformer. Ottimizzando le strutture di encoder e decoder, offre un'elevata precisione mantenendo velocità di inferenza in tempo reale, colmando efficacemente il divario tra le CNN tradizionali e i vision Transformer.

Dettagli del modello Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu Data: 2024-07-24 Link: Arxiv, GitHub, Docs

Link to this sectionArchitettura e punti di forza#

RTDETRv2 utilizza un'architettura ibrida che abbina un potente backbone CNN (spesso ResNet o HGNet) a un efficiente decoder Transformer. La caratteristica più distintiva di RTDETRv2 è la sua capacità nativa di evitare la non-maximum suppression (NMS). I rilevatori tradizionali richiedono la NMS per filtrare i bounding box duplicati, aggiungendo una latenza di inferenza variabile durante il post-processing. RTDETRv2 formula il rilevamento come un problema di predizione diretta di insieme, utilizzando il bipartite matching per produrre predizioni univoche.

Questo modello eccelle nelle implementazioni lato server dove la memoria GPU è abbondante. Il suo meccanismo di attenzione globale fornisce un'eccezionale consapevolezza del contesto, rendendolo altamente capace di separare oggetti sovrapposti in ambienti densi e disordinati come sistemi di allarme di sicurezza automatizzati o il monitoraggio di folle dense.

Link to this sectionLimitazioni#

Sebbene potenti, le architetture Transformer richiedono intrinsecamente più memoria CUDA durante l'addestramento rispetto alle CNN standard. Inoltre, il fine-tuning di RTDETRv2 può richiedere tempi di convergenza dei dati di addestramento più lunghi, rendendo la prototipazione rapida leggermente più intensiva in termini di risorse.

Scopri di più su RTDETRv2

Link to this sectionEfficientDet: CNN scalabili ed efficienti#

EfficientDet ha introdotto una famiglia di modelli di rilevamento oggetti ottimizzati sia per l'accuratezza che per l'efficienza su un ampio spettro di vincoli di risorse. Rimane un classico esempio di design di machine vision scalabile.

Dettagli del modello Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le
Organizzazione: Google
Data: 2019-11-20
Link: Arxiv, GitHub, Docs

Link to this sectionArchitettura e punti di forza#

L'innovazione alla base di EfficientDet risiede in due aree chiave: la Bi-directional Feature Pyramid Network (BiFPN) e un metodo di scaling composto. La BiFPN consente un'estrazione delle caratteristiche multiscala semplice e veloce, introducendo pesi apprendibili per comprendere l'importanza delle diverse caratteristiche di input, applicando ripetutamente la fusione delle caratteristiche multiscala top-down e bottom-up. Il metodo di scaling composto scala uniformemente risoluzione, profondità e larghezza della rete contemporaneamente.

I modelli EfficientDet spaziano dall'ultraleggero D0 all'imponente D7. Questo li rende estremamente versatili per implementazioni di edge AI in cui devi bilanciare budget computazionali ristretti con requisiti di accuratezza, come nelle prime applicazioni di realtà aumentata mobile.

Link to this sectionLimitazioni#

EfficientDet è un'architettura più datata che si basa pesantemente su anchor box e sulla tradizionale pipeline di post-processing NMS. Il processo di generazione delle anchor richiede un attento tuning degli iperparametri, e il passaggio NMS può creare colli di bottiglia nel deployment su hardware embedded come un Raspberry Pi. Inoltre, manca di supporto nativo per compiti moderni come la pose estimation o le oriented bounding boxes (OBB).

Scopri di più su EfficientDet

Link to this sectionConfronto tra prestazioni e metriche#

Comprendere gli esatti compromessi tra questi modelli richiede l'analisi del loro throughput e dell'efficienza dei parametri. La tabella seguente delinea come la moderna serie RTDETRv2 si confronta con la famiglia scalabile EfficientDet.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Come visto sopra, RTDETRv2 ottiene una mean Average Precision (mAP) significativamente più alta a parità di numero di parametri rispetto ai modelli EfficientDet di fascia media, sfruttando pesantemente la sua architettura Transformer per incrementare l'accuratezza.

Link to this sectionCasi d'uso e raccomandazioni#

Scegliere tra RT-DETR ed EfficientDet dipende dai requisiti specifici del tuo progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è una scelta solida per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere EfficientDet#

EfficientDet è consigliato per:

  • Pipeline Google Cloud e TPU: Sistemi profondamente integrati con le API di Google Cloud Vision o l'infrastruttura TPU, dove EfficientDet offre un'ottimizzazione nativa.
  • Ricerca sul Compound Scaling: Benchmarking accademico focalizzato sullo studio degli effetti della profondità della rete, della larghezza e del ridimensionamento della risoluzione.
  • Deployment mobile tramite TFLite: Progetti che richiedono specificamente l'esportazione verso TensorFlow Lite per dispositivi Android o Linux embedded.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionL'alternativa Ultralytics: Far progredire lo stato dell'arte#

Sebbene sia RTDETRv2 che EfficientDet abbiano forti meriti, lo sviluppo moderno di AI richiede framework che offrano una developer experience fluida insieme a performance all'avanguardia. L'ecosistema Ultralytics fornisce un approccio significativamente più semplificato ai compiti di computer vision.

Se stai esplorando il rilevamento all'avanguardia, il neonato Ultralytics YOLO26 sintetizza i migliori aspetti sia delle CNN che dei Transformer.

Perché scegliere YOLO26?

YOLO26 implementa un Design End-to-End NMS-Free, portando la semplicità di distribuzione di RTDETRv2 all'architettura ultra-efficiente di YOLO. Inoltre, introduce il MuSGD Optimizer — ispirato alle innovazioni nell'addestramento degli LLM — per una stabilità di addestramento superiore. Con la Rimozione della DFL (Distribution Focal Loss rimossa per un'esportazione semplificata e una migliore compatibilità con dispositivi edge/low-power), YOLO26 vanta un'inferenza CPU fino al 43% più veloce rispetto alle generazioni precedenti, rendendolo una scelta eccezionale per l'edge computing rispetto a modelli più pesanti. Inoltre, ProgLoss + STAL fornisce funzioni di perdita migliorate con notevoli miglioramenti nel riconoscimento di piccoli oggetti, fondamentale per IoT, robotica e immagini aeree.

La facilità d'uso offerta dal pacchetto Python di Ultralytics non ha eguali. Gli sviluppatori possono addestrare, validare ed esportare modelli utilizzando un'API intuitiva che astrae il codice boilerplate tipicamente richiesto dai repository di ricerca.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

I modelli Ultralytics supportano nativamente molteplici compiti, tra cui instance segmentation e image classification, fornendo un toolkit versatile per diverse esigenze industriali. Inoltre, la rimozione della Distribution Focal Loss (DFL) nei moderni modelli Ultralytics semplifica il grafo computazionale, garantendo un export più fluido verso NPU e TPU embedded.

Per una data annotation e una gestione dei modelli senza interruzioni, la Piattaforma Ultralytics fornisce un ambiente cloud completo per supervisionare l'intero ciclo di vita del machine learning, confermandosi come la scelta principale per implementare robuste soluzioni di computer vision in produzione.

Commenti