Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs YOLO26#

Il panorama del rilevamento oggetti in tempo reale si è evoluto drasticamente, con i ricercatori che spingono continuamente i limiti di velocità, accuratezza ed efficienza di implementazione. Due delle architetture più importanti che guidano attualmente questa carica sono il modello basato su Transformer RTDETRv2 e la Convolutional Neural Network (CNN) all'avanguardia, Ultralytics YOLO26. Questa guida fornisce un'analisi approfondita delle loro architetture, metriche di performance e casi d'uso ideali per aiutarti a scegliere il modello giusto per il tuo prossimo progetto di computer vision.

Link to this sectionRTDETRv2: Transformer per il rilevamento in tempo reale#

RTDETRv2 si basa sull'architettura originale RT-DETR, con l'obiettivo di combinare la consapevolezza del contesto globale dei vision transformer con la velocità richiesta per le applicazioni in tempo reale.

Caratteristiche principali:

  • Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
  • Organizzazione: Baidu
  • Data: 24-07-2024
  • Link: Arxiv, GitHub, Docs

Link to this sectionArchitettura e punti di forza#

A differenza dei tradizionali rilevatori basati su anchor, RTDETRv2 sfrutta un approccio basato su transformer che elimina nativamente la necessità della Non-Maximum Suppression (NMS) durante la post-elaborazione. Utilizzando un meccanismo di attenzione flessibile, il modello è altamente efficace nel comprendere scene complesse e oggetti sovrapposti. I suoi miglioramenti "Bag-of-Freebies" hanno incrementato significativamente la sua accuratezza sul dataset COCO pur mantenendo velocità di inferenza accettabili su GPU di fascia alta.

Link to this sectionLimitazioni#

Sebbene RTDETRv2 ottenga risultati accademici impressionanti, spesso presenta sfide in ambienti di produzione. Le architetture Transformer richiedono intrinsecamente un maggiore utilizzo di memoria sia durante l'addestramento che durante l'inferenza rispetto alle CNN. Questo può rendere difficile l'implementazione su dispositivi di edge AI con risorse limitate. Inoltre, l'addestramento dei transformer richiede solitamente batch size più grandi e più memoria CUDA, il che può rappresentare un collo di bottiglia per i ricercatori con hardware limitato.

Scopri di più su RTDETRv2

Link to this sectionYOLO26: L'apice della Vision AI Edge-First#

Rilasciato all'inizio del 2026, Ultralytics YOLO26 ridefinisce ciò che è possibile con il rilevamento oggetti basato su CNN. Incorpora ottimizzazioni all'avanguardia progettate specificamente per un'implementazione di produzione fluida e un'estrema efficienza hardware.

Caratteristiche principali:

Link to this sectionInnovazioni architettoniche#

YOLO26 introduce diverse funzionalità rivoluzionarie che risolvono comuni problemi nell'implementazione dei modelli:

  • Design end-to-end senza NMS: Basandosi su concetti sperimentati in YOLOv10, YOLO26 è nativamente end-to-end. Rimuovendo la post-elaborazione NMS, riduce drasticamente la variabilità della latenza, garantendo tempi di inferenza altamente prevedibili in produzione.
  • Fino al 43% più veloce nell'inferenza su CPU: Grazie a raffinamenti architettonici strategici e alla rimozione della Distribution Focal Loss (DFL), YOLO26 raggiunge velocità su CPU senza precedenti, rendendolo la scelta principale per l'edge computing senza GPU dedicate.
  • Ottimizzatore MuSGD: Ispirato alle tecniche di addestramento dei Large Language Model (LLM) come Kimi K2 di Moonshot AI, YOLO26 utilizza l'ottimizzatore MuSGD (un ibrido tra SGD e Muon). Ciò garantisce esecuzioni di addestramento altamente stabili e una convergenza incredibilmente veloce.
  • ProgLoss + STAL: Queste avanzate funzioni di perdita offrono notevoli miglioramenti nel riconoscimento di piccoli oggetti, un aggiornamento essenziale per le applicazioni che coinvolgono immagini aeree e sorveglianza tramite droni.
Miglioramenti specifici per attività in YOLO26

Oltre al rilevamento standard, YOLO26 presenta miglioramenti specializzati: perdita di segmentazione semantica e proto multi-scala per attività di segmentazione, Residual Log-Likelihood Estimation (RLE) per la stima della posa e perdita angolare personalizzata per risolvere problemi di confine nel rilevamento Oriented Bounding Box (OBB).

Scopri di più su YOLO26

Link to this sectionConfronto delle Prestazioni#

Quando valuti questi modelli, è fondamentale raggiungere un solido equilibrio tra accuratezza (mAP) ed efficienza computazionale. La tabella seguente mostra come YOLO26 superi costantemente RTDETRv2 in diverse varianti di dimensione.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Come si può vedere sopra, il modello YOLO26x raggiunge un notevole 57,5 mAP, superando significativamente il modello RTDETRv2-x pur utilizzando meno parametri e mantenendo una velocità di inferenza TensorRT più rapida. Inoltre, i requisiti di memoria per YOLO26 sono notevolmente inferiori, rendendolo la scelta ottimale per implementazioni edge in tempo reale.

Link to this sectionEcosistema e facilità d'uso#

Sebbene le prestazioni pure siano vitali, l'ecosistema circostante determina quanto velocemente un modello può essere portato dalla ricerca alla produzione. È qui che la Ultralytics Platform offre un vantaggio senza pari.

Link to this sectionUn ecosistema unificato e ben mantenuto#

RTDETRv2 opera principalmente come repository di livello di ricerca, il che può richiedere complesse configurazioni dell'ambiente e scripting manuale per attività personalizzate. Al contrario, Ultralytics YOLO26 beneficia di un pacchetto Python maturo e ampiamente testato. L'ecosistema Ultralytics offre un'esperienza utente incredibilmente snella, fornendo un'API semplice per addestramento, convalida, previsione ed esportazione.

Con integrazioni integrate per Weights & Biases e Comet ML, il monitoraggio degli esperimenti è fluido. Inoltre, i modelli Ultralytics sono altamente versatili; mentre RTDETRv2 si concentra sul rilevamento oggetti, YOLO26 supporta nativamente segmentazione di istanze, stima della posa e classificazione delle immagini all'interno dello stesso framework.

Link to this sectionEsempio di codice: semplicità in azione#

L'API Ultralytics consente agli sviluppatori di caricare, addestrare ed eseguire inferenze con solo poche righe di codice. Ciò migliora drasticamente l'efficienza dell'addestramento e riduce il time-to-market.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the YOLO26 results
results_yolo[0].show()

# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra RT-DETR e YOLO26 dipende dai requisiti specifici del tuo progetto, dai vincoli di implementazione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è una scelta solida per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere YOLO26#

YOLO26 è raccomandato per:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionEsplorazione di altre architetture#

Mentre YOLO26 rappresenta l'attuale apice delle prestazioni, gli sviluppatori potrebbero trovare valore anche nell'esplorazione delle versioni precedenti. Il grande successo di YOLO11 rimane un modello solido e completamente supportato per una varietà di sistemi legacy. Puoi approfondire le sue capacità leggendo il nostro confronto tra RTDETR e YOLO11. Inoltre, se stai analizzando architetture più datate, dare un'occhiata al confronto tra EfficientDet e YOLO26 fornisce un ottimo contesto storico su quanto siano progredite le architetture di rilevamento oggetti.

Link to this sectionConsiderazioni finali#

Sia RTDETRv2 che YOLO26 offrono incredibili progressi nel campo dell'IA. Tuttavia, per i team che danno priorità a una transizione fluida verso la produzione, un ingombro di memoria minimo e un'ampia versatilità nelle attività, Ultralytics YOLO26 è la raccomandazione chiara. La sua architettura senza NMS, le elevate velocità su CPU e il supporto del robusto ecosistema Ultralytics assicurano che i tuoi progetti di Vision AI rimangano scalabili, efficienti e pronti per il futuro. Che tu stia eseguendo l'implementazione su un server cloud o su un Raspberry Pi con risorse limitate, YOLO26 offre prestazioni senza compromessi fin da subito.

Contributori

Commenti