Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs YOLOv10: Progressi nel rilevamento di oggetti in tempo reale senza NMS#

L'evoluzione della computer vision è stata guidata in gran parte dall'incessante ricerca di un equilibrio tra velocità e precisione. Tradizionalmente, le pipeline di object detection in tempo reale si sono affidate alla Non-Maximum Suppression (NMS) come fase di post-elaborazione per filtrare i bounding box sovrapposti. Tuttavia, la NMS introduce colli di bottiglia nella latenza e una complessa ottimizzazione degli iperparametri. Recentemente, sono emersi due approcci architetturali distinti per risolvere questo problema in modo nativo: modelli basati su Transformer come RTDETRv2 e modelli basati su CNN come YOLOv10.

Questa guida fornisce un confronto tecnico completo di questi due modelli, analizzandone le architetture, le metriche di prestazione e i casi d'uso ideali, evidenziando al contempo come le ultime innovazioni nell'ecosistema Ultralytics offrano la soluzione definitiva per il deployment moderno.

Link to this sectionRTDETRv2: Transformer di rilevamento in tempo reale#

RTDETRv2 si basa sull'architettura originale RT-DETR, mirando a combinare la comprensione del contesto globale dei Vision Transformer con i requisiti di velocità in tempo reale tradizionalmente dominati dai modelli YOLO.

Caratteristiche principali:

Link to this sectionArchitettura e metodologie di addestramento#

RTDETRv2 utilizza un'architettura transformer end-to-end che evita intrinsecamente la NMS. Migliora il suo predecessore introducendo un approccio "Bag-of-Freebies", ottimizzando la strategia di addestramento e incorporando capacità di rilevamento multi-scala. Il modello utilizza una backbone CNN per estrarre feature maps (dettagli visivi come bordi e texture), che vengono poi elaborati da una struttura encoder-decoder transformer. Ciò consente al modello di analizzare simultaneamente l'intero contesto dell'immagine, rendendolo altamente efficace nel comprendere scene complesse in cui gli oggetti sono densamente raggruppati o sovrapposti.

Link to this sectionPunti di forza e di debolezza#

Punti di forza:

  • Contesto Globale: Il meccanismo di attenzione consente al modello di eccellere in ambienti complessi e disordinati.
  • Senza NMS: Predice direttamente le coordinate degli oggetti, semplificando la pipeline di deployment.
  • Alta Precisione: Raggiunge un'eccellente mean average precision (mAP) sul dataset COCO.

Punti di debolezza:

  • Intensivo in termini di risorse: Le architetture Transformer richiedono solitamente molta più memoria CUDA durante l'addestramento rispetto alle CNN, rendendole costose da perfezionare su hardware standard.
  • Variabilità della velocità di inferenza: Sebbene veloci, i pesanti calcoli di attenzione possono portare a un minor numero di FPS in computer vision su dispositivi edge privi di acceleratori AI dedicati.

Scopri di più su RTDETRv2

Link to this sectionYOLOv10: Rilevamento di oggetti end-to-end in tempo reale#

YOLOv10 rappresenta un cambiamento importante nella linea YOLO object detection, affrontando direttamente il problema di lunga data del collo di bottiglia della NMS all'interno di un framework CNN.

Caratteristiche principali:

Link to this sectionArchitettura e metodologie di addestramento#

L'innovazione principale di YOLOv10 è il suo sistema di assegnazione duale coerente per l'addestramento senza NMS. Utilizza due teste di rilevamento durante l'addestramento: una con assegnazione uno-a-molti (come i classici YOLO) per fornire segnali di supervisione ricchi, e un'altra con assegnazione uno-a-uno per eliminare la necessità di NMS. Durante l'inferenza, viene utilizzata solo la testa uno-a-uno, risultando in un processo end-to-end. Inoltre, gli autori hanno applicato una strategia di progettazione del modello olistica orientata all'efficienza e alla precisione, ottimizzando in modo completo vari componenti per ridurre la ridondanza computazionale.

Link to this sectionPunti di forza e di debolezza#

Punti di forza:

  • Velocità Estrema: Rimuovendo la NMS e ottimizzando l'architettura, YOLOv10 raggiunge una latenza di inferenza incredibilmente bassa.
  • Efficienza: Richiede meno parametri e FLOPs per ottenere una precisione paragonabile ad altri modelli, rendendolo altamente adatto per ambienti vincolati.
  • Deployment senza NMS: Semplifica l'integrazione in applicazioni edge come la videosorveglianza intelligente.

Punti di debolezza:

  • Concetto di prima generazione: Essendo il primo YOLO a implementare questa specifica architettura senza NMS, ha gettato le basi, ma ha lasciato spazio alla versatilità multi-task e all'ottimizzazione viste in modelli successivi come YOLO11 e YOLO26.

Scopri di più su YOLOv10

Link to this sectionConfronto delle prestazioni#

Quando valuti i modelli per la produzione, è fondamentale bilanciare la precisione con il costo computazionale. La tabella sottostante evidenzia i compromessi prestazionali tra le varie dimensioni di RTDETRv2 e YOLOv10.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOP
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Mentre RTDETRv2 offre una precisione solida, YOLOv10 dimostra un notevole vantaggio in termini di latenza ed efficienza dei parametri, specialmente nelle sue varianti più piccole (Nano e Small), rendendolo estremamente interessante per le applicazioni di edge computing e AIoT.

Scegliere la Scala Giusta

Se stai effettuando il deployment su GPU di classe server dove batch size e VRAM sono meno vincolati, i modelli più grandi (come -x o -l) massimizzano la precisione. Per dispositivi edge come Raspberry Pi o telefoni cellulari, dai priorità alle varianti nano (-n) o small (-s) per mantenere i frame rate in tempo reale.

Link to this sectionCasi d'uso e raccomandazioni#

Scegliere tra RT-DETR e YOLOv10 dipende dai requisiti specifici del tuo progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è un'ottima scelta per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti grandi: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere YOLOv10#

YOLOv10 è consigliato per:

  • Rilevamento in tempo reale senza NMS: Applicazioni che traggono vantaggio dal rilevamento end-to-end senza Non-Maximum Suppression, riducendo la complessità di deployment.
  • Compromessi equilibrati tra velocità e accuratezza: Progetti che richiedono un solido equilibrio tra velocità di inferenza e accuratezza di rilevamento su varie scale del modello.
  • Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza di sviluppo:

  • Deployment Edge senza NMS: Applicazioni che richiedono un'inferenza coerente e a bassa latenza senza la complessità della post-elaborazione con Non-Maximum Suppression.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza su CPU di YOLO26, fino al 43% più veloce, offre un vantaggio decisivo.
  • Rilevamento di piccoli oggetti: Scenari complessi come immagini di droni aerei o analisi tramite sensori IoT dove ProgLoss e STAL migliorano significativamente l'accuratezza su oggetti minuscoli.

Link to this sectionIl vantaggio di Ultralytics: ti presentiamo YOLO26#

Sebbene sia RTDETRv2 che YOLOv10 offrano interessanti progressi accademici, implementarli in scenari reali richiede un ecosistema software solido e ben mantenuto. La Ultralytics Platform offre un'esperienza per gli sviluppatori senza pari, combinando facilità d'uso, documentazione estesa e potenti strumenti per l'annotazione dei dati e il deployment.

Per gli sviluppatori che cercano lo stato dell'arte assoluto nel 2026, Ultralytics YOLO26 è la raccomandazione definitiva. Sintetizza le migliori idee da entrambe le architetture introducendo miglioramenti rivoluzionari:

  • Design End-to-End senza NMS: Basandosi sul concetto introdotto da YOLOv10, YOLO26 elimina nativamente la post-elaborazione NMS, risultando in una logica di deployment più veloce, semplice e con varianza di latenza pari a zero.
  • Rimozione DFL: Rimuovendo la Distribution Focal Loss, YOLO26 semplifica l'esportazione del modello e migliora drasticamente la compatibilità con dispositivi edge e a basso consumo.
  • Ottimizzatore MuSGD: Un ibrido tra SGD e Muon (ispirato alle innovazioni nell'addestramento LLM), questo nuovo ottimizzatore fornisce un addestramento più stabile e una convergenza significativamente più veloce rispetto ai metodi tradizionali.
  • Inferenza CPU fino al 43% più veloce: Accuratamente ottimizzato per ambienti privi di GPU dedicate, democratizzando la visione AI ad alte prestazioni.
  • ProgLoss + STAL: Queste funzioni di perdita avanzate offrono notevoli miglioramenti nel riconoscimento di piccoli oggetti, fondamentale per applicazioni che utilizzano droni e sensori IoT.
  • Versatilità senza eguali: A differenza dei modelli limitati ai bounding box, YOLO26 supporta una suite completa di task tra cui instance segmentation, pose estimation, image classification e OBB detection, con miglioramenti specifici per task come la Residual Log-Likelihood Estimation (RLE) per Pose.

Scopri di più su YOLO26

Link to this sectionImplementazione fluida con Python#

Addestrare e distribuire questi modelli utilizzando l'Ultralytics Python API è progettato per essere senza attriti. I requisiti di memoria sono notevolmente inferiori durante l'addestramento rispetto alle architetture pesanti basate su transformer, permettendoti di addestrare modelli potenti su hardware standard.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Che tu stia implementando sistemi di allarme di sicurezza o conducendo analisi di immagini mediche, scegliere un modello supportato dalla attiva community di Ultralytics ti assicura di avere gli strumenti, le guide all'ottimizzazione degli iperparametri e gli aggiornamenti continui necessari per avere successo. Sebbene YOLOv10 e RTDETRv2 abbiano aperto la strada alle architetture senza NMS, YOLO26 perfeziona la formula, offrendo il miglior equilibrio tra prestazioni, versatilità e prontezza per la produzione.

Commenti