Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 contro YOLOv10#

L'evoluzione della visione artificiale è stata guidata in gran parte dall'incessante ricerca di un equilibrio tra velocità e precisione. Tradizionalmente, le pipeline di rilevamento oggetti in tempo reale si sono affidate alla Non-Maximum Suppression (NMS) come passaggio di post-elaborazione per filtrare i bounding box sovrapposti. Tuttavia, la NMS introduce colli di bottiglia nella latenza e una complessa regolazione degli iperparametri. Recentemente, sono emersi due distinti approcci architetturali per risolvere nativamente questo problema: i modelli basati su Transformer come RTDETRv2 e i modelli basati su CNN come YOLOv10.

Questa guida fornisce un confronto tecnico completo di questi due modelli, analizzando le loro architetture, le metriche di prestazione e i casi d'uso ideali, evidenziando inoltre come le ultime innovazioni nell'ecosistema Ultralytics offrano la soluzione definitiva per il deployment moderno.

Link to this sectionRTDETRv2: Transformer per il rilevamento in tempo reale#

RTDETRv2 si basa sull'architettura originale RT-DETR, con l'obiettivo di combinare la comprensione del contesto globale dei Vision Transformer con i requisiti di velocità in tempo reale tradizionalmente dominati dai modelli YOLO.

Caratteristiche principali:

Link to this sectionArchitettura e metodologie di addestramento#

RTDETRv2 utilizza un'architettura transformer end-to-end che evita intrinsecamente la NMS. Migliora rispetto al suo predecessore introducendo un approccio "Bag-of-Freebies", ottimizzando la strategia di addestramento e incorporando capacità di rilevamento multi-scala. Il modello utilizza una backbone CNN per estrarre feature maps (dettagli visivi come bordi e texture), che vengono poi elaborati da una struttura encoder-decoder transformer. Ciò consente al modello di analizzare simultaneamente l'intero contesto dell'immagine, rendendolo estremamente efficace nel comprendere scene complesse in cui gli oggetti sono densamente raggruppati o sovrapposti.

Link to this sectionPunti di forza e punti deboli#

Punti di forza:

  • Contesto Globale: Il meccanismo di attenzione consente al modello di eccellere in ambienti complessi e ingombri.
  • Senza NMS: Predice direttamente le coordinate degli oggetti, semplificando la pipeline di deployment.
  • Alta Precisione: Raggiunge un'eccellente mean average precision (mAP) sul dataset COCO.

Debolezze:

  • Intensivo in termini di risorse: Le architetture Transformer richiedono tipicamente molta più memoria CUDA durante l'addestramento rispetto alle CNN, rendendole costose da perfezionare su hardware standard.
  • Variabilità della velocità di inferenza: Sebbene veloce, i pesanti calcoli dell'attenzione possono portare a un minor FPS nella visione artificiale su dispositivi edge privi di acceleratori AI dedicati.

Scopri di più su RTDETRv2

Link to this sectionYOLOv10: Rilevamento oggetti end-to-end in tempo reale#

YOLOv10 rappresenta un cambiamento importante nella linea del rilevamento oggetti YOLO, affrontando il problema di lunga data del collo di bottiglia della NMS direttamente all'interno di un framework CNN.

Caratteristiche principali:

Link to this sectionArchitettura e metodologie di addestramento#

L'innovazione principale di YOLOv10 è la sua assegnazione duale coerente per l'addestramento senza NMS. Impiega due head di rilevamento durante l'addestramento: una con assegnazione uno-a-molti (come i YOLO tradizionali) per fornire ricchi segnali di supervisione, e un'altra con assegnazione uno-a-uno per eliminare la necessità di NMS. Durante l'inferenza, viene utilizzata solo l'head uno-a-uno, risultando in un processo end-to-end. Inoltre, gli autori hanno applicato una strategia di progettazione del modello basata sull'efficienza e la precisione, ottimizzando in modo completo vari componenti per ridurre la ridondanza computazionale.

Link to this sectionPunti di forza e punti deboli#

Punti di forza:

  • Velocità Estrema: Rimuovendo la NMS e ottimizzando l'architettura, YOLOv10 raggiunge una latenza di inferenza incredibilmente bassa.
  • Efficienza: Richiede meno parametri e FLOPs per ottenere una precisione paragonabile ad altri modelli, rendendolo altamente adatto per ambienti vincolati.
  • Deployment senza NMS: Semplifica l'integrazione in applicazioni edge come la videosorveglianza intelligente.

Debolezze:

  • Concetto di prima generazione: Essendo il primo YOLO a implementare questa specifica architettura senza NMS, ha gettato le basi ma ha lasciato spazio alla versatilità multi-task e all'ottimizzazione viste nei modelli successivi come YOLO11 e YOLO26.

Scopri di più su YOLOv10

Link to this sectionConfronto delle Prestazioni#

Quando valuti i modelli per la produzione, bilanciare la precisione con il costo computazionale è fondamentale. La tabella sottostante evidenzia i compromessi nelle prestazioni tra varie dimensioni di RTDETRv2 e YOLOv10.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Mentre RTDETRv2 offre una precisione robusta, YOLOv10 dimostra un notevole vantaggio nella latenza e nell'efficienza dei parametri, in particolare nelle sue varianti più piccole (Nano e Small), rendendolo estremamente attraente per applicazioni di edge computing e AIoT.

Scegliere la scala giusta

Se stai effettuando il deployment su GPU di classe server dove la dimensione del batch e la VRAM sono meno vincolate, i modelli più grandi (come -x o -l) massimizzano la precisione. Per i dispositivi edge come Raspberry Pi o telefoni cellulari, dai la priorità alle varianti nano (-n) o small (-s) per mantenere i frame rate in tempo reale.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra RT-DETR e YOLOv10 dipende dai requisiti specifici del tuo progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è una scelta solida per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere YOLOv10#

YOLOv10 è consigliato per:

  • Rilevamento in tempo reale senza NMS: Applicazioni che traggono vantaggio dal rilevamento end-to-end senza Non-Maximum Suppression, riducendo la complessità di distribuzione.
  • Compromessi bilanciati tra velocità e precisione: Progetti che richiedono un ottimo equilibrio tra velocità di inferenza e precisione di rilevamento su diverse scale di modello.
  • Applicazioni a latenza costante: Scenari di distribuzione in cui tempi di inferenza prevedibili sono fondamentali, come nella robotica o nei sistemi autonomi.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl vantaggio di Ultralytics: introduzione a YOLO26#

Mentre sia RTDETRv2 che YOLOv10 offrono interessanti progressi accademici, il loro deployment in scenari reali richiede un ecosistema software robusto e ben mantenuto. La Piattaforma Ultralytics offre un'esperienza per gli sviluppatori senza pari, combinando facilità d'uso, documentazione estesa e potenti strumenti per l'annotazione dei dati e il deployment.

Per gli sviluppatori che cercano lo stato dell'arte assoluto nel 2026, Ultralytics YOLO26 è la raccomandazione definitiva. Sintetizza le migliori idee da entrambe le architetture introducendo miglioramenti rivoluzionari:

  • Design end-to-end senza NMS: Basandosi sul concetto introdotto da YOLOv10, YOLO26 elimina nativamente la post-elaborazione NMS, risultando in una logica di deployment più veloce, più semplice e con una varianza di latenza pari a zero.
  • Rimozione della DFL: Rimuovendo la Distribution Focal Loss, YOLO26 semplifica l'esportazione del modello e migliora drasticamente la compatibilità con dispositivi edge e a basso consumo.
  • Ottimizzatore MuSGD: Un ibrido tra SGD e Muon (ispirato dalle innovazioni nell'addestramento LLM), questo nuovo ottimizzatore fornisce un addestramento più stabile e una convergenza significativamente più veloce rispetto ai metodi tradizionali.
  • Inferenza su CPU fino al 43% più veloce: Attentamente ottimizzato per ambienti senza GPU dedicate, democratizzando l'IA di visione ad alte prestazioni.
  • ProgLoss + STAL: Queste funzioni di perdita avanzate producono notevoli miglioramenti nel riconoscimento di piccoli oggetti, il che è fondamentale per applicazioni che utilizzano droni e sensori IoT.
  • Versatilità senza eguali: A differenza dei modelli limitati ai bounding box, YOLO26 supporta una suite completa di attività tra cui segmentazione di istanze, stima della posa, classificazione di immagini e rilevamento OBB, complete di miglioramenti specifici per attività come la Residual Log-Likelihood Estimation (RLE) per la posa.

Scopri di più su YOLO26

Link to this sectionImplementazione fluida con Python#

L'addestramento e il deployment di questi modelli utilizzando l'API Python di Ultralytics sono progettati per essere privi di attrito. I requisiti di memoria sono notevolmente inferiori durante l'addestramento rispetto alle architetture pesanti dei transformer, consentendoti di addestrare modelli potenti su hardware standard.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Whether you are implementing security alarm systems or conducting medical image analysis, choosing a model backed by the active Ultralytics community ensures you have the tools, hyperparameter tuning guides, and continuous updates needed to succeed. While YOLOv10 and RTDETRv2 paved the way for NMS-free architectures, YOLO26 perfects the formula, offering the best balance of performance, versatility, and production readiness.

Commenti