Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 contro RTDETRv2: Valutazione dei rilevatori di oggetti end-to-end in tempo reale#

Il panorama della computer vision si muove a un ritmo vertiginoso, con nuove architetture che ridefiniscono costantemente lo stato dell'arte nel rilevamento di oggetti in tempo reale. Due pietre miliari significative in questa evoluzione sono YOLOv10 e RTDETRv2. Entrambi i modelli mirano a risolvere un collo di bottiglia fondamentale nelle pipeline di rilevamento tradizionali eliminando la necessità della post-elaborazione Non-Maximum Suppression (NMS), tuttavia affrontano questa sfida da paradigmi architettonici completamente diversi.

Questo confronto tecnico fornisce un'analisi approfondita delle loro architetture, metodologie di addestramento e scenari di implementazione ideali per aiutare sviluppatori e ricercatori a scegliere lo strumento giusto per il loro prossimo progetto di vision AI.

Link to this sectionYOLOv10: Il pioniere senza NMS#

Sviluppato dai ricercatori della Tsinghua University, YOLOv10 si concentra fortemente sull'efficienza architettonica e sulla rimozione dei colli di bottiglia nella post-elaborazione. Introducendo assegnazioni duali coerenti per l'addestramento senza NMS, ottiene prestazioni competitive riducendo significativamente la latenza di inferenza.

Link to this sectionSpecifiche tecniche#

Link to this sectionArchitettura e metodologie#

La principale innovazione di YOLOv10 è il suo design del modello olistico orientato all'efficienza e alla precisione. Ottimizza vari componenti da entrambe le prospettive, riducendo notevolmente il sovraccarico computazionale. La strategia di assegnazioni duali coerenti consente al modello di addestrarsi senza fare affidamento sulla NMS, il che si traduce in una pipeline di distribuzione end-to-end semplificata. Ciò è particolarmente vantaggioso quando si esportano modelli in formati per edge come ONNX o TensorRT, dove le operazioni di post-elaborazione possono introdurre una latenza imprevista.

Link to this sectionPunti di forza e punti deboli#

Il modello vanta eccezionali compromessi tra velocità e precisione, specialmente nelle varianti più piccole (N e S). La sua latenza minima lo rende ideale per ambienti edge ad alta velocità. Tuttavia, sebbene YOLOv10 eccella nella velocità di rilevamento pura, rimane un modello specializzato solo per il rilevamento. I team che richiedono segmentazione di istanze o stima della posa dovranno rivolgersi a framework più versatili.

Scopri di più su YOLOv10

Link to this sectionRTDETRv2: Affinare il Detection Transformer#

Basandosi sul Real-Time Detection Transformer originale, RTDETRv2 incorpora un "bag of freebies" per migliorare la sua linea di base, dimostrando che i transformer possono competere con le CNN in scenari in tempo reale.

Link to this sectionSpecifiche tecniche#

Link to this sectionArchitettura e metodologie#

RTDETRv2 utilizza un'architettura ibrida, combinando una dorsale Convolutional Neural Network (CNN) per l'estrazione delle caratteristiche visive con un encoder-decoder Transformer per una comprensione completa della scena. Il meccanismo di self-attention del transformer consente al modello di visualizzare l'immagine globalmente, rendendolo altamente efficace nel gestire scene complesse, oggetti sovrapposti e folle dense.

Link to this sectionPunti di forza e punti deboli#

L'architettura del transformer offre un'eccellente precisione, in particolare su scale di parametri più ampie, ed emette nativamente i rilevamenti finali senza NMS. Tuttavia, questo ha un costo. I modelli Transformer richiedono tradizionalmente molta più memoria CUDA durante l'addestramento e possono essere più lenti a convergere rispetto alle architetture puramente CNN. Sebbene RTDETRv2 abbia migliorato le velocità di inferenza, generalmente consuma più memoria rispetto alle varianti YOLO leggere.

Scopri di più su RTDETRv2

Link to this sectionConfronto delle Prestazioni#

La valutazione delle metriche di prestazione fornisce un quadro più chiaro di dove eccelle ogni modello. La seguente tabella evidenzia le loro capacità sul dataset COCO:

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analizzando i dati, YOLOv10 mantiene un vantaggio netto nell'efficienza dei parametri e nella velocità di inferenza TensorRT su dimensioni comparabili. RTDETRv2-x eguaglia il massiccio YOLOv10x in precisione, ma richiede quasi 20 milioni di parametri in più e FLOP significativamente più elevati.

Link to this sectionCasi d'uso e raccomandazioni#

Scegliere tra YOLOv10 e RT-DETR dipende dai requisiti specifici del tuo progetto, dai vincoli di implementazione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere YOLOv10#

YOLOv10 è un'ottima scelta per:

  • Rilevamento in tempo reale senza NMS: Applicazioni che traggono vantaggio dal rilevamento end-to-end senza Non-Maximum Suppression, riducendo la complessità di distribuzione.
  • Compromessi bilanciati tra velocità e precisione: Progetti che richiedono un ottimo equilibrio tra velocità di inferenza e precisione di rilevamento su diverse scale di modello.
  • Applicazioni a latenza costante: Scenari di distribuzione in cui tempi di inferenza prevedibili sono fondamentali, come nella robotica o nei sistemi autonomi.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è consigliato per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl vantaggio di Ultralytics: Ecosistema e Innovazione#

Mentre YOLOv10 e RTDETRv2 offrono solide capacità di rilevamento, scegliere un modello riguarda spesso l'ecosistema software circostante. La Piattaforma Ultralytics fornisce un'interfaccia fluida e unificata che astrae le complessità del deep learning.

Link to this sectionIl nuovo standard: Ultralytics YOLO26#

Per gli sviluppatori che cercano le migliori prestazioni assolute, Ultralytics YOLO26 rappresenta il culmine dei recenti progressi architettonici. Rilasciato all'inizio del 2026, YOLO26 eredita il Design End-to-End Senza NMS introdotto da YOLOv10, eliminando completamente la post-elaborazione NMS per un'implementazione più rapida e semplice.

Perché scegliere YOLO26?

YOLO26 porta le innovazioni dell'addestramento LLM nella computer vision tramite l'Ottimizzatore MuSGD (un ibrido di SGD e Muon), ottenendo un addestramento più stabile e una convergenza più rapida. Vanta inoltre fino al 43% di Inferenza CPU Più Veloce, rendendolo la scelta principale per l'edge computing.

Inoltre, YOLO26 introduce ProgLoss + STAL per notevoli miglioramenti nel riconoscimento di piccoli oggetti e, a differenza dello specializzato YOLOv10, offre estrema versatilità. Supporta nativamente rilevamento di oggetti, segmentazione, posa e oriented bounding boxes (OBB) con miglioramenti specifici per attività come la perdita di segmentazione semantica e la Residual Log-Likelihood Estimation (RLE) per la posa. Inoltre, la rimozione della Distribution Focal Loss (DFL) garantisce un'esportazione semplificata e una migliore compatibilità con i dispositivi a basso consumo.

Scopri di più su YOLO26

Link to this sectionFacilità d'uso ed efficienza nell'addestramento#

Che tu stia sperimentando con modelli di vecchia generazione come Ultralytics YOLO11 o con il rivoluzionario YOLO26, l'API Python semplificata garantisce un minor utilizzo di memoria durante l'addestramento e flussi di lavoro estremamente rapidi.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

L'ecosistema ben curato fornisce strumenti per una facile ottimizzazione degli iperparametri e si integra perfettamente con ampie soluzioni di tracciamento e opzioni di implementazione del modello.

Link to this sectionConclusione#

Sia YOLOv10 che RTDETRv2 rappresentano traguardi formidabili nella ricerca del rilevamento di oggetti senza NMS. RTDETRv2 dimostra che i transformer possono ottenere latenza in tempo reale con un'eccellente comprensione del contesto globale, sebbene con maggiori requisiti di memoria. YOLOv10 fornisce un'alternativa CNN altamente efficiente e veloce, pensata per attività di rilevamento con risorse limitate.

Tuttavia, per prestazioni bilanciate, versatilità multi-attività e l'ecosistema più maturo, gli sviluppatori sono caldamente incoraggiati a sfruttare Ultralytics YOLO26. Esso sposa magnificamente le innovazioni architettoniche dei suoi predecessori con gli strumenti robusti e facili da usare che rendono l'implementazione della vision AI una realtà senza intoppi.

Commenti