Vai al contenuto

YOLOv5 . RT-DETRv2: un confronto tecnico tra rilevatori di oggetti in tempo reale

L'evoluzione del rilevamento di oggetti in tempo reale è stata definita da due principali paradigmi architettonici: la YOLO basata su reti neurali convoluzionali (CNN) e i modelli di rilevamento basati su Transformer. Questo confronto esplora le differenze tecniche tra Ultralytics YOLOv5, il rilevatore basato su CNN standard del settore, e RT-DETRv2, una recente iterazione del Real-Time Detection Transformer progettato per sfidare il dominio tradizionale delle CNN.

Entrambi i modelli mirano a risolvere la sfida critica di bilanciare la velocità di inferenza con un'elevata precisione, ma affrontano questo obiettivo utilizzando metodologie fondamentalmente diverse.

Ultralytics YOLOv5: Lo standard industriale

YOLOv5 uno dei modelli di visione artificiale più diffusi a livello globale grazie al suo eccezionale equilibrio tra velocità, precisione e praticità ingegneristica. Rilasciato a metà del 2020 da Ultralytics, ha ridefinito l'usabilità nel campo dell'intelligenza artificiale, rendendo accessibile il rilevamento all'avanguardia sia agli ingegneri che ai ricercatori attraverso una Python senza soluzione di continuità.

Scopri di più su YOLOv5

Architettura e Design

YOLOv5 una struttura CSPDarknet, che integra reti Cross Stage Partial per migliorare il flusso di gradiente e ridurre i costi di calcolo. Il suo collo utilizza una PANet (Path Aggregation Network) per un'efficace aggregazione della piramide delle caratteristiche, garantendo che le caratteristiche di diverse scale siano fuse in modo efficiente.

Le caratteristiche architettoniche principali includono:

  • Rilevamento basato su anchor: utilizza riquadri anchor predefiniti per prevedere la posizione degli oggetti, un metodo collaudato per una localizzazione affidabile.
  • Aumento dei dati mosaico: una tecnica di addestramento che unisce quattro immagini, insegnando al modello a detect in contesti e scale diverse.
  • Attivazione SiLU: funzioni di attivazione più fluide che migliorano la convergenza delle reti neurali profonde rispetto al tradizionale ReLU.

Punti di forza nell'implementazione

YOLOv5 in termini di facilità d'uso. Il suo flusso di lavoro "zero-to-hero" consente agli sviluppatori di passare dal set di dati al modello implementato in pochi minuti. Ultralytics supporta tutto questo con strumenti integrati per l'annotazione dei dati, la formazione cloud e l'esportazione con un solo clic in formati come ONNX, TensorRTe CoreML.

A differenza dei modelli con trasformatori, che possono richiedere molta memoria, YOLOv5 requisiti di memoria significativamente inferiori durante l'addestramento. Questa efficienza gli consente di funzionare su GPU di livello consumer e persino su dispositivi edge come NVIDIA , rendendolo altamente versatile per applicazioni reali che vanno dalla conservazione della fauna selvatica all'analisi dei dati di vendita al dettaglio.

RT-DETRv2: Il Transformer Challenger

RT-DETRv2 Real-Time Detection Transformer versione 2) si basa sul successo dell'originale RT-DETR, con l'obiettivo di portare la precisione dei trasformatori a velocità in tempo reale. Affronta l'elevato costo computazionale tipicamente associato ai Vision Transformer (ViT) ottimizzando la struttura encoder-decoder.

Scopri di più su RT-DETR

Architettura e Design

RT-DETRv2 un'architettura ibrida che combina una struttura CNN (tipicamente ResNet o HGNet) con un efficiente codificatore-decodificatore trasformatore.

  • Codificatore ibrido: separa l'interazione intra-scala e la fusione cross-scala per ridurre il sovraccarico computazionale.
  • Selezione delle queryIoU: migliora l'inizializzazione delle query sugli oggetti dando priorità alle caratteristiche ad alta affidabilità.
  • Senza ancoraggi: prevede direttamente i riquadri di delimitazione senza ancoraggi predefiniti, semplificando teoricamente l'output.
  • NMS: un punto di forza fondamentale è l'eliminazione della Non-Maximum Suppression (NMS), che può ridurre la varianza della latenza nella post-elaborazione.

Considerazioni sulla distribuzione

Sebbene RT-DETRv2 una precisione competitiva, richiede maggiori risorse. L'addestramento dei modelli basati su trasformatori richiede generalmente più GPU e tempi di addestramento più lunghi rispetto alle CNN come YOLOv5. Inoltre, mentre la rimozione di NMS vantaggiosa per la stabilità della latenza, le pesanti moltiplicazioni matriciali nei livelli di attenzione possono essere più lente su hardware meno recenti o dispositivi edge che non dispongono di tensor dedicati.

Confronto delle metriche di performance

La tabella seguente mette a confronto le prestazioni di YOLOv5 RT-DETRv2 set di dati COCO . Mentre RT-DETRv2 un'elevata precisione (mAP), YOLOv5 offre YOLOv5 un rapporto velocità-per-parametro superiore, specialmente su hardware standard.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Bilanciamento delle prestazioni

Sebbene RT-DETRv2 mAP di picco più elevato, occorre notare la differenza significativa in termini di dimensioni e velocità del modello. YOLOv5n funziona quasi 5 volte più velocemente sulle GPU T4 rispetto al RT-DETRv2 più piccolo, rendendolo la scelta migliore per applicazioni edge con risorse estremamente limitate.

Differenze principali e casi d'uso

1. Efficienza della formazione ed ecosistema

Uno dei vantaggi più significativi di Ultralytics YOLOv5 è la sua efficienza di addestramento. La capacità di addestrare efficacemente su set di dati più piccoli con hardware meno potente democratizza l'accesso all'IA. La Ultralytics integrata consente agli utenti di visualizzare le metriche di addestramento, gestire i set di dati e distribuire i modelli senza soluzione di continuità.

Al contrario, l'addestramento RT-DETRv2 richiede RT-DETRv2 più CUDA ed epoche di addestramento prolungate per raggiungere la convergenza, a causa della natura dei meccanismi di attenzione del trasformatore. Per gli sviluppatori che eseguono iterazioni rapide, i cicli di addestramento rapidi di YOLOv5 un importante fattore di aumento della produttività.

2. Versatilità

YOLOv5 non YOLOv5 solo un rilevatore di oggetti. Il Ultralytics ne estende le funzionalità a:

Questa versatilità significa che una singola libreria può alimentare un'intera suite di applicazioni, dall'analisi sportiva all'imaging medico, riducendo la complessità del codice e i costi di manutenzione. RT-DETRv2 concentra principalmente sul rilevamento, con un supporto meno maturo per queste attività ausiliarie in un flusso di lavoro unificato.

3. CPU Edge e CPU

Per l'implementazione su CPU (comuni nelle telecamere IP o nelle funzioni cloud) o dispositivi mobili, l'architettura CNN YOLOv5 è altamente ottimizzata. Supporta l'esportazione in TFLite e CoreML con ampio supporto alla quantizzazione. I modelli Transformer come RT-DETRv2 avere difficoltà con la latenza suGPU a causa di operazioni matriciali complesse che non sono facilmente accelerabili dalle CPU standard.

Raccomandazione: Ultralytics di Ultralytics

Sebbene RT-DETRv2 risultati accademici impressionanti, YOLO Ultralytics offrono una soluzione più olistica per i sistemi di produzione. L'ecosistema ben mantenuto, che garantisce la compatibilità con le ultime Python , i driver hardware e i formati di esportazione, offre tranquillità per i progetti a lungo termine.

Per chi avvierà nuovi progetti nel 2026, consigliamo vivamente di prendere in considerazione Ultralytics .

Perché scegliere YOLO26?

YOLO26 rappresenta l'apice dell'efficienza, combinando le migliori caratteristiche delle CNN e dei Transformers.

  • End-to-end nativo: come RT-DETRv2, YOLO26 è NMS, semplificando le pipeline di implementazione.
  • MuSGD Optimizer: un innovativo ottimizzatore ibrido per una convergenza e una stabilità più rapide.
  • Ottimizzazione dei bordi: progettata specificamente per garantire CPU fino al 43% più veloce rispetto alle generazioni precedenti.
  • Rimozione DFL: funzioni di perdita semplificate per una migliore esportabilità sui dispositivi edge.

Scopri di più su YOLO26

Esempio di codice: Esecuzione di YOLOv5

La semplicità Ultralytics è uno dei motivi principali della sua ampia diffusione. Ecco quanto è facile caricare ed eseguire l'inferenza.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

A titolo di confronto, Ultralytics supporta Ultralytics RT-DETR attraverso la stessa semplice interfaccia:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
for result in results:
    result.show()

Conclusione

Sia YOLOv5 RT-DETRv2 modelli efficaci. RT-DETRv2 uno sguardo sul futuro del rilevamento basato su trasformatori con la sua architettura NMS e l'elevata precisione. Tuttavia, YOLOv5 rimane un punto di forza per l'implementazione pratica e reale, offrendo una velocità senza pari sui dispositivi edge, costi delle risorse inferiori e un ricco ecosistema di strumenti.

Per gli sviluppatori che desiderano il "meglio di entrambi i mondi", ovvero la velocità delle CNN e la praticità dei trasformatori NMS,Ultralytics è la scelta definitiva per il 2026 e oltre.

Risorse Aggiuntive


Commenti