YOLO11 vs RTDETRv2: Un confronto tecnico tra rivelatori in tempo reale

La scelta dell'architettura ottimale per il rilevamento degli oggetti richiede di navigare in un complesso panorama di compromessi tra velocità di inferenza, accuratezza del rilevamento ed efficienza delle risorse computazionali. Questa analisi fornisce un confronto tecnico completo tra Ultralytics YOLO11, l'ultima iterazione del rilevatore standard del settore basato su CNN, e RTDETRv2, un trasformatore di rilevamento in tempo reale ad alte prestazioni.

Mentre RTDETRv2 dimostra il potenziale delle architetture a trasformatori per compiti di alta precisione, YOLO11 offre in genere un equilibrio superiore per l'impiego pratico, offrendo velocità di inferenza più elevate, un ingombro di memoria significativamente inferiore e un ecosistema di sviluppatori più solido.

Ultralytics YOLO11: lo standard per la visione artificiale in tempo reale

Ultralytics YOLO11 rappresenta il culmine di anni di ricerca sull'efficienza delle reti neurali convoluzionali (CNN). Progettato per essere lo strumento definitivo per le applicazioni di computer vision del mondo reale, privilegia l'efficienza senza compromettere l'accuratezza dello stato dell'arte.

Autori: Glenn Jocher, Jing Qiu
Organizzazione:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11

Architettura e punti di forza

YOLO11 impiega una raffinata architettura a singolo stadio, priva di ancoraggi. Integra moduli avanzati di estrazione delle caratteristiche, tra cui blocchi C3k2 ottimizzati e moduli SPPF (Spatial Pyramid Pooling - Fast), per acquisire caratteristiche a varie scale.

Versatilità: A differenza di molti modelli specializzati, YOLO11 supporta un'ampia gamma di attività di computer vision all'interno di un unico framework, tra cui il rilevamento di oggetti, la segmentazione di istanze, la stima della posa, le bounding box orientate (OBB) e la classificazione delle immagini.
Efficienza della memoria: YOLO11 è progettato per funzionare in modo efficiente su hardware che vanno dai dispositivi edge embedded ai server di livello enterprise. Richiede una quantità di memoria CUDA significativamente inferiore durante l'addestramento rispetto alle alternative basate su trasformatori.
Integrazione dell'ecosistema: Il modello è supportato dall'ecosistemaUltralytics , che fornisce un accesso continuo a strumenti come Ultralytics HUB per la gestione del modello e Ultralytics Explorer per l'analisi del set di dati.

Scopri di più su YOLO11

RTDETRv2: Precisione con trasformatore

RTDETRv2 è un trasformatore di rilevamento in tempo realeRT-DETR) che sfrutta la potenza dei trasformatori di visione (ViT) per ottenere un'elevata precisione su set di dati di riferimento. Il suo scopo è quello di risolvere i problemi di latenza tradizionalmente associati ai modelli di tipo DETR.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu
Data: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR

Architettura e caratteristiche

RTDETRv2 utilizza un'architettura ibrida che combina un backbone CNN con un efficiente encoder-decoder trasformatore. Il meccanismo di autoattenzione consente al modello di catturare il contesto globale, il che è vantaggioso per le scene con relazioni complesse tra gli oggetti.

Contesto globale: L'architettura del trasformatore eccelle nel distinguere gli oggetti in ambienti affollati, dove le caratteristiche locali potrebbero essere ambigue.
Intensità delle risorse: Pur essendo ottimizzati per la velocità, i livelli di trasformazione richiedono intrinsecamente più calcolo e memoria, in particolare per gli input ad alta risoluzione.
Focus: RTDETRv2 è principalmente un'architettura incentrata sul rilevamento, priva del supporto multi-task nativo presente nella famiglia YOLO .

Scopri di più su RTDETRv2

Analisi delle prestazioni: Velocità, precisione ed efficienza

Nel confronto tra YOLO11 e RTDETRv2, la distinzione sta nel compromesso architettonico tra le metriche di precisione pura e l'efficienza operativa.

Considerazioni sull'hardware

I modelli basati su trasformatori come RTDETRv2 richiedono spesso potenti GPU per un addestramento e un'inferenza efficaci. Al contrario, i modelli basati su CNN come YOLO11 sono altamente ottimizzati per una gamma più ampia di hardware, comprese le CPU e i dispositivi di intelligenza artificiale come il Raspberry Pi.

Confronto quantitativo

La tabella seguente illustra le metriche delle prestazioni sul set di datiCOCO . Mentre RTDETRv2 mostra ottimi punteggi di mAP , YOLO11 offre un'accuratezza competitiva con una velocità di inferenza significativamente maggiore, soprattutto sulla CPU.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analisi dei risultati

Velocità di inferenza: YOLO11 domina in velocità. Ad esempio, YOLO11x raggiunge un'accuratezza maggiore (54,7 mAP) rispetto a RTDETRv2-x (54,3 mAP), mentre funziona circa il 25% più velocemente su una GPU T4 (11,3 ms contro 15,03 ms).
Efficienza dei parametri: I modelli YOLO11 richiedono generalmente meno parametri e FLOP per raggiungere livelli di precisione simili. YOLO11l raggiunge gli stessi 53,4 mAP di RTDETRv2-l, ma lo fa con quasi la metà dei FLOP (86,9B contro 136B).
PrestazioniCPU : Le operazioni di trasformazione in RTDETRv2 sono computazionalmente costose sulle CPU. YOLO11 rimane la scelta preferita per le implementazioni senza GPU , in quanto offre frame rate validi su processori standard.

Flusso di lavoro e usabilità

Per gli sviluppatori, il "costo" di un modello comprende il tempo di integrazione, la stabilità della formazione e la facilità di implementazione.

Facilità d'uso ed ecosistema

L'APIPython di Ultralytics astrae i complessi cicli di formazione in poche righe di codice.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Al contrario, sebbene RTDETRv2 sia un potente strumento di ricerca, spesso richiede una configurazione più manuale e una conoscenza più approfondita della base di codice sottostante per adattarsi a set di dati personalizzati o per esportare in formati specifici, come ad esempio ONNX o TensorRT.

Efficienza della formazione

L'addestramento dei modelli di trasformatori richiede in genere una memoria GPU (VRAM) significativamente più elevata. Ciò può costringere gli sviluppatori a utilizzare batch di dimensioni inferiori o a noleggiare hardware cloud più costoso. L'architettura CNN di YOLO11 è efficiente dal punto di vista della memoria e consente di ottenere batch di dimensioni maggiori e una convergenza più rapida su GPU di livello consumer.

Casi d'uso ideali

Quando scegliere YOLO11

Distribuzione Edge in tempo reale: Quando si distribuisce su dispositivi come NVIDIA Jetson, Raspberry Pi o telefoni cellulari dove le risorse di calcolo sono limitate.
Diversi compiti di visione: Se il vostro progetto richiede la segmentazione o la stima della posa oltre al rilevamento.
Sviluppo rapido: Quando il time-to-market è fondamentale, l'ampia documentazione e il supporto della comunità di Ultralytics accelerano il ciclo di vita.
Analitica video: Per l'elaborazione ad alta velocità in applicazioni come il monitoraggio del traffico o l'analisi dello sport.

Quando scegliere RTDETRv2

Ricerca accademica: Per lo studio delle proprietà dei trasformatori della visione e dei meccanismi di attenzione.
Elaborazione lato server: Quando la potenza GPU è illimitata e l'unico criterio di valutazione è la massima precisione su benchmark specifici, indipendentemente dalla latenza.
Analisi statica delle immagini: Scenari in cui il tempo di elaborazione non è un vincolo, come ad esempio l'analisi offline di immagini mediche.

Conclusione

Mentre RTDETRv2 mostra i progressi accademici delle architetture di trasformazione nella visione, Ultralytics YOLO11 rimane la scelta pragmatica per la maggior parte delle applicazioni reali. Il suo superiore rapporto velocità-precisione, i minori requisiti di memoria e la capacità di gestire molteplici compiti di visione lo rendono uno strumento versatile e potente. Insieme a un ecosistema maturo e ben curato, YOLO11 consente agli sviluppatori di passare dall'ideazione alla produzione con un attrito minimo.

Esplora altri modelli

Il confronto dei modelli aiuta a selezionare lo strumento giusto per i vostri vincoli specifici. Per ulteriori confronti, consultate la documentazione di Ultralytics :