Vai al contenuto

YOLO11 vs RTDETRv2: Un confronto tecnico dei rivelatori in tempo reale

La selezione dell'architettura di object detection ottimale richiede la gestione di un panorama complesso di compromessi tra velocità di inferenza, accuratezza del detect ed efficienza delle risorse computazionali. Questa analisi fornisce un confronto tecnico completo tra Ultralytics YOLO11, l'ultima iterazione del detector basato su CNN standard del settore, e RTDETRv2, un Real-Time Detection Transformer ad alte prestazioni.

Sebbene RTDETRv2 dimostri il potenziale delle architetture transformer per attività ad alta precisione, YOLO11 offre in genere un equilibrio superiore per l'implementazione pratica, offrendo velocità di inferenza più elevate, footprint di memoria significativamente inferiori e un ecosistema di sviluppatori più solido.

Ultralytics YOLO11: Lo standard per la computer vision in tempo reale

Ultralytics YOLO11 rappresenta il culmine di anni di ricerca sulle reti neurali convoluzionali (CNN) efficienti. Progettato per essere lo strumento definitivo per le applicazioni di computer vision nel mondo reale, dà priorità all'efficienza senza compromettere l'accuratezza all'avanguardia.

Autori: Glenn Jocher, Jing Qiu
Organizzazione:Ultralytics
Data: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Documentazione:https://docs.ultralytics.com/models/yolo11/

Architettura e punti di forza

YOLO11 impiega un'architettura single-stage, anchor-free, perfezionata. Integra moduli avanzati di estrazione delle caratteristiche, tra cui blocchi C3k2 ottimizzati e moduli SPPF (Spatial Pyramid Pooling - Fast), per acquisire le caratteristiche a varie scale.

Scopri di più su YOLO11

RTDETRv2: Accuratezza potenziata dai Transformer

RTDETRv2 è un Real-Time Detection Transformer (RT-DETR) che sfrutta la potenza dei Vision Transformers (ViT) per ottenere un'elevata accuratezza sui dataset di riferimento. Mira a risolvere i problemi di latenza tradizionalmente associati ai modelli simili a DETR.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu
Data: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Documentazione:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Architettura e caratteristiche

RTDETRv2 utilizza un'architettura ibrida che combina un backbone CNN con un efficiente encoder-decoder transformer. Il meccanismo di self-attention consente al modello di catturare il contesto globale, il che è vantaggioso per le scene con relazioni complesse tra gli oggetti.

  • Contesto globale: L'architettura transformer eccelle nel distinguere gli oggetti in ambienti affollati dove le funzionalità locali potrebbero essere ambigue.
  • Intensità di risorse: Pur essendo ottimizzati per la velocità, i livelli transformer richiedono intrinsecamente più calcoli e memoria, in particolare per gli input ad alta risoluzione.
  • Focus: RTDETRv2 è principalmente un'architettura focalizzata sul rilevamento, priva del supporto multi-task nativo presente nella famiglia YOLO.

Scopri di più su RTDETRv2

Analisi delle prestazioni: Velocità, precisione ed efficienza

Quando si confrontano YOLO11 e RTDETRv2, la distinzione risiede nel compromesso architetturale tra metriche di accuratezza pura ed efficienza operativa.

Considerazioni sull'hardware

I modelli basati su Transformer come RT-DETRv2 spesso richiedono GPU potenti per un addestramento e un'inferenza efficaci. Al contrario, i modelli basati su CNN come YOLO11 sono altamente ottimizzati per una gamma più ampia di hardware, tra cui CPU e dispositivi edge AI come Raspberry Pi.

Confronto quantitativo

La tabella seguente illustra le metriche di performance sul dataset COCO. Mentre RTDETRv2 mostra forti punteggi mAP, YOLO11 fornisce un'accuratezza competitiva con velocità di inferenza significativamente più elevate, specialmente su CPU.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analisi dei risultati

  1. Velocità di inferenza: YOLO11 domina in velocità. Ad esempio, YOLO11x raggiunge una maggiore accuratezza (54.7 mAP) rispetto a RTDETRv2-x (54.3 mAP) pur eseguendo circa il 25% più velocemente su una GPU T4 (11.3ms vs 15.03ms).
  2. Efficienza dei parametri: I modelli YOLO11 generalmente richiedono meno parametri e FLOP per raggiungere livelli di accuratezza simili. YOLO11l raggiunge lo stesso 53.4 di mAP di RTDETRv2-l, ma lo fa con quasi la metà dei FLOP (86.9B contro 136B).
  3. Prestazioni della CPU: Le operazioni transformer in RTDETRv2 sono computazionalmente costose sulle CPU. YOLO11 rimane la scelta preferita per i deployment non-GPU, offrendo frame rate validi sui processori standard.

Flusso di lavoro e usabilità

Per gli sviluppatori, il "costo" di un modello include il tempo di integrazione, la stabilità del training e la facilità di implementazione.

Facilità d'uso ed ecosistema

L'API Python di Ultralytics astrae i complessi cicli di addestramento in poche righe di codice.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Al contrario, sebbene RTDETRv2 sia un potente strumento di ricerca, spesso richiede una configurazione più manuale e una conoscenza più approfondita della codebase sottostante per adattarsi a dataset personalizzati o per l'esportazione in formati specifici come ONNX o TensorRT.

Efficienza dell'addestramento

L'addestramento di modelli transformer in genere richiede una quantità significativamente maggiore di memoria GPU (VRAM). Ciò può costringere gli sviluppatori a utilizzare batch sizes più piccoli o a noleggiare hardware cloud più costoso. L'architettura CNN di YOLO11 è efficiente in termini di memoria, consentendo batch sizes più grandi e una convergenza più rapida su GPU di livello consumer.

Casi d'uso ideali

Quando scegliere YOLO11

  • Distribuzione Edge in tempo reale: Quando si esegue la distribuzione su dispositivi come NVIDIA Jetson, Raspberry Pi o telefoni cellulari dove le risorse di calcolo sono limitate.
  • Task di visione diversi: Se il tuo progetto richiede la segmentation o la pose estimation insieme alla detection.
  • Sviluppo Rapido: Quando il time-to-market è fondamentale, l'ampia documentazione e il supporto della community di Ultralytics accelerano il ciclo di vita.
  • Analisi video: Per l'elaborazione ad alto FPS in applicazioni come il monitoraggio del traffico o l'analisi sportiva.

Quando scegliere RTDETRv2

  • Ricerca Accademica: Per studiare le proprietà dei transformer di visione e dei meccanismi di attenzione.
  • Elaborazione lato server: Quando è disponibile una potenza GPU illimitata e la massima accuratezza assoluta su specifici benchmark, indipendentemente dalla latenza, è l'unica metrica.
  • Analisi statica delle immagini: Scenari in cui il tempo di elaborazione non è un vincolo, come l'analisi offline di immagini mediche.

Conclusione

Mentre RTDETRv2 mostra il progresso accademico delle architetture transformer nella visione artificiale, Ultralytics YOLO11 rimane la scelta pragmatica per la stragrande maggioranza delle applicazioni del mondo reale. Il suo rapporto velocità-precisione superiore, i requisiti di memoria inferiori e la capacità di gestire più attività di visione lo rendono uno strumento versatile e potente. Insieme a un ecosistema maturo e ben mantenuto, YOLO11 consente agli sviluppatori di passare dal concetto alla produzione con il minimo attrito.

Esplora altri modelli

Il confronto tra i modelli aiuta a selezionare lo strumento giusto per i tuoi vincoli specifici. Esplora altri confronti nella documentazione di Ultralytics:


Commenti