Link to this sectionRTDETRv2 contro DAMO-YOLO#
Il panorama della computer vision è in continua evoluzione, con ricercatori e ingegneri che si impegnano a creare modelli che bilancino perfettamente velocità, accuratezza ed efficienza. Due architetture di rilievo che hanno fatto molto parlare di sé in questo ambito sono RTDETRv2, sviluppata da Baidu, e DAMO-YOLO, creata da Alibaba Group. Entrambi i modelli spingono i confini del rilevamento oggetti in tempo reale, ma adottano filosofie architettoniche fondamentalmente diverse per ottenere i loro impressionanti risultati.
In questo confronto tecnico, approfondiremo le loro architetture, le metodologie di addestramento e le capacità di distribuzione nel mondo reale. Esploreremo anche come questi modelli si posizionano rispetto all'ecosistema più ampio, in particolare l'ottimizzata Piattaforma Ultralytics e l'architettura all'avanguardia YOLO26.
Link to this sectionInnovazioni architettoniche#
Comprendere i meccanismi fondamentali di questi modelli è cruciale per gli ingegneri di machine learning incaricati di selezionare lo strumento giusto per gli ambienti di produzione.
Link to this sectionRTDETRv2: L'approccio Transformer#
Basandosi sul successo del RT-DETR originale, RTDETRv2 utilizza un encoder ibrido e un decoder transformer. Questo design consente al modello di elaborare il contesto globale in modo estremamente efficace, rendendolo eccezionalmente bravo a distinguere tra oggetti sovrapposti in scene dense. Il vantaggio più significativo di questa architettura è il suo design nativo NMS-free (senza Non-Maximum Suppression). Eliminando la fase di post-elaborazione NMS, RTDETRv2 semplifica la pipeline di inferenza e garantisce una latenza più stabile su diverse configurazioni hardware.
Link to this sectionDAMO-YOLO: Avanzare nell'efficienza delle CNN#
DAMO-YOLO, d'altra parte, rimane radicato nella fortunata linea YOLO basata su CNN, ma introduce diversi miglioramenti rivoluzionari. Sfrutta la ricerca sull'architettura neurale (NAS) per ottimizzare il proprio backbone, garantendo la massima efficienza nell'estrazione delle caratteristiche. Inoltre, incorpora un efficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network) e un design ZeroHead, accanto a tecniche di AlignedOTA e miglioramento della distillazione. Queste innovazioni consentono a DAMO-YOLO di raggiungere velocità di inferenza rapide pur mantenendo un punteggio mAPval altamente competitivo.
Mentre RTDETRv2 si concentra sullo sfruttamento dei meccanismi di attenzione per la comprensione delle caratteristiche globali senza NMS, DAMO-YOLO massimizza l'efficienza delle classiche CNN tramite NAS e distillazione avanzata, richiedendo una post-elaborazione standard ma offrendo distinti vantaggi di velocità su determinati hardware.
Link to this sectionConfronto tra prestazioni e metriche#
Quando valuti i modelli per la distribuzione, metriche di performance come la mean Average Precision (mAP), la velocità di inferenza e il conteggio dei parametri sono fondamentali. Di seguito è riportato un confronto dettagliato delle due famiglie di modelli.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Link to this sectionAnalisi dei risultati#
Come si vede nella tabella, il RTDETRv2-x raggiunge la massima precisione con un mAPval di 54.3, mostrando la potenza dell'architettura transformer su validazioni complesse come il dataset COCO. Tuttavia, ciò comporta il costo di un numero di parametri (76M) e FLOP significativamente più elevati.
Al contrario, DAMO-YOLOt (Tiny) è eccezionalmente leggero, richiedendo solo 8.5M di parametri, rendendolo un'opzione incredibilmente veloce per ambienti in cui la memoria CUDA è severamente limitata. DAMO-YOLO fornisce generalmente un compromesso favorevole tra velocità e precisione per dispositivi edge datati.
Link to this sectionEcosistema, usabilità e il vantaggio Ultralytics#
Sebbene repository indipendenti come il GitHub ufficiale di RT-DETR e il GitHub di DAMO-YOLO offrano il codice grezzo per addestrare questi modelli, integrarli nelle pipeline di produzione richiede spesso molto codice boilerplate e ottimizzazione manuale.
È qui che l'ecosistema Ultralytics semplifica drasticamente l'esperienza dello sviluppatore. Ultralytics integra modelli come RTDETRv2 direttamente nella sua API unificata, consentendo agli utenti di addestrare, validare ed esportare modelli con una sola riga di codice. Inoltre, i modelli Ultralytics sono noti per i loro requisiti di memoria minimi durante l'addestramento rispetto ai pesanti repository stand-alone basati su transformer.
Link to this sectionEsempio di codice: integrazione perfetta#
Ecco quanto è facile sfruttare la libreria Python di Ultralytics per eseguire l'inferenza. L'API rimane coerente sia che tu stia utilizzando un modello transformer o una CNN all'avanguardia.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()Utilizzando l'API di Ultralytics, puoi esportare i tuoi modelli addestrati in formati come TensorRT, ONNX o CoreML con un semplice comando model.export(format="engine"), riducendo drasticamente l'attrito durante la distribuzione.
Link to this sectionCasi d'uso ideali#
La scelta tra queste architetture dipende interamente dai requisiti specifici del tuo progetto:
- RTDETRv2 eccelle nell'elaborazione lato server dove la VRAM è abbondante. La sua consapevolezza del contesto globale è perfetta per l'imaging medico e l'analisi di folle dense dove le occlusioni sono frequenti.
- DAMO-YOLO è altamente adatto per applicazioni IoT embedded e linee di ispezione industriale in rapido movimento, dove un basso numero di parametri e un elevato FPS sono requisiti rigorosi.
Link to this sectionIl futuro: Ultralytics YOLO26#
Sebbene sia RTDETRv2 che DAMO-YOLO abbiano i loro meriti, il campo della computer vision avanza rapidamente. Per i nuovi progetti, l'ultimo Ultralytics YOLO26 rappresenta la sintesi definitiva di velocità, accuratezza ed esperienza per lo sviluppatore.
YOLO26 adotta un Design End-to-End NMS-Free, catturando il beneficio principale dei transformer senza l'enorme carico computazionale. Incorpora l'innovativo ottimizzatore MuSGD—ispirato all'addestramento di Large Language Models—per una convergenza stabile e rapida. Inoltre, con la rimozione di DFL (Distribution Focal Loss rimossa per un'esportazione semplificata e una migliore compatibilità con dispositivi edge/a basso consumo), YOLO26 raggiunge un'inferenza CPU fino al 43% più veloce, rendendolo il campione indiscusso per l'edge computing. Inoltre, ProgLoss + STAL fornisce funzioni di perdita migliorate con notevoli miglioramenti nel riconoscimento di piccoli oggetti, critico per IoT, robotica e immagini aeree.
A differenza dei modelli limitati strettamente ai bounding box, la famiglia YOLO26 offre una versatilità senza pari, supportando attività che vanno dalla segmentazione di istanze e stima della posa ai bounding box orientati (OBB), il tutto gestito senza problemi attraverso l'intuitiva Piattaforma Ultralytics.
Esplora YOLO26 sulla Piattaforma
Link to this sectionDettagli del modello e riferimenti#
Link to this sectionRTDETRv2#
- Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
- Organizzazione: Baidu
- Data: 24-07-2024
- Arxiv: 2407.17140
- GitHub: Repository RT-DETR
Link to this sectionDAMO-YOLO#
- Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
- Organizzazione: Alibaba Group
- Data: 23-11-2022
- Arxiv: 2211.15444v2
- GitHub: Repository DAMO-YOLO
Per gli utenti interessati a esplorare altri confronti, dai un'occhiata alle nostre guide su RTDETRv2 contro YOLO11 o DAMO-YOLO contro YOLOv8 per vedere come questi modelli si comportano rispetto alle generazioni precedenti della famiglia Ultralytics.