Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs. RTDETRv2: Un approfondimento tecnico sulla moderna object detection#

Il panorama della object detection in tempo reale ha subito un cambio di paradigma negli ultimi anni. Due filosofie architettoniche distinte sono emerse per dominare il campo: le reti neurali convoluzionali (CNN) altamente ottimizzate e i Detection Transformers (DETR) in tempo reale. A rappresentare l'apice di questi due approcci ci sono YOLOv9 e RTDETRv2.

Questa guida completa confronta questi due potenti modelli, analizzando le loro innovazioni architettoniche, le metriche di performance e gli scenari di implementazione ideali per aiutarti a scegliere il modello giusto per la tua pipeline di computer vision.

Link to this sectionSintesi esecutiva#

Entrambi i modelli ottengono risultati all'avanguardia, ma rispondono a vincoli di implementazione ed ecosistemi di sviluppo leggermente diversi.

  • Scegli YOLOv9 se: Hai bisogno di un utilizzo dei parametri altamente efficiente e di un'inferenza rapida su dispositivi edge. YOLOv9 spinge i limiti teorici dell'efficienza delle CNN, rendendolo ideale per ambienti in cui le risorse computazionali sono rigorosamente limitate.
  • Scegli RTDETRv2 se: Richiedi la comprensione contestuale sfumata che i Transformer forniscono, in particolare in scene con gravi occlusioni o complesse relazioni tra oggetti, e se disponi dell'hardware per supportare un'architettura leggermente più pesante.
  • Scegli YOLO26 (Consigliato) se: Vuoi il meglio di entrambi i mondi. Essendo la nuova generazione disponibile sulla Ultralytics Platform, YOLO26 presenta un design nativo End-to-End NMS-Free (simile ai modelli DETR ma molto più veloce), eliminando i colli di bottiglia della post-elaborazione e offrendo un'inferenza su CPU fino al 43% più veloce rispetto alle generazioni precedenti.

Link to this sectionSpecifiche tecniche e paternità#

Comprendere le origini e l'intento progettuale di questi modelli fornisce un contesto cruciale per le loro scelte architettoniche.

Link to this sectionYOLOv9#

Autori: Chien-Yao Wang e Hong-Yuan Mark Liao
Organizzazione: Institute of Information Science, Academia Sinica
Data: 21-02-2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

Scopri di più su YOLOv9

Link to this sectionRTDETRv2#

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu
Data: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Scopri di più su RTDETR

Link to this sectionInnovazioni architettoniche#

Link to this sectionYOLOv9: Risolvere il collo di bottiglia dell'informazione#

Ultralytics YOLOv9 introduce due importanti innovazioni progettate per contrastare la perdita di informazioni man mano che i dati passano attraverso le reti neurali profonde:

  1. Programmable Gradient Information (PGI): Questo framework di supervisione ausiliaria garantisce che vengano generati gradienti affidabili per aggiornare i pesi della rete, preservando informazioni cruciali sulle caratteristiche anche negli strati più profondi della rete.
  2. Generalized Efficient Layer Aggregation Network (GELAN): Una nuova architettura che combina i punti di forza di CSPNet e ELAN. GELAN ottimizza l'efficienza dei parametri, consentendo a YOLOv9 di ottenere una maggiore precisione con meno FLOP rispetto alle CNN tradizionali.

Link to this sectionRTDETRv2: Migliorare i Transformer in tempo reale#

Basandosi sul successo dell'originale RT-DETR, RTDETRv2 utilizza un'architettura basata su Transformer che evita intrinsecamente la necessità della Non-Maximum Suppression (NMS). I suoi miglioramenti includono:

  1. Strategia Bag-of-Freebies: L'iterazione v2 incorpora tecniche di addestramento avanzate e aumentazioni dei dati che aumentano significativamente la precisione senza aggiungere alcun carico alla latenza di inferenza.
  2. Efficient Hybrid Encoder: Elaborando caratteristiche multi-scala attraverso un meccanismo di attenzione disaccoppiato intra-scala e cross-scala, RTDETRv2 gestisce in modo efficiente l'elevato costo computazionale tipico dei Vision Transformer.
Rilevamento nativo End-to-End

Mentre RTDETRv2 sfrutta i Transformer per il rilevamento senza NMS, la nuova architettura YOLO26 ottiene questo risultato nativamente all'interno di una struttura CNN altamente ottimizzata, fornendo la stessa implementazione semplificata ma con velocità di inferenza edge nettamente superiori.

Link to this sectionConfronto delle Prestazioni#

Quando si valutano i modelli per la produzione, il compromesso tra precisione e requisiti computazionali è fondamentale. La tabella sottostante illustra le prestazioni di varie dimensioni di modelli attraverso benchmark standard.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionAnalisi#

Come mostrano i dati, YOLOv9 mantiene un vantaggio rigoroso nell'efficienza dei parametri. Il modello YOLOv9c raggiunge un impressionante 53.0 mAP con soli 25.3M di parametri, rendendolo incredibilmente leggero.

Al contrario, RTDETRv2 fornisce una forte concorrenza nelle categorie di modelli medi e grandi. Tuttavia, questo avviene a costo di un numero maggiore di parametri e di FLOP significativamente più elevati, tipici dei modelli Transformer. Questa differenza architettonica si traduce anche nell'utilizzo della memoria: i modelli YOLO richiedono tipicamente molta meno memoria CUDA durante l'addestramento e l'inferenza rispetto alle loro controparti Transformer.

Link to this sectionIl vantaggio Ultralytics: Ecosistema e versatilità#

Sebbene le metriche architettoniche pure siano importanti, l'ecosistema software determina spesso il successo di un progetto AI. Accedere a questi modelli avanzati tramite la API Python di Ultralytics offre vantaggi senza eguali.

Link to this sectionAddestramento e implementazione semplificati#

L'addestramento di un Detection Transformer richiede solitamente file di configurazione complessi e GPU di fascia alta. Utilizzando il framework Ultralytics, gli sviluppatori possono addestrare sia i modelli YOLOv9 che RTDETR con una sintassi identica e semplice, beneficiando di pipeline di addestramento altamente efficienti e pesi pre-addestrati prontamente disponibili.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Link to this sectionVersatilità dei compiti senza pari#

Una limitazione importante dei modelli specializzati come RTDETRv2 è il loro stretto focus sul rilevamento tramite bounding box. Al contrario, il più ampio ecosistema Ultralytics, che comprende modelli come YOLO11 e YOLOv8, supporta un'ampia gamma di attività di computer vision. Ciò include l'instance segmentation perfetta a livello di pixel, la pose estimation scheletrica, la classificazione dell'intera immagine e il rilevamento tramite Oriented Bounding Box (OBB) per le immagini aeree.

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionAnalitica edge ad alta velocità#

Per ambienti di vendita al dettaglio o linee di produzione che richiedono il riconoscimento dei prodotti in tempo reale su dispositivi edge, YOLOv9 è la scelta superiore. La sua architettura GELAN garantisce un throughput elevato su hardware vincolato come la serie NVIDIA Jetson, consentendo il controllo qualità automatizzato senza ritardi significativi.

Link to this sectionAnalisi di scene complesse#

In scenari come il monitoraggio di folle dense o complessi incroci stradali in cui gli oggetti si oscurano frequentemente a vicenda, i meccanismi di attenzione globale di RTDETRv2 eccellono. La capacità del modello di ragionare nativamente sull'intero contesto dell'immagine gli consente di mantenere un tracking e un rilevamento robusti anche quando gli oggetti sono parzialmente nascosti.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra YOLOv9 e RT-DETR dipende dai requisiti specifici del tuo progetto, dai vincoli di implementazione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere YOLOv9#

YOLOv9 è una scelta solida per:

  • Ricerca sul collo di bottiglia dell'informazione: Progetti accademici che studiano le architetture Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).
  • Studi sull'ottimizzazione del flusso di gradienti: Ricerca focalizzata sulla comprensione e sulla mitigazione della perdita di informazioni negli strati profondi della rete durante l'addestramento.
  • Benchmarking del rilevamento ad alta precisione: Scenari in cui le forti prestazioni del benchmark COCO di YOLOv9 sono necessarie come punto di riferimento per i confronti architettonici.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è consigliato per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl futuro: Arriva YOLO26#

Sebbene YOLOv9 e RTDETRv2 rappresentino traguardi enormi, il campo della computer vision si muove rapidamente. Per gli sviluppatori che desiderano iniziare nuovi progetti, YOLO26 è la soluzione all'avanguardia consigliata.

Rilasciato nel 2026, YOLO26 incorpora le migliori caratteristiche sia delle CNN che dei DETR. È dotato di un design nativo End-to-End NMS-Free, che elimina completamente la latenza di post-elaborazione, una tecnica pionieristica introdotta in YOLOv10. Inoltre, YOLO26 rimuove la Distribution Focal Loss (DFL) per una migliore compatibilità edge e introduce il rivoluzionario MuSGD Optimizer. Ispirato all'addestramento dei modelli linguistici di grandi dimensioni (in particolare Kimi K2 di Moonshot AI), questo ottimizzatore ibrido garantisce una stabilità di addestramento senza precedenti e una convergenza più rapida.

Insieme a funzioni di perdita migliorate come ProgLoss e STAL per un eccezionale riconoscimento di piccoli oggetti, YOLO26 offre fino al 43% di inferenza CPU più veloce, consolidando la sua posizione come modello definitivo per le moderne implementazioni AI.

Commenti