Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs. EfficientDet: Analisi delle architetture di rilevamento in tempo reale#

Selezionare l'architettura di rete neurale ottimale è una scelta determinante per qualsiasi progetto di computer vision. Questo confronto tecnico completo analizza due modelli influenti di object detection: RTDETRv2, un rilevatore basato su Transformer all'avanguardia, ed EfficientDet, una rete neurale convoluzionale altamente scalabile. Valuteremo le loro distinte architetture, metriche di performance, metodologie di addestramento e scenari di deployment ideali per aiutarti a prendere decisioni basate sui dati per le tue pipeline di AI.

Link to this sectionRTDETRv2: Il Transformer per il rilevamento in tempo reale#

Basandosi sul successo del RT-DETR originale, RTDETRv2 perfeziona il paradigma di object detection basato su Transformer. Ottimizzando le strutture di encoder e decoder, offre un'elevata precisione mantenendo velocità di inferenza in tempo reale, colmando efficacemente il divario tra le CNN tradizionali e i vision Transformer.

Dettagli del modello Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu Data: 2024-07-24 Link: Arxiv, GitHub, Docs

Link to this sectionArchitettura e punti di forza#

RTDETRv2 utilizes a hybrid architecture that pairs a potent CNN backbone (often ResNet or HGNet) with an efficient transformer decoder. The most defining characteristic of RTDETRv2 is its native ability to bypass non-maximum suppression (NMS). Traditional detectors require NMS to filter out duplicate bounding boxes, adding variable inference latency during post-processing. RTDETRv2 formulates detection as a direct set prediction problem, utilizing bipartite matching to output unique predictions.

Questo modello eccelle nelle implementazioni lato server dove la memoria GPU è abbondante. Il suo meccanismo di attenzione globale fornisce un'eccezionale consapevolezza del contesto, rendendolo altamente capace di separare oggetti sovrapposti in ambienti densi e disordinati come sistemi di allarme di sicurezza automatizzati o il monitoraggio di folle dense.

Link to this sectionLimitazioni#

While powerful, transformer architectures inherently require more CUDA memory during training compared to standard CNNs. Furthermore, fine-tuning RTDETRv2 can require extended training data convergence times, making rapid prototyping slightly more resource-intensive.

Scopri di più su RTDETRv2

Link to this sectionEfficientDet: CNN scalabili ed efficienti#

EfficientDet introduced a family of object detection models optimized for both accuracy and efficiency across a wide spectrum of resource constraints. It remains a classic example of scalable machine vision design.

Dettagli del modello Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le
Organizzazione: Google
Data: 2019-11-20
Link: Arxiv, GitHub, Docs

Link to this sectionArchitettura e punti di forza#

The innovation behind EfficientDet lies in two key areas: the Bi-directional Feature Pyramid Network (BiFPN) and a compound scaling method. BiFPN allows for simple and fast multi-scale feature extraction by introducing learnable weights to learn the importance of different input features, while repeatedly applying top-down and bottom-up multi-scale feature fusion. The compound scaling method uniformly scales the resolution, depth, and width of the network simultaneously.

EfficientDet models range from the ultra-lightweight D0 to the massive D7. This makes them highly versatile for edge AI deployments where developers must balance tight computational budgets with accuracy requirements, such as early mobile augmented reality applications.

Link to this sectionLimitazioni#

EfficientDet è un'architettura più datata che si basa pesantemente su anchor box e sulla tradizionale pipeline di post-processing NMS. Il processo di generazione delle anchor richiede un attento tuning degli iperparametri, e il passaggio NMS può creare colli di bottiglia nel deployment su hardware embedded come un Raspberry Pi. Inoltre, manca di supporto nativo per compiti moderni come la pose estimation o le oriented bounding boxes (OBB).

Scopri di più su EfficientDet

Link to this sectionConfronto tra prestazioni e metriche#

Comprendere gli esatti compromessi tra questi modelli richiede l'analisi del loro throughput e dell'efficienza dei parametri. La tabella seguente delinea come la moderna serie RTDETRv2 si confronta con la famiglia scalabile EfficientDet.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

As seen above, RTDETRv2 achieves significantly higher mean Average Precision (mAP) at comparable parameter counts to the mid-tier EfficientDet models, heavily utilizing its transformer architecture to boost accuracy.

Link to this sectionCasi d'uso e raccomandazioni#

Scegliere tra RT-DETR ed EfficientDet dipende dai requisiti specifici del tuo progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è una scelta solida per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere EfficientDet#

EfficientDet è consigliato per:

  • Pipeline Google Cloud e TPU: Sistemi profondamente integrati con le API di Google Cloud Vision o l'infrastruttura TPU, dove EfficientDet offre un'ottimizzazione nativa.
  • Ricerca sul Compound Scaling: Benchmarking accademico focalizzato sullo studio degli effetti della profondità della rete, della larghezza e del ridimensionamento della risoluzione.
  • Distribuzione Mobile tramite TFLite: Progetti che richiedono specificamente l'esportazione verso TensorFlow Lite per dispositivi Android o Linux integrati.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionL'alternativa Ultralytics: Far progredire lo stato dell'arte#

Sebbene sia RTDETRv2 che EfficientDet abbiano forti meriti, lo sviluppo moderno di AI richiede framework che offrano una developer experience fluida insieme a performance all'avanguardia. L'ecosistema Ultralytics fornisce un approccio significativamente più semplificato ai compiti di computer vision.

Se stai esplorando il rilevamento all'avanguardia, il neonato Ultralytics YOLO26 sintetizza i migliori aspetti sia delle CNN che dei Transformer.

Perché scegliere YOLO26?

YOLO26 implements an End-to-End NMS-Free Design, bringing the deployment simplicity of RTDETRv2 to the ultra-efficient YOLO architecture. Furthermore, it introduces the MuSGD Optimizer—inspired by LLM training innovations—for superior training stability. With DFL Removal (Distribution Focal Loss removed for simplified export and better edge/low-power device compatibility), YOLO26 boasts up to 43% faster CPU inference than previous generations, making it an exceptional choice for edge computing over heavier models. Additionally, ProgLoss + STAL delivers improved loss functions with notable improvements in small-object recognition, critical for IoT, robotics, and aerial imagery.

La facilità d'uso offerta dal pacchetto Python di Ultralytics non ha eguali. Gli sviluppatori possono addestrare, validare ed esportare modelli utilizzando un'API intuitiva che astrae il codice boilerplate tipicamente richiesto dai repository di ricerca.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

I modelli Ultralytics supportano nativamente molteplici compiti, tra cui instance segmentation e image classification, fornendo un toolkit versatile per diverse esigenze industriali. Inoltre, la rimozione della Distribution Focal Loss (DFL) nei moderni modelli Ultralytics semplifica il grafo computazionale, garantendo un export più fluido verso NPU e TPU embedded.

Per una data annotation e una gestione dei modelli senza interruzioni, la Piattaforma Ultralytics fornisce un ambiente cloud completo per supervisionare l'intero ciclo di vita del machine learning, confermandosi come la scelta principale per implementare robuste soluzioni di computer vision in produzione.

Commenti