Meet YOLO26: next-gen vision AI.

Link to this sectionEfficientDet vs RTDETRv2: un confronto approfondito sulle architetture di object detection#

Scegliere l'architettura ottimale per progetti di computer vision richiede di orientarsi in un panorama eterogeneo di reti neurali. Questa guida esplora un confronto tecnico dettagliato tra due approcci distinti: EfficientDet, una famiglia di reti neurali convoluzionali (CNN) altamente scalabili, e RTDETRv2, un modello transformer real-time all'avanguardia. Valutiamo le loro differenze strutturali, le metodologie di addestramento e l'idoneità al deployment in diversi ambienti hardware.

Comprendendo i compromessi tra l'efficienza dei sistemi legacy e le moderne capacità dei transformer, potrai prendere decisioni informate. Inoltre, esploreremo come le alternative moderne come il nuovo Ultralytics YOLO26 colmino il divario, offrendo velocità, precisione e facilità d'uso senza pari.

Link to this sectionComprendere EfficientDet#

EfficientDet ha rivoluzionato l'object detection introducendo un approccio basato su principi solidi per il ridimensionamento dei modelli.

Link to this sectionArchitettura e concetti chiave#

Fondamentalmente, EfficientDet utilizza EfficientNet come backbone e introduce la Bi-directional Feature Pyramid Network (BiFPN). La BiFPN consente una fusione delle feature multiscala semplice e veloce, applicando pesi apprendibili per determinare l'importanza delle diverse feature in ingresso. Questo si combina con un metodo di scaling composto che ridimensiona uniformemente risoluzione, profondità e larghezza per tutti i backbone, la rete di feature e le reti di previsione box/classe contemporaneamente.

Link to this sectionPunti di forza e limitazioni#

Il principale punto di forza di EfficientDet risiede nell'efficienza dei parametri. Al momento del rilascio, modelli come EfficientDet-D0 raggiungevano una precisione superiore con meno parametri e FLOP rispetto alle precedenti versioni di YOLO. Questo lo ha reso molto interessante per ambienti con rigorosi limiti di calcolo.

Tuttavia, EfficientDet si affida alla standard non-maximum suppression (NMS) durante il post-processing per filtrare i bounding box sovrapposti, il che può introdurre colli di bottiglia nella latenza in pipeline real-time. Inoltre, sebbene il processo di addestramento sia ben documentato, il fine-tuning di EfficientDet può risultare macchinoso rispetto alle esperienze utente altamente ottimizzate che si trovano negli strumenti moderni.

Scopri di più su EfficientDet

Supporto legacy

Mentre EfficientDet ha aperto la strada alle reti scalabili, il deployment di questi modelli su moderni NPU richiede spesso un'ampia ottimizzazione manuale. Per un deployment semplificato, i più recenti modelli Ultralytics offrono una funzionalità di esportazione con un solo clic.

Link to this sectionEsplorare RTDETRv2#

RTDETRv2 rappresenta l'evoluzione delle architetture basate su transformer, spostando il paradigma lontano dalle tradizionali CNN basate su anchor.

Link to this sectionProgressioni nei transformer#

RTDETRv2 si basa sul Real-Time Detection Transformer (RT-DETR). Sfrutta meccanismi di attenzione globale, consentendo al modello di comprendere contesti di scene complesse senza i vincoli localizzati delle convoluzioni standard. Il vantaggio architettonico più significativo è il suo design nativamente privo di NMS. Prevedendo gli oggetti direttamente dall'immagine in ingresso, semplifica la pipeline di inferenza, evitando la regolazione euristica richiesta dal post-processing NMS.

Link to this sectionPunti di forza e punti deboli#

RTDETRv2 eccelle in ambienti ad alta densità dove gli oggetti sovrapposti confondono le CNN tradizionali. È estremamente preciso su dataset di benchmark complessi come COCO.

Nonostante la sua precisione, i modelli transformer richiedono naturalmente una notevole quantità di memoria. L'efficienza di addestramento è notevolmente inferiore; richiede un numero significativamente maggiore di epoche e un maggiore utilizzo di memoria CUDA per convergere rispetto alle CNN. Questo rende RTDETRv2 meno ideale per gli sviluppatori che operano con budget cloud limitati o che necessitano di una prototipazione rapida.

Scopri di più su RTDETRv2

Vincoli di memoria dei transformer

L'addestramento di modelli transformer come RTDETRv2 richiede tipicamente GPU di fascia alta. Se riscontri errori di memoria insufficiente (OOM), prendi in considerazione l'utilizzo di modelli con requisiti di memoria inferiori durante l'addestramento, come la serie Ultralytics YOLO.

Link to this sectionConfronto dei benchmark di performance#

Comprendere le metriche di performance grezze è fondamentale per la selezione del modello. La seguente tabella mostra il confronto tra EfficientDet e RTDETRv2 su diverse dimensioni.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra EfficientDet e RT-DETR dipende dai requisiti specifici del tuo progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere EfficientDet#

EfficientDet è una scelta solida per:

  • Pipeline Google Cloud e TPU: Sistemi profondamente integrati con le API di Google Cloud Vision o l'infrastruttura TPU, dove EfficientDet offre un'ottimizzazione nativa.
  • Ricerca sul Compound Scaling: Benchmarking accademico focalizzato sullo studio degli effetti della profondità della rete, della larghezza e del ridimensionamento della risoluzione.
  • Distribuzione Mobile tramite TFLite: Progetti che richiedono specificamente l'esportazione verso TensorFlow Lite per dispositivi Android o Linux integrati.

Link to this sectionQuando scegliere RT-DETR#

RT-DETR è consigliato per:

  • Ricerca sul rilevamento basato su Transformer: Progetti che esplorano meccanismi di attenzione e architetture transformer per il rilevamento di oggetti end-to-end senza NMS.
  • Scenari ad alta precisione con latenza flessibile: Applicazioni in cui la precisione di rilevamento è la priorità assoluta e una latenza di inferenza leggermente superiore è accettabile.
  • Rilevamento di oggetti di grandi dimensioni: Scene con oggetti prevalentemente medio-grandi in cui il meccanismo di attenzione globale dei transformer offre un vantaggio naturale.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl vantaggio di Ultralytics: introduzione a YOLO26#

Sebbene EfficientDet e RTDETRv2 abbiano consolidato il loro posto nella storia della computer vision, i moderni ambienti di produzione richiedono un perfetto equilibrio tra velocità, precisione ed un'esperienza utente eccezionale. Il recentemente rilasciato Ultralytics YOLO26 sintetizza i migliori aspetti di queste architetture disparate.

YOLO26 si distingue combinando l'ecosistema semplificato per cui Ultralytics è conosciuto con meccaniche interne rivoluzionarie.

Link to this sectionPerché scegliere YOLO26 rispetto alla concorrenza?#

  • Design end-to-end senza NMS: Ispirandosi a transformer come RTDETRv2, YOLO26 è nativamente end-to-end. Elimina il post-processing NMS, garantendo pipeline di deployment più veloci e semplici senza l'enorme peso dei parametri dei puri transformer.
  • Ottimizzatore MuSGD: Ispirato alle innovazioni nell'addestramento di modelli linguistici di grandi dimensioni (come Kimi K2 di Moonshot AI), YOLO26 utilizza un ibrido tra SGD e Muon. Ciò porta una stabilità di addestramento senza precedenti e tassi di convergenza significativamente più rapidi rispetto ai lunghi cicli richiesti da RTDETRv2.
  • Ottimizzato per l'Edge: Con un'inferenza su CPU fino al 43% più veloce, YOLO26 è costruito per l'edge AI. Supera facilmente i pesanti modelli transformer su hardware vincolato come telefoni cellulari e smart camera.
  • Rimozione della DFL: La rimozione della Distribution Focal Loss semplifica il grafo del modello, facilitando esportazioni fluide verso TensorRT e ONNX.
  • ProgLoss + STAL: Queste funzioni di loss avanzate producono notevoli miglioramenti nel riconoscimento di piccoli oggetti, risolvendo un comune collo di bottiglia nelle immagini aeree e nella robotica.
  • Versatilità: A differenza di RTDETRv2, che si concentra principalmente sul rilevamento, YOLO26 supporta nativamente instance segmentation, pose estimation, image classification e oriented bounding boxes (OBB) con miglioramenti specifici per task come RLE per la posa e una loss angolare specializzata per OBB.
Ecosistema integrato

Sfruttando la piattaforma Ultralytics, puoi gestire i tuoi dataset, addestrare modelli come YOLO26 o YOLO11 nel cloud e distribuirli senza problemi tramite API flessibili.

Link to this sectionSemplicità del codice con Ultralytics#

La Python API di Ultralytics, ben mantenuta, rende l'addestramento del modello e l'inferenza banali. Gli sviluppatori possono facilmente eseguire benchmark sui modelli o lanciare script di addestramento con un minimo di boilerplate code.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Per chi gestisce infrastrutture legacy, l'acclamato Ultralytics YOLOv8 rimane una scelta stabile e potente, a dimostrazione dell'affidabilità a lungo termine dell'ecosistema Ultralytics. Che tu stia eseguendo complessi algoritmi di real-time tracking o un semplice rilevamento di difetti, l'aggiornamento a YOLO26 assicura che il tuo sistema sia a prova di futuro, altamente preciso ed efficiente nella memoria.

Commenti