Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 contro YOLOv7#

Il panorama della computer vision si è ampliato notevolmente negli ultimi anni, spinto da continue innovazioni sia nelle Convolutional Neural Networks (CNNs) che nei Vision Transformers (ViTs). Scegliere l'architettura giusta per la tua implementazione richiede di comprendere i sottili compromessi tra velocità, precisione e sovraccarico computazionale. Questa guida esplora le differenze tecniche tra due architetture molto apprezzate: RTDETRv2 e YOLOv7, evidenziando al contempo i moderni progressi disponibili nel nuovo Ultralytics YOLO26.

Link to this sectionRTDETRv2: L'approccio Transformer al rilevamento in tempo reale#

RTDETRv2 (Real-Time Detection Transformer versione 2) si basa sulle fondamenta del suo predecessore per dimostrare che le architetture basate su transformer possono competere efficacemente in scenari in tempo reale senza fare affidamento sui tradizionali passaggi di post-elaborazione.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu Data: 24-07-2024 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: Repository RTDETRv2

Link to this sectionPunti salienti dell'architettura#

RTDETRv2 utilizes a hybrid encoder and a transformer decoder architecture. By leveraging self-attention mechanisms, the model processes the entire image holistically, allowing it to understand complex spatial relationships better than strictly localized convolutional kernels. One of its most defining features is its natively NMS-free design. By eliminating Non-Maximum Suppression (NMS), RTDETRv2 removes a common bottleneck that introduces variable inference latency during deployment.

Link to this sectionPunti di forza e limitazioni#

Il punto di forza principale di RTDETRv2 risiede nella sua capacità di gestire oggetti densi e sovrapposti in scene complesse. Il contesto globale fornito dai layer di attenzione dei transformer lo rende altamente preciso, in particolare in scenari in cui le occlusioni sono frequenti.

However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.

Scopri di più su RTDETRv2

Link to this sectionYOLOv7: Una baseline CNN per la velocità#

Rilasciato un anno prima di RTDETRv2, YOLOv7 ha introdotto diverse ottimizzazioni strutturali al classico framework YOLO, stabilendo un solido benchmark per i rilevatori in tempo reale basati su CNN al momento della sua pubblicazione.

Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organizzazione: Institute of Information Science, Academia Sinica, Taiwan
Data: 06-07-2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: Repository YOLOv7

Link to this sectionPunti salienti dell'architettura#

YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.

Link to this sectionPunti di forza e limitazioni#

YOLOv7 rimane un modello altamente capace per le attività standard di object detection, offrendo eccellenti velocità di elaborazione su GPU consumer. La sua natura CNN significa che solitamente richiede meno memoria CUDA durante l'addestramento rispetto ai modelli basati su transformer come RTDETRv2.

Nonostante questi vantaggi, YOLOv7 si affida ancora alla NMS per la post-elaborazione. In ambienti con un'elevata densità di predizioni, il passaggio della NMS può causare fluttuazioni nei tempi di elaborazione, rendendo difficili garanzie di tempo reale rigorose. Inoltre, rispetto ai framework moderni, il processo di gestione di attività variegate come instance segmentation e pose estimation può risultare frammentato.

Scopri di più su YOLOv7

Link to this sectionConfronto delle Prestazioni#

Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Contesto delle prestazioni

Mentre RTDETRv2-x raggiunge il mAP più alto, comporta anche il numero maggiore di parametri e FLOP. Varianti più piccole come RTDETRv2-s offrono una velocità competitiva su TensorRT, ma gli utenti che puntano a ambienti a basso consumo senza GPU dedicate devono valutare attentamente le capacità di inferenza su CPU.

Link to this sectionLa soluzione moderna: arriva YOLO26#

Sebbene RTDETRv2 e YOLOv7 siano stati fondamentali nel superare i confini delle applicazioni di computer vision, il panorama dell'IA evolve rapidamente. Rilasciato nel gennaio 2026, YOLO26 sintetizza i migliori aspetti sia dell'efficienza delle CNN che delle architetture prive di NMS simili ai transformer.

Per sviluppatori e ricercatori che costruiscono nuovi sistemi, la Ultralytics Platform integrata e l'ecosistema Python forniscono un'esperienza unificata che riduce significativamente il debito tecnico.

Link to this sectionInnovazioni chiave in YOLO26#

  • Design end-to-end senza NMS: YOLO26 è nativamente end-to-end, eliminando la post-elaborazione NMS per un'implementazione più rapida e semplice. Questo approccio rivoluzionario è stato sperimentato per la prima volta in YOLOv10, garantendo una latenza stabile indipendentemente dalla densità degli oggetti.
  • Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
  • Ottimizzatore MuSGD: Un ibrido di SGD e Muon (ispirato a Kimi K2 di Moonshot AI), che porta le innovazioni dell'addestramento LLM alla computer vision per un addestramento più stabile e una convergenza più rapida.
  • Rimozione DFL: La Distribution Focal Loss è stata rimossa, risultando in un grafo computazionale semplificato per un'esportazione più fluida verso NPU embedded e ambienti TensorRT.
  • ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
  • Miglioramenti specifici per attività: YOLO26 non serve solo per il rilevamento. Presenta prototipi multi-scala per la segmentazione, la Residual Log-Likelihood Estimation (RLE) per il tracciamento della posa e una perdita angolare specializzata che affronta i problemi dei confini degli oriented bounding box (OBB).

Link to this sectionEsperienza di sviluppo semplificata#

Il vero vantaggio di scegliere un modello Ultralytics come YOLO26 (o il popolarissimo YOLO11) è l'ecosistema ben mantenuto. L'addestramento di un dataset personalizzato richiede un minimo codice boilerplate:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

Scopri di più su YOLO26

Link to this sectionCasi d'uso e applicazioni ideali#

La scelta tra queste architetture dipende fortemente dall'hardware di destinazione e dai requisiti operativi specifici.

Link to this sectionQuando considerare RTDETRv2#

RTDETRv2 è altamente efficace in ambienti di elaborazione lato server dotati di potenti GPU. Il suo meccanismo di attenzione globale lo rende adatto alla comprensione di scene complesse, come il monitoraggio di eventi altamente affollati o l'imaging medico specializzato in cui le caratteristiche sovrapposte richiedono un'analisi contestuale profonda.

Link to this sectionQuando considerare YOLOv7#

YOLOv7 viene spesso mantenuto nella ricerca accademica legacy come modello di confronto baseline. Si trova anche in vecchie implementazioni industriali dove le pipeline esistenti sono hardcoded per versioni specifiche di PyTorch e non richiedono la flessibilità multi-attività dei framework più recenti.

Link to this sectionPerché YOLO26 è lo standard consigliato#

For modern smart city infrastructure, drone navigation, and high-speed manufacturing, YOLO26 offers an unmatched balance. Its lower memory requirements make hyperparameter tuning and training accessible on consumer hardware, while its NMS-free inference ensures rapid execution on constrained edge devices like the Raspberry Pi or NVIDIA Jetson.

Esplora altri confronti

Ti interessa sapere come questi modelli si confrontano con altre architetture? Dai un'occhiata alle nostre guide dettagliate su YOLO11 vs. RTDETR e YOLOv8 vs. YOLOv7 per trovare la soluzione perfetta per il tuo progetto di vision AI.

Commenti