YOLOv7 YOLO: equilibrio tra innovazione architettonica e velocità
Il panorama del rilevamento di oggetti in tempo reale ha subito cambiamenti significativi nel 2022 con l'introduzione di YOLOv7 e YOLO. Entrambi i modelli miravano a superare i limiti di accuratezza e latenza, ma hanno affrontato la sfida da prospettive ingegneristiche fondamentalmente diverse. YOLOv7 sull'ottimizzazione del processo di addestramento attraverso un approccio "bag-of-freebies", mentreYOLO la ricerca dell'architettura neurale (NAS) per scoprire automaticamente strutture efficienti.
Questo confronto completo esplora le loro architetture, le metriche delle prestazioni e le metodologie di addestramento per aiutarti a decidere quale modello si adatta meglio alle tue specifiche applicazioni di visione artificiale. Sebbene entrambi rimangano rilevanti per i progetti legacy, discuteremo anche perché soluzioni moderne come YOLO26 sono ora lo standard raccomandato per i nuovi sviluppi.
YOLOv7: Il "Bag-of-Freebies" Addestrabile
Rilasciato nel luglio 2022, YOLOv7 una pietra miliare nella YOLO , concentrandosi su riforme architettoniche che hanno migliorato la precisione senza aumentare i costi di inferenza.
- Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
- Organizzazione: Institute of Information Science, Academia Sinica, Taiwan
- Data: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
Innovazioni Architetturali
YOLOv7 la rete Extended Efficient Layer Aggregation Network (E-ELAN). A differenza della rete ELAN standard, che controlla i percorsi di gradiente più brevi e più lunghi, E-ELAN utilizza espansione, rimescolamento e unione della cardinalità per migliorare la capacità di apprendimento della rete senza distruggere il percorso di gradiente originale. Questo design consente al modello di apprendere caratteristiche più diversificate, migliorando le prestazioni su set di dati complessi come COCO.
Un concetto chiave in YOLOv7 il "trainable bag-of-freebies" (insieme di elementi gratuiti addestrabili). Si tratta di metodi di ottimizzazione, come la riparametrizzazione del modello e l'assegnazione dinamica delle etichette, che aumentano i costi di addestramento per migliorare la precisione, ma non comportano alcuna penalità durante l'inferenza. Ciò rende YOLOv7 scelta eccellente per scenari che richiedono un'elevata precisione, come l'analisi di immagini mediche o l'ispezione industriale critica per la sicurezza.
YOLO: efficienza tramite ricerca dell'architettura neurale
Sviluppato dal Gruppo Alibaba,YOLO successivamente integrato nella suite di visione DAMO-Academy) ha dato priorità alla velocità e alla bassa latenza, rivolgendosi in particolare alle applicazioni industriali in cui vigono rigidi vincoli di millisecondi.
- Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
- Organizzazione:Alibaba Group
- Data: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
MAE-NAS e distillazione
L'architetturaYOLO è stata derivata utilizzando un metodo chiamato MAE-NAS (Method of Automating Efficiency-Neural Architecture Search). Questo processo automatizzato ha individuato strutture di base che massimizzavano le prestazioni di rilevamento con specifici budget di latenza. Ha inoltre introdotto RepGFPN (Rep-parameterized Generalized Feature Pyramid Network) per una fusione efficiente delle caratteristiche e ZeroHead, un'unità di rilevamento leggera.
Una caratteristica distintiva diYOLO il suo forte ricorso alla distillazione. I modelli vengono in genere addestrati con l'aiuto di un modello "insegnante" più grande, che guida il modello "studente" ad apprendere rappresentazioni migliori. Sebbene ciò garantisca un'efficienza impressionante, complica notevolmente la pipeline di addestramento rispetto ai flussi di lavoro standard di rilevamento degli oggetti.
Confronto delle prestazioni
La tabella seguente mette a confronto le prestazioni delleYOLO YOLOv7 YOLO . YOLOv7 offre YOLOv7 una maggiore precisione (mAP), mentreYOLO modelli estremamente leggeri ottimizzati per la velocità.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analisi dei compromessi
- Precisione:YOLOv7x è in testa con un mAP 53,1%, rendendolo adatto per attività in cui perdere un rilevamento è costoso.
- Velocità:DAMO-YOLOt è incredibilmente veloce (2,32 ms su T4 TensorRT), ideale per la comprensione di video ad alto FPS o l'implementazione su dispositivi edge con risorse limitate.
- Complessità: i parametri e i FLOP YOLOv7 sono significativamente più elevati, riflettendo la sua attenzione alla capacità piuttosto che alla pura efficienza.
Nota sulla complessità della formazione
SebbeneYOLO un eccellente compromesso tra velocità e precisione, riprodurre i suoi risultati su set di dati personalizzati può essere difficile. La sua ricetta di addestramento richiede spesso un processo in più fasi che coinvolge un modello teacher pesante per la distillazione, mentre YOLOv7 una metodologia semplice di "addestramento da zero" che è più facile da implementare.
Perché Ultralytics è la scelta migliore
Sebbene YOLOv7 YOLO un grande impatto nel loro tempo, il settore ha registrato rapidi progressi. Per gli sviluppatori e i ricercatori che iniziano nuovi progetti nel 2026, YOLO26 offre una soluzione unificata che supera entrambi i predecessori combinando un'elevata precisione con un'implementazione semplificata.
Facilità d'uso ed ecosistema senza pari
Ultralytics è rinomato per il suo design intuitivo. A differenza delle complesse pipeline di distillazione diYOLO, YOLO26 offre Python semplificata che gestisce tutto, dall'annotazione dei dati alla distribuzione dei modelli.
- Efficienza della formazione: addestra modelli all'avanguardia con poche righe di codice senza complesse configurazioni insegnante-studente.
- Ben mantenuto: aggiornamenti frequenti, documentazione completa e supporto attivo da parte della community garantiscono che il tuo progetto rimanga a prova di futuro.
- Versatilità: oltre al rilevamento, YOLO26 supporta in modo nativo la segmentazione delle istanze, la stima della posa, la classificazione e l'Oriented Bounding Box (OBB).
YOLO26 Innovazioni tecniche
YOLO26 introduce diverse innovazioni chiave che risolvono i limiti delle architetture precedenti:
- Progettazione end-to-end NMS: eliminando la soppressione non massima (NMS), YOLO26 riduce la latenza di inferenza e semplifica la logica di esportazione, una caratteristica assente sia in YOLOv7 YOLO standardYOLO .
- MuSGD Optimizer: ispirato all'addestramento LLM (come Kimi K2), questo ottimizzatore ibrido combina SGD Muon per una convergenza più rapida e un addestramento stabile.
- Ottimizzazione dei bordi: l'eliminazione della perdita focale di distribuzione (DFL) e specifiche CPU rendono YOLO26 fino al 43% più veloce nell' inferenza CPU rispetto alle generazioni precedenti, rispondendo alle esigenze di bassa latenza cheYOLO si eraYOLO prefissato.
- ProgLoss + STAL: le funzioni di perdita avanzate migliorano il rilevamento di oggetti di piccole dimensioni, una capacità fondamentale per le immagini dei droni e la robotica.
Esempio di codice: Formazione con Ultralytics
Questo esempio dimostra quanto sia facile addestrare un modello YOLO26 moderno utilizzando Ultralytics . Questa singola interfaccia sostituisce i complessi file di configurazione e le pipeline multistadio richiesti dai repository più vecchi.
from ultralytics import YOLO
# Load the latest YOLO26 model (recommended over YOLOv7/DAMO-YOLO)
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
Conclusione
Sia YOLOv7 YOLO in modo significativo all'evoluzione della visione artificiale. YOLOv7 che le architetture realizzate manualmente possono ancora ottenere risultati SOTA attraverso strategie di addestramento intelligenti, mentreYOLO la potenza del NAS per gli ambienti con latenza limitata.
Tuttavia, per un'implementazione pratica e reale oggi, YOLO26 è la scelta definitiva. Offre un equilibrio di prestazioni tra alta precisione e velocità, requisiti di memoria drasticamente inferiori durante l'addestramento rispetto ai Transformers e il solido supporto Ultralytics . Sia che stiate sviluppando per l'edge o per il cloud, il design end-to-end e il supporto versatile di YOLO26 forniscono il percorso più efficiente verso la produzione.
Letture aggiuntive
- Esplora l'elenco completo dei modelli supportati.
- Scopri come monitorare la formazione con Ultralytics.
- Comprendere i vantaggi di YOLO11, il potente predecessore di YOLO26.