YOLOv7 .YOLO: Ein umfassender technischer Vergleich
Die Landschaft der Echtzeit-Objekterkennung entwickelt sich ständig weiter, wobei Forscher und Ingenieure bestrebt sind, das optimale Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu finden. In diesem technischen Vergleich werden wir uns eingehend mit zwei bemerkenswerten Architekturen aus dem Jahr 2022 befassen: YOLOv7 und YOLO. Beide Modelle führten neue Konzepte in die Computer-Vision-Community ein und adressierten unterschiedliche Herausforderungen beim Modelltraining, beim Architekturdesign und bei der Bereitstellung.
Modellhintergründe und technische Details
Bevor wir uns mit ihrer Architektur befassen, ist es wichtig, die Ursprünge dieser beiden Modelle zu verstehen. Beide wurden von führenden Forschungsgruppen entwickelt und führten fortschrittliche Methoden ein, um die Grenzen der Echtzeit-Objekterkennung zu erweitern.
YOLOv7
YOLOv7 wurde als Weiterentwicklung der YOLO entwickelt und YOLOv7 das Konzept des trainierbaren „Bag-of-Freebies” YOLOv7 , um die Genauigkeit deutlich zu verbessern, ohne die Inferenzkosten zu erhöhen.
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica, Taiwan
- Datum: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- Dokumentation:https://docs.ultralytics.com/models/yolov7/
YOLO
YOLO wurde von Forschern der Alibaba Group entwickelt undYOLO stark auf Neural Architecture Search (NAS) und fortschrittliche Wissensdestillation, um hocheffiziente Modelle für unterschiedliche Hardware zu erstellen.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation:Alibaba Group
- Datum: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Erfahren Sie mehr über DAMO-YOLO
Architektonische Innovationen
YOLOv7: Gradientenpfadanalyse und Neuparametrisierung
YOLOv7 stark auf Extended Efficient Layer Aggregation Networks (E-ELAN). Die Autoren haben E-ELAN durch Analyse der Gradientenpfade des Netzwerks entwickelt, um sicherzustellen, dass das Netzwerk kontinuierlich lernen kann, ohne den ursprünglichen Gradientenpfad zu beeinträchtigen. Darüber hinaus nutzt YOLOv7 während der Inferenz YOLOv7 die Neuparametrisierung des Modells und fusioniert nahtlos Schichten, um FLOPs zu reduzieren und die Ausführungszeiten zu beschleunigen. Dadurch eignet es sich hervorragend für Echtzeit-Inferenzen auf modernen GPUs.
YOLO: Neuronale Architektursuche und RepGFPN
YOLO dadurch, dass es unter Latenzbeschränkungen in hohem Maße auf Neural Architecture Search (NAS) zurückgreift. Es nutzt ein Framework namens MAE-NAS, um optimale Backbones zu finden, die auf bestimmte Hardware zugeschnitten sind, wie z. B. mobile Geräte oder bestimmte Edge-Beschleuniger. Für seinen Hals führt es ein effizientes RepGFPN (Rep-parameterized Generalized Feature Pyramid Network) ein und verwendet ein ZeroHead-Design, um die Rechenlast in den Vorhersageköpfen zu minimieren.
Unterschiede bei der Destillation
Während YOLOv7 auf starken inhärenten Architekturoptimierungen YOLOv7 ,YOLO stark von einem komplexen mehrstufigen WissensdestillationsprozessYOLO . Es erfordert das Training eines großen Lehrer-Modells, um Wissen in ein kleineres Schüler-Modell zu destillieren, was während der Trainingsphase rechenintensiv sein kann.
Leistung und Metriken im Vergleich
Beim Vergleich dieser Modelle ist es entscheidend, mAP Mean Average Precision), die Inferenzgeschwindigkeit und die Modellkomplexität zu betrachten.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Die obige Tabelle zeigt, dass YOLOv7 gut auf Bereiche mit hoher Genauigkeit (YOLOv7x) YOLOv7 , währendYOLO hochoptimierte kleine Modelle für eingeschränkte UmgebungenYOLO .
Trainingseffizienz und Speicheranforderungen
Ein wesentlicher Unterschied zwischen den beiden Architekturen liegt in ihren Trainingsmethoden. DaYOLO auf Destillation setzt, erfordert das Training eines neuen Modells von Grund auf oder die Feinabstimmung anhand eines benutzerdefinierten Computer-Vision-Datensatzes oft deutlich mehr VRAM und GPU .
Im Gegensatz dazu sind Modelle, die in das Ultralytics integriert sind, wie YOLOv7 spätere Versionen, stark für Speicheranforderungen optimiert. Sie ermöglichen es Entwicklern, größere Batch-Größen auf Verbraucherhardware zu verwenden, ohne dass Speicherfehler auftreten, was die Nachverfolgung von Experimenten und den Iterationsprozess vereinfacht.
Der Ultralytics Vorteil
Sowohl YOLOv7 YOLO überzeugende Funktionen, doch die Bereitstellung von Modellen innerhalb des Ultralytics sorgt für eine unvergleichliche Entwicklererfahrung.
- Benutzerfreundlichkeit: Das Ultralytics Python bietet eine einheitliche, einfache API. Mit wenigen Zeilen Code können Sie schnell zwischen Modellarchitekturen wechseln, Trainingsschleifen starten oder Inferenzläufe ausführen.
- Gut gepflegtes Ökosystem: Ultralytics regelmäßige Updates und gewährleistet so native Kompatibilität mit den neuesten PyTorch -Versionen und CUDA gewährleistet. Außerdem vereinfacht es den Export von Modellen in Formate wie ONNX, TensorRTund OpenVINO.
- Vielseitigkeit: Im Gegensatz zuYOLO, das ausschließlich als Objektdetektor dient, unterstützt das Ultralytics von Haus aus vielfältige Aufgaben. Modelle aus der Ultralytics können Standard-Bounding-Box-Erkennung, Posenschätzung, Instanzsegmentierung und Oriented Bounding Boxes (OBB) durchführen.
Code-Beispiel: Schnell loslegen
So einfach können Sie mit Ultralytics Daten laden, trainieren und Inferenzläufe durchführen:
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")
Modelle exportieren
Mit Ultralytics können Sie Ihre trainierten Gewichte mit einem einzigen Argument im Exportbefehl in verschiedene hardwarebeschleunigte Formate (wie TensorRT CoreML) exportieren, wodurch Sie sich stundenlange komplexe Skriptkonfigurationen sparen.
Die nächste Generation: YOLO26
Während YOLOv7 eine leistungsstarke Legacy-Architektur YOLOv7 , hat sich das Feld rasant weiterentwickelt. Für neue Implementierungen ist Ultralytics (veröffentlicht im Januar 2026) der empfohlene Standard, der frühere Generationen in fast allen Metriken übertrifft.
- End-to-End-Design NMS: Erstmals eingeführt in YOLOv10, eliminiert YOLO26 nativ die Nachbearbeitung durch Non-Maximum Suppression (NMS). Dies gewährleistet eine deterministische Inferenz mit extrem geringer Latenz, die für Robotik und selbstfahrende Technologien von entscheidender Bedeutung ist.
- MuSGD Optimizer: Inspiriert von fortschrittlichen LLM-Trainingstechniken (wie Moonshot AI's Kimi K2) kombiniert dieser hybride Optimierer SGD Muon, um ein äußerst stabiles Training und eine schnellere Konvergenz über Datensätze hinweg zu erzielen.
- Bis zu 43 % schnellere CPU : Durch die strategische Entfernung des Distribution Focal Loss (DFL) steigert YOLO26 die Leistung auf Edge-Computing-Plattformen und CPUs erheblich.
- ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu erheblichen Verbesserungen bei der Erkennung kleiner Objekte, wodurch sich YOLO26 besonders gut für Luftbilder und detaillierte Überwachungsaufgaben eignet.
Ideale Anwendungsfälle
Wann DAMO-YOLO wählen?
- Akademische Forschung im Bereich NAS: Wenn Ihre Organisation stark in die Erforschung von Methoden der neuronalen Architektursuche investiert ist.
- Hyper-begrenzte Latenz auf spezifischer Hardware: Wenn Sie über die Ressourcen verfügen, um umfassende NAS-Suchen durchzuführen, um ein maßgeschneidertes Backbone für einen benutzerdefinierten KI-Beschleunigerchip zu finden.
Wann man YOLOv7 wählen sollte
- Bestehende GPU : Für Teams, die ältere Produktionspipelines unterhalten, die für die spezifische E-ELAN-Architektur YOLOv7 auf NVIDIA tiefgreifend optimiert sind.
Warum sollte man auf moderne Ultralytics (YOLO11 YOLO26) umsteigen?
Für die überwiegende Mehrheit der Unternehmensanwendungen – von Einzelhandelsanalysen über intelligente Fertigung bis hin zum Gesundheitswesen – sind moderne Ultralytics unübertroffen. Die Integration mit der Ultralytics bietet eine vollständige ML-Pipeline, die sich durch Benutzerfreundlichkeit, hervorragende Dokumentation, robusten Community-Support und Vielseitigkeit bei der Multitasking-Nutzung auszeichnet. Ob bei der Bestandsverfolgung auf einem Raspberry Pi oder bei der Ausführung umfangreicher Analysen in der Cloud – Modelle wie YOLO26 bieten die ideale Leistungsbalance für die Zukunft der Computer Vision.