YOLOv7 YOLO: Balance zwischen architektonischer Innovation und Geschwindigkeit
Die Landschaft der Echtzeit-Objekterkennung erlebte 2022 mit der Einführung von YOLOv7 und YOLO erhebliche Veränderungen. Beide Modelle zielten darauf ab, die Grenzen der Genauigkeit und Latenz zu erweitern, gingen die Herausforderung jedoch aus grundlegend unterschiedlichen technischen Perspektiven an. YOLOv7 auf die Optimierung des Trainingsprozesses durch einen „Bag-of-Freebies”-Ansatz, währendYOLO die neuronale Architektursuche (NAS)YOLO , um automatisch effiziente Strukturen zu entdecken.
Dieser umfassende Vergleich untersucht ihre Architekturen, Leistungskennzahlen und Trainingsmethoden, um Ihnen bei der Entscheidung zu helfen, welches Modell für Ihre spezifischen Computer-Vision-Anwendungen geeignet ist. Beide sind zwar weiterhin für ältere Projekte relevant, wir werden jedoch auch erörtern, warum moderne Lösungen wie YOLO26 mittlerweile der empfohlene Standard für neue Entwicklungen sind.
YOLOv7: Der trainierbare „Bag-of-Freebies“
YOLOv7 wurde im Juli 2022 veröffentlicht und YOLOv7 einen wichtigen Meilenstein in der YOLO YOLOv7 , wobei der Schwerpunkt auf architektonischen Reformen lag, die die Genauigkeit verbesserten, ohne die Inferenzkosten zu erhöhen.
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation: Institut für Informationswissenschaft, Academia Sinica, Taiwan
- Datum: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
Architektonische Innovationen
YOLOv7 das Extended Efficient Layer Aggregation Network (E-ELAN)YOLOv7 . Im Gegensatz zum Standard-ELAN, das die kürzesten und längsten Gradientenpfade steuert, verwendet E-ELAN die Kardinalität „Erweitern“, „Mischen“ und „Zusammenführen“, um die Lernfähigkeit des Netzwerks zu verbessern, ohne den ursprünglichen Gradientenpfad zu zerstören. Durch dieses Design kann das Modell vielfältigere Merkmale lernen und die Leistung bei komplexen Datensätzen wie COCO.
Ein Schlüsselkonzept in YOLOv7 der „trainable bag-of-freebies”. Dabei handelt es sich um Optimierungsmethoden – wie die Neuparametrisierung von Modellen und die dynamische Zuweisung von Labels –, die die Trainingskosten erhöhen, um die Genauigkeit zu steigern, aber keine Nachteile bei der Inferenz mit sich bringen. Dies macht YOLOv7 zu YOLOv7 ausgezeichneten Wahl für Szenarien, die eine hohe Präzision erfordern, wie beispielsweise die Analyse medizinischer Bilder oder sicherheitskritische industrielle Inspektionen.
YOLO: Effizienz durch neuronale Architektursuche
YOLO später in die Vision Suite von DAMO-Academy integriert) wurde von der Alibaba Group entwickelt und legte den Schwerpunkt auf Geschwindigkeit und geringe Latenz, wobei es speziell auf industrielle Anwendungen ausgerichtet war, bei denen strenge Millisekunden-Beschränkungen gelten.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation:Alibaba Group
- Datum: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
MAE-NAS und Destillation
Die ArchitekturYOLO wurde mithilfe einer Methode namens MAE-NAS (Method of Automating Efficiency-Neural Architecture Search) entwickelt. Dieser automatisierte Prozess fand Backbone-Strukturen, die die Erkennungsleistung unter bestimmten Latenzbudgets maximierten. Außerdem wurden RepGFPN (Rep-parameterized Generalized Feature Pyramid Network) für eine effiziente Merkmalsfusion und ZeroHead, ein leichtgewichtiger Erkennungskopf, eingeführt.
Eine Besonderheit vonYOLO die starke Abhängigkeit von Destillation. Die Modelle werden in der Regel mit Hilfe eines größeren „Lehrer”-Modells trainiert, das das „Schüler”-Modell dabei unterstützt, bessere Darstellungen zu lernen. Dies führt zwar zu einer beeindruckenden Effizienz, verkompliziert jedoch die Trainingspipeline im Vergleich zu Standard-Workflows für die Objekterkennung erheblich.
Leistungsvergleich
Die folgende Tabelle vergleicht die Leistung derYOLO YOLOv7 YOLO . YOLOv7 skaliert YOLOv7 auf eine höhere Genauigkeit (mAP), währendYOLO extrem leichtgewichtige ModelleYOLO , die für Geschwindigkeit optimiert sind.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analyse der Kompromisse
- Genauigkeit:YOLOv7x führt mit einem mAP 53,1 % und eignet sich daher für Aufgaben, bei denen eine fehlende Erkennung kostspielig ist.
- Geschwindigkeit:DAMO-YOLOt ist unglaublich schnell (2,32 ms auf T4 TensorRT) und eignet sich ideal für die Verarbeitung von Videos mit hoher Bildfrequenz oder den Einsatz auf begrenzten Edge-Geräten.
- Komplexität: Die Parameter und FLOPs YOLOv7 sind deutlich höher, was seinen Fokus auf Kapazität gegenüber reiner Effizienz widerspiegelt.
Hinweis zur Komplexität der Schulung
WährendYOLO einen hervorragenden Kompromiss zwischen Geschwindigkeit und GenauigkeitYOLO , kann die Reproduktion seiner Ergebnisse auf benutzerdefinierten Datensätzen eine Herausforderung darstellen. Sein Trainingsrezept erfordert oft einen mehrstufigen Prozess mit einem umfangreichen Lehrer-Modell für die Destillation, während YOLOv7 eine einfache „Train-from-Scratch”-Methodik YOLOv7 , die einfacher zu implementieren ist.
Warum Ultralytics die überlegene Wahl ist
Während YOLOv7 YOLO zu ihrer Zeit beeindruckendYOLO , hat sich das Feld rasant weiterentwickelt. Für Entwickler und Forscher, die 2026 neue Projekte starten, bietet YOLO26 eine einheitliche Lösung, die beide Vorgänger übertrifft, indem sie hohe Genauigkeit mit vereinfachter Bereitstellung kombiniert.
Unübertroffene Benutzerfreundlichkeit und Ökosystem
Das Ultralytics ist für sein benutzerfreundliches Design bekannt. Im Gegensatz zu den komplexen Destillationspipelines vonYOLO bietet YOLO26 eine optimierte Python , die alles von der Datenannotation bis zur Modellbereitstellung übernimmt.
- Trainingseffizienz: Trainieren Sie hochmoderne Modelle mit wenigen Zeilen Code ohne komplexe Lehrer-Schüler-Konfigurationen.
- Gut gepflegt: Häufige Updates, umfangreiche Dokumentation und aktive Community-Unterstützung sorgen dafür, dass Ihr Projekt zukunftssicher bleibt.
- Vielseitigkeit: Über die Erkennung hinaus unterstützt YOLO26 nativ Instanzsegmentierung, Posenschätzung, Klassifizierung und Oriented Bounding Box (OBB).
YOLO26 Technische Durchbrüche
YOLO26 führt mehrere wichtige Innovationen ein, die die Einschränkungen älterer Architekturen beseitigen:
- End-to-End-Design NMS: Durch den Verzicht auf Non-Maximum Suppression (NMS) reduziert YOLO26 die Inferenzlatenz und vereinfacht die Exportlogik – eine Funktion, die sowohl in YOLOv7 inYOLO fehlt.
- MuSGD-Optimierer: Inspiriert durch LLM-Training (wie Kimi K2) kombiniert dieser hybride Optimierer SGD Muon für eine schnellere Konvergenz und ein stabiles Training.
- Edge-Optimierung: Durch die Entfernung von Distribution Focal Loss (DFL) und spezifischen CPU ist YOLO26 bei CPU Inferenz bis zu 43 % schneller als frühere Generationen und erfüllt damit die Anforderungen an geringe Latenzzeiten, auf dieYOLO ausgerichtet war.
- ProgLoss + STAL: Fortschrittliche Verlustfunktionen verbessern die Erkennung kleiner Objekte, eine wichtige Funktion für Drohnenbilder und Robotik.
Code-Beispiel: Training mit Ultralytics
Dieses Beispiel zeigt, wie einfach es ist, ein modernes YOLO26-Modell mit der Ultralytics zu trainieren. Diese einzige Schnittstelle ersetzt die komplexen Konfigurationsdateien und mehrstufigen Pipelines, die bei älteren Repositorys erforderlich sind.
from ultralytics import YOLO
# Load the latest YOLO26 model (recommended over YOLOv7/DAMO-YOLO)
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
Fazit
Sowohl YOLOv7 YOLO maßgeblich zur Weiterentwicklung der BildverarbeitungYOLO . YOLOv7 , dass handgefertigte Architekturen durch clevere Trainingsstrategien immer noch SOTA-Ergebnisse erzielen können, währendYOLO die Leistungsfähigkeit von NAS für Umgebungen mit LatenzbeschränkungenYOLO .
Für den praktischen Einsatz in der heutigen Praxis ist YOLO26 jedoch die definitive Wahl. Es bietet ein ausgewogenes Verhältnis zwischen hoher Genauigkeit und Geschwindigkeit, deutlich geringere Speicheranforderungen während des Trainings im Vergleich zu Transformers und die robuste Unterstützung des Ultralytics . Unabhängig davon, ob Sie für den Edge-Bereich oder die Cloud entwickeln, bieten das End-to-End-Design und die vielseitige Aufgabenunterstützung von YOLO26 den effizientesten Weg zur Produktion.
Weiterführende Informationen
- Entdecken Sie die vollständige Liste der unterstützten Modelle.
- Erfahren Sie, wie Sie mit Ultralytics das Training überwachen können.
- Verstehen Sie die Vorteile von YOLO11, dem leistungsstarken Vorgänger von YOLO26.