YOLOv7 vs. YOLO: Ein detaillierter technischer Vergleich
Die Auswahl der optimalen Architektur für die Objekterkennung ist eine zentrale Entscheidung bei der Entwicklung von Computer Vision, bei der es darum geht, die konkurrierenden Anforderungen in Bezug auf Inferenzlatenz, Genauigkeit und Zuweisung von Rechenressourcen auszugleichen. Diese technische Analyse kontrastiert YOLOv7 und YOLO, zwei einflussreiche Modelle, die Ende 2022 veröffentlicht wurden und die Grenzen der Echtzeit-Erkennung verschoben haben. Wir untersuchen ihre einzigartigen architektonischen Innovationen, ihre Benchmark-Leistung und ihre Eignung für verschiedene Einsatzszenarien, um Sie bei der Auswahl zu unterstützen.
YOLOv7: Optimierung des Trainings für Echtzeit-Präzision
YOLOv7 stellt eine bedeutende Weiterentwicklung der YOLO dar, bei der die architektonische Effizienz und fortschrittliche Trainingsstrategien im Vordergrund stehen, um die Leistung zu verbessern, ohne die Inferenzkosten in die Höhe zu treiben. Es wurde von den ursprünglichen Autoren von Scaled-YOLOv4 entwickelt und führte Methoden ein, die es dem Netzwerk ermöglichen, während der Trainingsphase effektiver zu lernen.
Autoren: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Architektonische Innovationen
Den Kern von YOLOv7 bildet das Extended Efficient Layer Aggregation Network (E-ELAN). Diese Architektur ermöglicht es dem Modell, verschiedene Merkmale zu erlernen, indem es die kürzesten und längsten Gradientenpfade kontrolliert und so die Konvergenz verbessert, ohne den bestehenden Gradientenfluss zu unterbrechen. Darüber hinaus verwendet YOLOv7 "trainable bag-of-freebies", eine Reihe von Optimierungstechniken, die während der Verarbeitung der Trainingsdaten angewandt werden und die Struktur des Modells während des Einsatzes nicht beeinflussen. Dazu gehören die Neuparametrisierung des Modells und Hilfsköpfe für die Tiefenüberwachung, die sicherstellen, dass das Backbone robuste Merkmale erfasst.
Geschenktüte
Der Begriff "Bag-of-Freebies" bezieht sich auf Methoden, die die Trainingskomplexität erhöhen, um die Genauigkeit zu steigern, aber während der Echtzeit-Inferenz keine Kosten verursachen. Diese Philosophie stellt sicher, dass das endgültige exportierte Modell leichtgewichtig bleibt.
Stärken und Schwächen
YOLOv7 ist bekannt für seine hervorragende Ausgewogenheit beim MS COCO und bietet für seine Größe eine hohe mittlere Präzision (mAP ). Seine Hauptstärke liegt in hochauflösenden Aufgaben, bei denen es auf Präzision ankommt. Aufgrund der Komplexität der Architektur kann es jedoch schwierig sein, sie für kundenspezifische Forschung zu modifizieren. Während die Inferenz effizient ist, ist der Trainingsprozess ressourcenintensiv und benötigt im Vergleich zu neueren Architekturen viel GPU .
YOLO: Neuronale Architektur auf der Suche nach der Grenze
YOLO, das aus dem Forschungsteam von Alibaba hervorgegangen ist, verfolgt einen anderen Ansatz, indem es die neuronale Architektursuche (NAS) nutzt, um automatisch effiziente Netzwerkstrukturen zu finden, die auf Umgebungen mit niedriger Latenz zugeschnitten sind.
Authors: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO
Architektonische Innovationen
YOLO stellt MAE-NAS vor, eine Methode zur Erzeugung eines Backbone namens GiraffeNet, das den Durchsatz unter bestimmten Latenzbedingungen maximiert. Ergänzt wird dies durch den ZeroHead, einen leichtgewichtigen Erkennungskopf, der Klassifizierungs- und Regressionsaufgaben entkoppelt und gleichzeitig schwere Parameter entfernt, wodurch die Modellgröße erheblich reduziert wird. Die Architektur nutzt auch einen effizienten Hals, bekannt als RepGFPN (Generalized Feature Pyramid Network), für die Fusion von Merkmalen auf mehreren Ebenen und gleicht die Klassifizierungsergebnisse mit der Lokalisierungsgenauigkeit ab, indem sie AlignedOTA für die Label-Zuweisung verwendet.
Stärken und Schwächen
YOLO eignet sich hervorragend für Edge-AI-Szenarien. Seine kleineren Varianten (Tiny/Small) bieten beeindruckende Geschwindigkeiten und eignen sich daher für mobile Geräte und IoT-Anwendungen. Die Verwendung von NAS stellt sicher, dass die Architektur mathematisch für Effizienz optimiert ist. Umgekehrt bleiben die größten YOLO bei der reinen Genauigkeit manchmal hinter den YOLOv7 der höchsten Stufe zurück. Da es sich um ein forschungszentriertes Projekt handelt, fehlt ihm außerdem das umfangreiche Ökosystem und die Tooling-Unterstützung, die in breiteren Frameworks zu finden sind.
Erfahren Sie mehr über DAMO-YOLO
Vergleich der Leistungsmetriken
Die folgende Tabelle verdeutlicht die Leistungsabwägungen. YOLOv7 erreicht im Allgemeinen eine höhere GenauigkeitmAP) auf Kosten einer höheren Rechenkomplexität (FLOPs), während YOLO Geschwindigkeit und Parametereffizienz bevorzugt, insbesondere in seinen kleineren Konfigurationen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Anwendungen in der realen Welt
Die Wahl zwischen diesen Modellen hängt oft von der eingesetzten Hardware und den spezifischen Bildverarbeitungsaufgaben ab.
- High-End Sicherheit & Analytik (YOLOv7): Für Anwendungen, die auf leistungsstarken Servern laufen und bei denen es auf jeden Prozentpunkt Genauigkeit ankommt, wie z. B. Sicherheitsalarmsysteme oder detailliertes Verkehrsmanagement, ist YOLOv7 ein starker Kandidat. Dank seiner Fähigkeit, feine Details aufzulösen, eignet es sich für die Erkennung kleiner Objekte in hochauflösenden Videoströmen.
- Edge-Geräte und Robotik (YOLO): In Szenarien mit strengen Latenzbudgets, wie z.B. in der autonomen Robotik oder bei mobilen Anwendungen, glänzt die leichtgewichtige Architektur von YOLO. Die geringe Anzahl von Parametern reduziert den Druck auf die Speicherbandbreite, was für batteriebetriebene Geräte zur Objekterkennung entscheidend ist.
Der Ultralytics : Warum modernisieren?
YOLOv7 und YOLO sind zwar fähige Modelle, aber die KI-Landschaft entwickelt sich schnell weiter. Entwickler und Forscher, die eine zukunftssichere, effiziente und benutzerfreundliche Lösung suchen, sollten das Ultralytics in Betracht ziehen, insbesondere YOLO11. Die Aufrüstung auf moderne Ultralytics bietet mehrere deutliche Vorteile:
1. Rationalisierte Benutzerfreundlichkeit
Bei den Ultralytics steht die Erfahrung der Entwickler im Vordergrund. Im Gegensatz zu Research Repositories, die oft komplexe Umgebungseinstellungen und die manuelle Ausführung von Skripten erfordern, bietet Ultralytics eine einheitliche Python und CLI. Sie können Modelle in nur wenigen Codezeilen trainieren, validieren und bereitstellen.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. Umfassende Vielseitigkeit
YOLOv7 und YOLO sind in erster Linie für die Erkennung von Bounding Boxen konzipiert. Im Gegensatz dazu unterstützt YOLO11 eine breite Palette von Aufgaben innerhalb desselben Frameworks, einschließlich Instanzsegmentierung, Posenschätzung, orientierte Objekterkennung (OBB) und Bildklassifizierung. So können Sie komplexe Probleme - wie die Analyse der menschlichen Körperhaltung beim Sport -angehen , ohne dieBibliothek wechseln zu müssen.
3. Überlegene Leistung und Effizienz
YOLO11 basiert auf jahrelanger Forschungs- und Entwicklungsarbeit und bietet modernste Genauigkeit bei deutlich reduziertem Rechenaufwand. Es verwendet einen ankerfreien Erkennungskopf und optimierte Backend-Operationen, was zu einer geringeren Speichernutzung sowohl beim Training als auch bei der Inferenz im Vergleich zu älteren YOLO oder transformatorbasierten Modellen wie RT-DETR. Diese Effizienz führt zu niedrigeren Cloud-Computing-Kosten und schnellerer Verarbeitung auf Edge-Hardware.
4. Robustes Ökosystem und Unterstützung
Die Übernahme eines Ultralytics verbindet Sie mit einem florierenden, gut gewarteten Ökosystem. Dank regelmäßiger Aktualisierungen, umfangreicher Dokumentation und aktiver Community-Kanäle müssen Sie sich nie mit nicht unterstütztem Code herumschlagen. Darüber hinaus erleichtern nahtlose Integrationen mit Tools wie Ultralytics HUB die Bereitstellung von Modellen und die Verwaltung von Datensätzen.
Fazit
Sowohl YOLOv7 als auch YOLO leisteten im Jahr 2022 einen bedeutenden Beitrag zum Bereich der Objekterkennung. YOLOv7 demonstrierte, wie trainierbare Optimierungstechniken die Genauigkeit erhöhen können, während YOLO die Leistungsfähigkeit der neuronalen Architektursuche bei der Erstellung effizienter, kantenfertiger Modelle unter Beweis stellte.
Aber für die heutigen Produktionsumgebungen, YOLO11 den Höhepunkt der Bildverarbeitungs-Technologie dar. Durch die Kombination der Geschwindigkeit von YOLO, der Präzision von YOLOv7 und der unübertroffenen Benutzerfreundlichkeit des Ultralytics bietet YOLO11 eine vielseitige Lösung, die die Entwicklungszyklen beschleunigt und die Anwendungsleistung verbessert. Ganz gleich, ob Sie eine Smart-City-Infrastruktur aufbauen oder die Qualitätskontrolle in der Fertigung optimieren, Ultralytics bieten die für den Erfolg erforderliche Zuverlässigkeit und Effizienz.
Andere Modelle entdecken
Wenn Sie sich für weitere Optionen im Bereich der Computer Vision interessieren, sollten Sie diese Modelle in Betracht ziehen:
- Ultralytics YOLOv8: Der Vorgänger von YOLO11, bekannt für seine Robustheit und die breite Akzeptanz in der Industrie.
- YOLOv10: Ein Echtzeit-Detektor mit Schwerpunkt auf NMS Training für geringere Latenzzeiten.
- YOLOv9: Einführung von Programmable Gradient Information (PGI) zur Reduzierung von Informationsverlusten in tiefen Netzen.
- RT-DETR: Ein transformatorbasierter Detektor, der eine hohe Genauigkeit bietet, aber in der Regel mehr GPU benötigt.
- YOLOv6: Ein weiteres, auf Effizienz ausgerichtetes Modell, das für industrielle Anwendungen optimiert ist.