PP-YOLOE+ vs. YOLOv7: Eine technische Vertiefung der Objekterkennungsarchitekturen
Bei der Wahl des optimalen Objekterkennungsmodells gilt es, ein Gleichgewicht zwischen der Genauigkeit, der Geschwindigkeit der Schlussfolgerungen und der Komplexität der Bereitstellung zu finden. Zwei wichtige Konkurrenten in diesem Bereich sind PP-YOLOE+ und YOLOv7die beide im Jahr 2022 mit dem Ziel veröffentlicht wurden, die Leistung auf dem neuesten Stand der Technik zu verbessern. In dieser umfassenden Analyse werden ihre einzigartigen Architekturen, Benchmarks und ihre Eignung für reale Anwendungen untersucht, um Entwicklern zu helfen, datengestützte Entscheidungen zu treffen.
Vergleich der Leistungsmetriken
Die folgende Tabelle enthält einen direkten Vergleich der wichtigsten Leistungskennzahlen, einschließlich der durchschnittlichen Genauigkeit (Mean Average Precision,mAP) und der Inferenzgeschwindigkeit auf unterstützter Hardware. Diese Daten helfen, die Kompromisse zwischen dem ankerfreien Ansatz von PP-YOLOE+ und der optimierten Architektur von YOLOv7 zu veranschaulichen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
PP-YOLOE+: Verfeinerte ankerfreie Detektion
PP-YOLOE+ ist eine Weiterentwicklung der YOLO , die von Forschern bei Baidu entwickelt wurde. Es baut auf den Stärken seines Vorgängers PP-YOLOE auf, indem es Verbesserungen am Trainingsprozess und an der Architektur vornimmt, um die Konvergenzgeschwindigkeit und die Leistung bei nachgelagerten Aufgaben weiter zu verbessern. Als ankerfreier Detektor macht er vordefinierte Ankerboxen überflüssig, was das Design vereinfacht und die Abstimmung der Hyperparameter reduziert.
- Autoren: PaddlePaddle Autoren
- Organisation:Baidu
- Datum: 2022-04-02
- ArXiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- Dokumente:PaddleDetection README
Erfahren Sie mehr über PP-YOLOE+
Architektonische Highlights
Die Architektur von PP-YOLOE+ besteht aus einem CSPResNet-Backbone, das mit unterschiedlichen rezeptiven Feldern ausgestattet ist, um Merkmale auf mehreren Ebenen effektiv zu erfassen. Eine Schlüsselinnovation ist der Efficient Task-aligned Head (ET-head), der die Klassifizierungs- und Regressionsaufgaben entkoppelt und gleichzeitig ihre Ausrichtung durch eine spezifische Verlustfunktion sicherstellt.
PP-YOLOE+ verwendet Task Alignment Learning (TAL), eine Strategie zur Zuweisung von Bezeichnungen, die dynamisch positive Proben auf der Grundlage der Übereinstimmung von Klassifizierungs- und Lokalisierungsqualität auswählt. Dadurch wird sichergestellt, dass sich das Modell beim Training auf qualitativ hochwertige Vorhersagen konzentriert. Darüber hinaus verwendet das Modell eine verteilte Trainingsstrategie und vermeidet die Verwendung von Nicht-Standard-Operatoren, was den Einsatz auf verschiedenen vom PaddlePaddle unterstützten Hardware-Plattformen erleichtert.
Hauptmerkmal: Verankerungsfreies Design
Durch das Entfernen von Ankerboxen reduziert PP-YOLOE+ die Komplexität, die mit dem Clustern von Ankern und den Anpassungsschritten verbunden ist. Dies führt oft zu einer besseren Verallgemeinerung bei verschiedenen Datensätzen, bei denen Objekte extreme Seitenverhältnisse haben können.
YOLOv7: Optimiert für Geschwindigkeit in Echtzeit
YOLOv7 setzte bei seiner Veröffentlichung neue Maßstäbe für die Objekterkennung in Echtzeit und konzentrierte sich dabei stark auf die architektonische Effizienz und "Bag-of-Freebies"-Methoden - Techniken, die die Genauigkeit erhöhen, ohne die Inferenzkosten zu steigern. Es wurde entwickelt, um frühere State-of-the-Art-Modelle wie YOLOR und YOLOv5 sowohl in Bezug auf die Geschwindigkeit als auch auf die Genauigkeit zu übertreffen.
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation:Institut für Informationswissenschaft, Academia Sinica, Taiwan
- Datum: 2022-07-06
- ArXiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- Dokumente:Ultralytics YOLOv7
Architektonische Innovationen
Mit YOLOv7 wurde das Extended Efficient Layer Aggregation Network (E-ELAN) eingeführt. Dieses Backbone-Design ermöglicht es dem Netzwerk, durch die Kontrolle der kürzesten und längsten Gradientenpfade mehr verschiedene Merkmale zu erlernen, wodurch die Lernfähigkeit verbessert wird, ohne den ursprünglichen Gradientenpfad zu zerstören.
Ein weiterer wichtiger Beitrag ist die Neuparametrisierung des Modells. Während des Trainings verwendet das Modell eine Struktur mit mehreren Verzweigungen, die für die Inferenz in eine einfachere Struktur mit einer Verzweigung zusammengeführt wird. Auf diese Weise kann YOLOv7 während des Lernens von umfangreichen Merkmalsrepräsentationen profitieren und gleichzeitig eine hohe Geschwindigkeit beim Einsatz beibehalten. Das Modell verwendet auch Hilfsköpfe für das Training von tiefen Netzwerken, wobei eine "Grob-zu-Fein"-Strategie für die Zuweisung von Labels zum Einsatz kommt.
Vergleichende Analyse: Stärken und Schwächen
Bei der Entscheidung zwischen diesen beiden leistungsstarken Modellen ist es wichtig, die spezifischen Anforderungen Ihres Computer-Vision-Projekts zu berücksichtigen.
Genauigkeit vs. Geschwindigkeit
PP-YOLOE+ bietet eine breite Palette von Modellen an. Die PP-YOLOE+s ist sehr effizient für Randgeräte, während PP-YOLOE+x erreicht mAP auf höchstem Niveau, wenn auch mit niedrigeren Bildraten. YOLOv7 zeichnet sich im "Sweet Spot" der Echtzeit-Erkennung aus und liefert im Vergleich zu vielen Mitbewerbern oft höhere FPS auf GPU für ein bestimmtes Genauigkeitsniveau. Für Anwendungen mit hohem Durchsatz wie Verkehrsüberwachungist die Inferenzoptimierung von YOLOv7 von Vorteil.
Ökosystem und Benutzerfreundlichkeit
Einer der Hauptunterschiede liegt in ihren Ökosystemen. PP-YOLOE+ ist tief im PaddlePaddle verwurzelt. Dies ist zwar leistungsstark, kann aber für Teams, die in erster Linie an PyTorch gewöhnt sind, eine steilere Lernkurve bedeuten. YOLOv7 basiert auf PyTorch und ist damit für die breitere Forschungsgemeinschaft leichter zugänglich.
Beide Modelle können jedoch im Vergleich zu modernen Standards komplex zu trainieren und fein abzustimmen sein. YOLOv7 beinhaltet komplexe Ankerberechnungen und Hyperparameter-Empfindlichkeit, während PP-YOLOE+ das Navigieren in den Paddle-Erkennungskonfigurationen erfordert.
Der Ultralytics : Warum aufrüsten?
PP-YOLOE+ und YOLOv7 sind zwar hervorragende Modelle, aber der Bereich der künstlichen Intelligenz entwickelt sich rasant. Ultralytics Modelle, wie YOLOv8 und das hochmoderne YOLO11stellen die nächste Generation der KI dar und lösen viele der Probleme, die bei früheren Architekturen in Bezug auf Benutzerfreundlichkeit und Effizienz aufgetreten sind.
Hervorragendes Benutzererlebnis und Ökosystem
Ultralytics legt den Schwerpunkt auf Benutzerfreundlichkeit. Im Gegensatz zu den komplexen Konfigurationsdateien, die bei anderen Frameworks oft erforderlich sind, können Ultralytics mit nur wenigen Zeilen Python oder einfachen CLI trainiert, validiert und bereitgestellt werden.
- Vereinheitlichte API: Wechseln Sie nahtlos zwischen Aufgaben wie Objekterkennung, Instanzsegmentierung, Klassifizierung, Posenschätzung und OBB.
- Gepflegtes Ökosystem: Profitieren Sie von häufigen Updates, einer florierenden Community und einer umfangreichen Dokumentation, die Ihnen hilft, Probleme schnell zu lösen.
- Integration: Native Unterstützung für die Verfolgung von Experimenten (MLflow, Comet), Datensatzverwaltung und vereinfachten Modellexport in Formate wie ONNX, TensorRT und CoreML.
Leistung und Effizienz
Ultralytics sind auf ein optimales Leistungsgleichgewicht ausgelegt. Sie erreichen oft eine höhere Genauigkeit als YOLOv7 bei geringerem Rechenaufwand. Außerdem sind sie speichereffizient und benötigen weniger CUDA Speicher während des Trainings benötigen, verglichen mit vielen transformatorbasierten Alternativen oder älteren YOLO . Diese Trainingseffizienz ermöglicht schnellere Iterationen und geringere Cloud-Computing-Kosten.
Code-Beispiel: Einfachheit in Aktion
Sehen Sie, wie einfach es ist, ein modernes Ultralytics zu trainieren, verglichen mit älteren Workflows:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model (recommended for best performance)
model = YOLO("yolo11n.pt")
# Train the model on a dataset (e.g., COCO8)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")
Zukunftssichere Projekte
Durch die Übernahme des Ultralytics wird sichergestellt, dass Sie nicht nur ein Modell, sondern eine Plattform verwenden, die sich weiterentwickelt. Mit Unterstützung für die neuesten Python Versionen und Hardware-Beschleunigern reduzieren Sie die technische Verschuldung und gewährleisten die langfristige Wartbarkeit Ihrer KI-Lösungen.
Fazit
PP-YOLOE+ bleibt eine gute Wahl für diejenigen, die in das PaddlePaddle investiert haben, da es eine robuste, ankerfreie Architektur bietet. YOLOv7 ist weiterhin eine hervorragende Option für Projekte, die einen hohen GPU erfordern. Für Entwickler, die eine vielseitige, benutzerfreundliche und leistungsstarke Lösung suchen, die das gesamte Spektrum an Computer-Vision-Aufgaben abdeckt, Ultralytics YOLO11 der empfohlene Weg nach vorn.
Andere Modelle entdecken
Erweitern Sie Ihr Verständnis für die Objekterkennungslandschaft mit diesen Vergleichen: