Zum Inhalt springen

YOLOv7 PP-YOLOE+: Architektur-Showdown bei der Echtzeit-Objekterkennung

Die Landschaft der Computervision ist geprägt von ständiger Innovation, und 2022 war ein entscheidendes Jahr, in dem zwei äußerst einflussreiche Architekturen auf den Markt kamen: YOLOv7 und PP-YOLOE+. Während YOLOv7 die Tradition der YOLO mit Schwerpunkt auf der Optimierung von „Bag-of-Freebies” YOLOv7 , stand PP-YOLOE+ für Baidus Vorstoß in Richtung einer leistungsstarken, ankerfreien Erkennung innerhalb des PaddlePaddle .

Für Forscher und Ingenieure hängt die Wahl zwischen diesen Modellen oft von den spezifischen Framework-Anforderungen (PyTorch . PaddlePaddle) und der Einsatzhardware ab. Dieser Leitfaden bietet einen detaillierten technischen Vergleich ihrer Architekturen, Leistungskennzahlen und Benutzerfreundlichkeit und stellt gleichzeitig moderne Alternativen wie YOLO26 vor, das die besten Funktionen dieser Vorgänger in einem nahtlosen, durchgängigen NMS Framework vereint.

Leistungskennzahlen im Vergleich

Die folgende Tabelle vergleicht die Leistung von YOLOv7 PP-YOLOE+ in verschiedenen Modellskalen. Während YOLOv7 robuste Erkennungsfähigkeiten YOLOv7 , bietet PP-YOLOE+ einen äußerst wettbewerbsfähigen Kompromiss zwischen Parameteranzahl und Inferenzgeschwindigkeit.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

YOLOv7: Das „Bag-of-Freebies“-Kraftpaket

YOLOv7 wurde Mitte 2022 veröffentlicht und YOLOv7 die Grenzen der Objekterkennung YOLOv7 , indem es sich auf architektonische Effizienz und Trainingsoptimierungsstrategien konzentriert, die die Inferenzkosten nicht erhöhen.

Wesentliche Architekturmerkmale

YOLOv7 E-ELAN (Extended Efficient Layer Aggregation Network)YOLOv7 , eine neuartige Architektur, die entwickelt wurde, um die kürzesten und längsten Gradientenpfade zu steuern, wodurch das Netzwerk vielfältigere Merkmale lernen kann. Außerdem wurde in hohem Maße ein „trainierbarer Bag-of-Freebies” genutzt, einschließlich Modell-Reparametrisierung und dynamischer Label-Zuweisung.

YOLOv7 jedoch ein ankerbasierter Detektor. Diese Methodik hat sich zwar bewährt, erfordert jedoch häufig eine sorgfältige Abstimmung der Ankerboxen für benutzerdefinierte Datensätze, was den Trainingsprozess im Vergleich zu neueren ankerfreien Implementierungen in YOLOv8 oder YOLO26

Erfahren Sie mehr über YOLOv7

PP-YOLOE+: Der ankerfreie Herausforderer

PP-YOLOE+ ist eine Weiterentwicklung von PP-YOLOE, das von Baidu als Teil seiner PaddleDetection-Suite entwickelt wurde. Es wurde entwickelt, um die Einschränkungen ankerbasierter Methoden zu beheben und gleichzeitig die Inferenzgeschwindigkeit auf unterschiedlicher Hardware zu maximieren.

Wesentliche Architekturmerkmale

PP-YOLOE+ nutzt ein ankerfrei Paradigma, wodurch die Anzahl der Hyperparameter erheblich reduziert wird. Sein Kern basiert auf dem RepResBlock (inspiriert von RepVGG) und ein Aufgabenorientiertes Lernen (TAL) Strategie, die Klassifizierungs- und Lokalisierungsaufgaben dynamisch aufeinander abstimmt. Dies führt zu einer hohen Präzision, insbesondere bei der x (extra große) Skala, wo es eine beeindruckende 54,7 % mAP.

Überlegungen zum Ökosystem

PP-YOLOE+ bietet zwar eine hervorragende Leistung, ist jedoch eng mit dem PaddlePaddle Framework. Entwickler, die an PyTorch gewöhnt sind, PyTorch mit einer steilen Lernkurve und Reibungsverlusten konfrontiert sein, wenn sie versuchen, diese Modelle in bestehende PyTorch MLOps-Pipelines zu integrieren oder wenn sie Standard-Bereitstellungstools wie TorchScript.

Vergleich: Architektur und Benutzerfreundlichkeit

Ankerbasiert vs. Ankerfrei

Der deutlichste Unterschied liegt in ihrer Herangehensweise an Begrenzungsrahmen. YOLOv7 verwendet vordefinierte Ankerboxen, die als Referenzvorlagen für die Objekterkennung dienen. Dies funktioniert gut für Standarddatensätze wie COCO , kann jedoch bei unregelmäßigen Objektformen in Datensätzen wie DOTA-v2 Probleme bereiten, sofern diese nicht manuell zurückgegeben werden.

PP-YOLOE+ ist ankerfrei und sagt direkt die Mitte von Objekten und deren Abstände zu Grenzen voraus. Dies vereinfacht im Allgemeinen die Trainingspipeline. Moderne Ultralytics wie YOLO11 und YOLO26, haben ebenfalls vollständig ankerfreie und sogar NMS Architekturen übernommen, um Flexibilität und Geschwindigkeit zu maximieren.

Speicher und Effizienz

Ultralytics sind für ihre Trainingseffizienz bekannt. Während YOLOv7 aufgrund komplexer Verkettungspfade in E-ELAN für seine größten Modelle erheblichen GPU YOLOv7 , optimiert PP-YOLOE+ dies durch Neuparametrisierung. Neuere Iterationen wie YOLO26 übertreffen jedoch beide, indem sie schwerfällige Komponenten wie Distribution Focal Loss (DFL) entfernen, was zu deutlich geringeren Speicheranforderungen sowohl während des Trainings als auch während der Inferenz führt.

Die Zukunft: Warum zu YOLO26 wechseln?

Während YOLOv7 PP-YOLOE+ im Jahr 2022 auf dem neuesten Stand der Technik waren, hat sich das Gebiet rasant weiterentwickelt. YOLO26, das Ultralytics Januar 2026 von Ultralytics veröffentlicht wurde, stellt den Höhepunkt dieser Fortschritte dar und behebt die spezifischen Schwachstellen früherer Modelle.

End-to-End NMS-freies Design

Einer der größten Engpässe sowohl bei YOLOv7 bei PP-YOLOE+ ist die Non-Maximum Suppression (NMS), ein Nachbearbeitungsschritt, der erforderlich ist, um doppelte Erkennungen zu filtern. YOLO26 ist von Haus aus durchgängig NMS. Dadurch entfällt die durch NMS verursachte Latenzschwankung NMS überfüllten Szenen, was es ideal für Echtzeitanwendungen wie autonome Fahrzeuge und Verkehrsüberwachung macht.

Optimiert für Edge-Computing

YOLO26 zeichnet sich durch die Entfernung von Distribution Focal Loss (DFL) aus. Diese Vereinfachung der Architektur optimiert den Exportprozess in Formate wie CoreML und TFLiteund gewährleistet eine bessere Kompatibilität mit Geräten mit geringem Stromverbrauch. In Kombination mit Optimierungen für CPU bietet YOLO26 im Vergleich zu früheren Generationen CPU um bis zu 43 % höhere CPU , was für IoT-Implementierungen ein entscheidender Vorteil ist.

Fortgeschrittenes Training Stabilität

Inspiriert von Innovationen im Bereich des Trainings großer Sprachmodelle (LLM) integriert YOLO26 den MuSGD-Optimierer, eine Mischung aus SGD Muon (inspiriert von Moonshot AI's Kimi K2). Dies führt zu einer schnelleren Konvergenz und stabileren Trainingsläufen, wodurch das „Ausprobieren” reduziert wird, das oft mit dem Training von Deep-Learning-Modellen verbunden ist. Darüber hinaus steigert die Einbindung von ProgLoss und STAL (Soft-Task Alignment Learning) die Leistung bei der Erkennung kleiner Objekte erheblich, einem Bereich, in dem ältere Modelle oft Schwierigkeiten hatten.

Erfahren Sie mehr über YOLO26

Benutzerfreundlichkeit mit Ultralytics

Eines der charakteristischen Merkmale des Ultralytics ist die Benutzerfreundlichkeit. Ganz gleich, ob Sie YOLOv8, YOLOv9oder das hochmoderne YOLO26 verwenden, die API bleibt konsistent und einfach.

Im Gegensatz zur Einrichtung der PaddlePaddle für PP-YOLOE+, die möglicherweise CUDA bestimmte CUDA und separate Bibliotheksinstallationen erfordert, laufen Ultralytics sofort mit einem Standard pip install ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO26n for maximum speed)
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset with a single command
# The system handles data augmentation, logging, and plots automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Fazit

Beide YOLOv7 und PP-YOLOE+ sind leistungsfähige Architekturen. YOLOv7 eine gute Wahl für diejenigen, die sich intensiv mit der klassischen YOLO und PyTorch beschäftigen, und bietet eine hohe Genauigkeit. PP-YOLOE+ ist eine ausgezeichnete Option für Nutzer innerhalb des Baidu-Ökosystems und bietet eine hohe Parametereffizienz.

Für Entwickler, die ein gut gepflegtes Ökosystem, unübertroffene Vielseitigkeit (von Erkennung über Segmentierung bis hin zu Posenschätzung und OBB) und die neuesten Leistungsdurchbrüche suchen, ist Ultralytics jedoch die überlegene Wahl. Sein End-to-End-Design, der reduzierte Speicherbedarf und aufgabenspezifische Verbesserungen (wie RLE für Posenschätzung und semantische Segmentierungsverluste) machen es zur zukunftssichersten Lösung für reale KI-Herausforderungen.

Um Ihre Reise mit der fortschrittlichsten Vision-KI zu beginnen, entdecken Sie die Ultralytics für nahtloses Training und nahtlosen Einsatz.

Andere Modelle entdecken

Möchten Sie sehen, wie andere Modelle abschneiden? Sehen Sie sich unsere Vergleiche YOLOv6 YOLOv7 sowie RT-DETR YOLOv8 an, um die perfekte Lösung für die Anforderungen Ihres Projekts zu finden.


Kommentare