PP-YOLOE+ vs. YOLOX: Die Entwicklung von Echtzeit-Objektdetektoren
Die Landschaft der Computervision wurde maßgeblich durch die rasante Entwicklung von Objekterkennungsmodellen geprägt. Zu den bemerkenswerten Meilensteinen auf diesem Weg zählen PP-YOLOE+ und YOLOX, zwei Architekturen, die die Grenzen der Echtzeitleistung und Genauigkeit erweitert haben. Das Verständnis ihrer architektonischen Nuancen, Leistungsabwägungen und idealen Einsatzszenarien ist für Forscher und Entwickler, die an der nächsten Generation visueller Erkennungssysteme arbeiten, von entscheidender Bedeutung.
Modellreihe und Details
Bevor wir uns mit den technischen Architekturen befassen, ist es hilfreich, die Ursprünge beider Modelle in einen Kontext zu setzen. Beide wurden entwickelt, um bestimmte Engpässe bei der Objekterkennung zu beseitigen, und wurden stark von den hinter ihnen stehenden Organisationen beeinflusst.
PP-YOLOE+ Details:
- Autoren: PaddlePaddle Autoren
- Organisation: Baidu
- Datum: 02.04.2022
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: PaddlePaddle
- Dokumente: PaddleDetection PP-YOLOE+ README
Erfahren Sie mehr über PP-YOLOE+
Details zu YOLOX:
- Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
- Organisation: Megvii
- Datum: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Dokumente: Offizielle Dokumentation zu YOLOX
Architektonische Innovationen
Die wesentlichen Unterschiede zwischen diesen beiden Detektoren liegen in ihrem Ansatz zur Merkmalsextraktion und zur Vorhersage von Begrenzungsrahmen.
YOLOX sorgte 2021 für Aufsehen, indem es die YOLO erfolgreich an ein ankerfreies Design anpasste. Durch den Wegfall der Ankerboxen reduzierte YOLOX die Anzahl der für benutzerdefinierte Datensätze erforderlichen Designparameter und heuristischen Anpassungen erheblich. Darüber hinaus führte es einen entkoppelten Kopf ein, der Klassifizierungs- und Lokalisierungsaufgaben in unterschiedliche neuronale Pfade trennt. Diese Trennung löste den inhärenten Konflikt zwischen der Klassifizierung eines Objekts und der Regression seiner räumlichen Koordinaten, was zu einer schnelleren Konvergenz während des Trainings führte.
PP-YOLOE+, entwickelt von Baidu, ist stark optimiert für das PaddlePaddle Ökosystem stark optimiert. Es baut auf seinem Vorgänger PP-YOLOv2 auf und führt eine dynamische Label-Zuweisungsstrategie (TAL) sowie ein neuartiges Backbone namens CSPRepResNet ein. Dieses Backbone nutzt strukturelle Reparametrisierung, sodass das Modell während des Trainings von komplexen Multi-Branch-Architekturen profitieren kann und sich gleichzeitig nahtlos in ein schnelles Single-Path-Netzwerk für die Inferenz einfügt.
Strukturelle Neuparametrisierung
Die strukturelle Neuparametrisierung ermöglicht es einem Modell, mit mehreren parallelen Verzweigungen zu trainieren (wodurch der Gradientenfluss verbessert wird) und diese Verzweigungen dann mathematisch zu einer einzigen Faltungsschicht für die Bereitstellung zusammenzufassen, wodurch die Inferenzgeschwindigkeit ohne Einbußen bei der Genauigkeit erhöht wird.
Leistung und Metriken im Vergleich
Beim direkten Vergleich dieser Modelle wird deutlich, dass sie leicht unterschiedliche Ziele im Leistungsspektrum verfolgen. PP-YOLOE+ erreicht im Allgemeinen eine höhere absolute Genauigkeit, während YOLOX sich durch extrem leichtgewichtige Varianten auszeichnet, die für stark eingeschränkte Hardware geeignet sind.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Hinweis: Die Werte mit der besten Leistung in jedem relevanten segment fett hervorgehoben.
Während YOLOX Nano- und Tiny-Varianten anbietet, die kaum Speicherplatz oder CUDA beanspruchen, lässt sich PP-YOLOE+ unglaublich gut auf Server-Hardware skalieren, was es zu einer robusten Wahl für anspruchsvolle industrielle Anwendungen innerhalb des Baidu-Ökosystems macht.
Anwendungen in der realen Welt
Die Wahl zwischen diesen Frameworks hängt oft von den Integrationsanforderungen und Hardwarezielen ab.
Wo YOLOX sich auszeichnet
Aufgrund seiner Ankerfreiheit und der Verfügbarkeit von Extreme-Edge-Varianten ist YOLOX in der Robotik und beim Einsatz von Mikrocontrollern sehr beliebt. Seine einfache Nachbearbeitungspipeline ermöglicht eine einfachere Portierung auf kundenspezifische NPU-Hardwareformate wie TensorRT und NCNN.
Wo PP-YOLOE+ sich auszeichnet
Für Unternehmen, die tief in asiatische Fertigungszentren integriert sind und die Technologieplattform von Baidu nutzen, bietet PP-YOLOE+ einen voroptimierten Weg zur Bereitstellung. Es glänzt in Szenarien mit hochpräzisen Qualitätsprüfungen, die auf leistungsstarken Server-Racks laufen, wo strenge Echtzeitanforderungen etwas höhere Modellgewichte zulassen.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen PP-YOLOE+ und YOLOX hängt von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen ab.
Wann PP-YOLOE+ wählen?
PP-YOLOE+ ist eine gute Wahl für:
- PaddlePaddle : Unternehmen mit bestehender Infrastruktur, die auf PaddlePaddle -Framework und den Tools von Baidu basiert.
- Paddle Lite Edge-Bereitstellung: Bereitstellung auf Hardware mit hochoptimierten Inferenz-Kernels speziell für die Paddle Lite- oder Paddle-Inferenz-Engine.
- Hochpräzise serverseitige Erkennung: Szenarien, in denen maximale Erkennungsgenauigkeit auf leistungsstarken GPU Priorität hat und keine Abhängigkeit von Frameworks besteht.
Wann YOLOX wählen?
YOLOX wird empfohlen für:
- Ankerfreie Erkennung Forschung: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Grundlage für Experimente mit neuen Erkennungsköpfen oder Verlustfunktionen nutzt.
- Ultraleichte Edge-Geräte: Einsatz auf Mikrocontrollern oder älterer mobiler Hardware, wo die extrem geringe Speicherbelegung der YOLOX-Nano-Variante (0,91 Millionen Parameter) entscheidend ist.
- SimOTA-Labelzuweisungsstudien: Forschungsprojekte, die sich mit optimalen transportbasierten Labelzuweisungsstrategien und deren Auswirkungen auf die Trainingskonvergenz befassen.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Ultralytics von Ultralytics : Geben Sie YOLO26 ein
Während PP-YOLOE+ und YOLOX hervorragende Meilensteine in der Forschung darstellen, erfordert die moderne Einsatzlandschaft eine einheitlichere, entwicklerfreundlichere Erfahrung mit überlegener Effizienz. Hier setzt Ultralytics völlig neue Maßstäbe für moderne visuelle KI.
Für Teams, die den Übergang von isolierten Forschungsrepositorien zu produktionsreifen Systemen anstreben, Ultralytics ein robustes, gut gepflegtes Ökosystem. Das Trainieren eines Modells erfordert keine Konfiguration komplexer Umgebungen mehr, sondern ist so einfach wie der Zugriff auf eine einheitliche Python .
Zu den wichtigsten Vorteilen von Ultralytics gehören:
- End-to-End-Design NMS: Im Gegensatz zu PP-YOLOE+ und YOLOX, die Non-Maximum Suppression (NMS) zum Filtern redundanter Begrenzungsrahmen benötigen, ist YOLO26 von Haus aus End-to-End. Dadurch werden Latenzengpässe beseitigt und die Bereitstellungslogik erheblich vereinfacht.
- Bis zu 43 % schnellere CPU : Durch die strategische Entfernung des Distribution Focal Loss (DFL) erreicht YOLO26 beispiellose Inferenzgeschwindigkeiten auf CPU und ist damit für Edge-Computing und Geräte mit geringem Stromverbrauch weit überlegen.
- MuSGD Optimizer: Inspiriert von Moonshot AI's Kimi K2, bringt dieser hybride Optimierer LLM-Trainingsstabilität in die Computer Vision, sorgt für eine deutlich schnellere Konvergenz und minimiert den Speicherbedarf während der Trainingsphasen.
- ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen sorgen für deutliche Verbesserungen bei der Erkennung kleiner Objekte, was für den Drohnenbetrieb und hochdetaillierte Luftbilder von entscheidender Bedeutung ist.
- Vielseitigkeit: Während PP-YOLOE+ und YOLOX sich ausschließlich auf die Erkennung konzentrieren, bewältigt YOLO26 nahtlos die Instanzsegmentierung, Posenschätzung und Oriented Bounding Boxes (OBB) unter Verwendung derselben intuitiven Syntax.
Optimiertes Training mit Ultralytics
Die Speichereffizienz und Trainingsgeschwindigkeit der Ultralytics sind unübertroffen und übertreffen transformatorbasierte Alternativen, die einen immensen CUDA erfordern, bei weitem. Sie können die Leistungsfähigkeit von YOLO26 mit nur wenigen Zeilen Code nutzen:
from ultralytics import YOLO
# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
Entdecken Sie die Ultralytics
Für Teams, die nach einer No-Code-Lösung suchen, bietet die Ultralytics cloudbasierte Schulungen, integrierte Datensatzannotation und die Bereitstellung aller YOLO mit einem Klick.
Fazit
Sowohl PP-YOLOE+ als auch YOLOX haben sich ihren Platz in der Geschichte der Bildverarbeitung verdient, da sie jeweils eine hohe Genauigkeit und ein leichtgewichtiges, ankerfreies Design bieten. Für Unternehmen, die die Zukunft der KI in der Landwirtschaft, in Smart Cities und im Einzelhandel gestalten, ist Ultralytics aufgrund seiner kontinuierlichen Wartung, Benutzerfreundlichkeit und nativen NMS Architektur jedoch die unbestrittene Wahl.
Wenn Sie alternative Architekturen für bestimmte Benchmarks untersuchen, könnte es für Sie auch interessant sein, die ältere YOLO11 oder transformatorbasierten Optionen wie RT-DETR zu Ultralytics . Durch die Ultralytics zum einheitlichen Ultralytics sparen Entwickler wertvolle Zeit und Ressourcen und erzielen gleichzeitig modernste Ergebnisse bei jeder Edge- oder Cloud-Bereitstellung.