PP-YOLOE+ vs. YOLOX: Die Entwicklung von Echtzeit-Objektdetektoren

Die Landschaft der Computervision wurde maßgeblich durch die rasante Entwicklung von Objekterkennungsmodellen geprägt. Zu den bemerkenswerten Meilensteinen auf diesem Weg zählen PP-YOLOE+ und YOLOX, zwei Architekturen, die die Grenzen der Echtzeitleistung und Genauigkeit erweitert haben. Das Verständnis ihrer architektonischen Nuancen, Leistungsabwägungen und idealen Einsatzszenarien ist für Forscher und Entwickler, die an der nächsten Generation visueller Erkennungssysteme arbeiten, von entscheidender Bedeutung.

Modellreihe und Details

Bevor man sich mit den technischen Architekturen befasst, ist es hilfreich, die Ursprünge beider Modelle zu kontextualisieren. Jedes wurde entwickelt, um spezifische Engpässe in der Objekterkennung zu adressieren, stark beeinflusst von ihren unterstützenden Organisationen.

PP-YOLOE+ Details:

Autoren: PaddlePaddle Autoren
Organisation: Baidu
Datum: 02.04.2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Dokumentation: PaddleDetection PP-YOLOE+ README

Erfahren Sie mehr über PP-YOLOE+

Details zu YOLOX:

Autoren: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun
Organisation: Megvii
Datum: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Dokumentation: Offizielle YOLOX-Dokumentation

Erfahren Sie mehr über YOLOX

Architektonische Innovationen

Die wesentlichen Unterschiede zwischen diesen beiden Detektoren liegen in ihrem Ansatz zur Merkmalsextraktion und zur Vorhersage von Begrenzungsrahmen.

YOLOX sorgte 2021 für Aufsehen, indem es die YOLO-Familie erfolgreich an ein ankerfreies Design anpasste. Durch die Entfernung von Ankerboxen reduzierte YOLOX die Anzahl der Designparameter und die heuristische Abstimmung, die für benutzerdefinierte Datensätze erforderlich waren, erheblich. Darüber hinaus führte es einen entkoppelten Kopf ein, der classification- und Lokalisierungsaufgaben in separate neuronale Pfade aufteilt. Diese Trennung löste den inhärenten Konflikt zwischen der classification eines Objekts und der Regression seiner räumlichen Koordinaten, was zu einer schnelleren Konvergenz während des Trainings führte.

PP-YOLOE+, von Baidu entwickelt, ist stark für das PaddlePaddle-Ökosystem optimiert. Es baut auf seinem Vorgänger, PP-YOLOv2, auf, indem es eine dynamische Label-Zuweisungsstrategie (TAL) und einen neuartigen Backbone namens CSPRepResNet einführt. Dieser Backbone nutzt strukturelle Re-Parametrisierung, wodurch das Modell während des Trainings von komplexen Multi-Branch-Architekturen profitieren kann, während es sich für die Inferenz nahtlos in ein schnelles Single-Path-Netzwerk überführen lässt.

Strukturelle Neuparametrisierung

Die strukturelle Neuparametrisierung ermöglicht es einem Modell, mit mehreren parallelen Verzweigungen zu trainieren (wodurch der Gradientenfluss verbessert wird) und diese Verzweigungen dann mathematisch zu einer einzigen Faltungsschicht für die Bereitstellung zusammenzufassen, wodurch die Inferenzgeschwindigkeit ohne Einbußen bei der Genauigkeit erhöht wird.

Leistung und Metriken im Vergleich

Beim direkten Vergleich dieser Modelle wird deutlich, dass sie leicht unterschiedliche Ziele im Leistungsspektrum verfolgen. PP-YOLOE+ erreicht im Allgemeinen eine höhere absolute Genauigkeit, während YOLOX sich durch extrem leichtgewichtige Varianten auszeichnet, die für stark eingeschränkte Hardware geeignet sind.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Hinweis: Die Werte mit der besten Leistung in jedem relevanten segment fett hervorgehoben.

Während YOLOX Nano- und Tiny-Varianten anbietet, die kaum Speicherplatz oder CUDA beanspruchen, lässt sich PP-YOLOE+ unglaublich gut auf Server-Hardware skalieren, was es zu einer robusten Wahl für anspruchsvolle industrielle Anwendungen innerhalb des Baidu-Ökosystems macht.

Anwendungen in der realen Welt

Die Wahl zwischen diesen Frameworks hängt oft von den Integrationsanforderungen und den Hardware-Zielen ab.

Wo YOLOX sich auszeichnet

Aufgrund seiner anchor-freien Natur und der Verfügbarkeit von Varianten für extreme Edge-Geräte ist YOLOX beliebt in der Robotik und bei der Bereitstellung auf Mikrocontrollern. Seine einfache Nachbearbeitungspipeline ermöglicht eine leichtere Portierung auf angepasste NPU-Hardwareformate wie TensorRT und NCNN.

Wo PP-YOLOE+ sich auszeichnet

Für Unternehmen, die tief in asiatische Fertigungszentren integriert sind und die Technologieplattform von Baidu nutzen, bietet PP-YOLOE+ einen voroptimierten Weg zur Bereitstellung. Es glänzt in Szenarien mit hochpräzisen Qualitätsprüfungen, die auf leistungsstarken Server-Racks laufen, wo strenge Echtzeitanforderungen etwas höhere Modellgewichte zulassen.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen PP-YOLOE+ und YOLOX hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann PP-YOLOE+ wählen?

PP-YOLOE+ ist eine gute Wahl für:

PaddlePaddle Ökosystem-Integration: Organisationen mit bestehender Infrastruktur, die auf Baidus PaddlePaddle-Framework und -Tools basiert.
Paddle Lite Edge-Bereitstellung: Bereitstellung auf Hardware mit hochoptimierten Inferenz-Kernels, speziell für die Paddle Lite oder Paddle Inferenz-Engine.
Hochgenaue serverseitige Detektion: Szenarien, die maximale detect-Genauigkeit auf leistungsstarken GPU-Servern priorisieren, wo die Framework-Abhängigkeit keine Rolle spielt.

Wann YOLOX wählen?

YOLOX wird empfohlen für:

Forschung zur ankerfreien Detektion: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Basis verwendet, um mit neuen Detektions-Heads oder Verlustfunktionen zu experimentieren.
Ultraleichte Edge-Geräte: Bereitstellung auf Mikrocontrollern oder älterer mobiler Hardware, wo der extrem geringe Speicherbedarf (0,91 Mio. Parameter) der YOLOX-Nano-Variante entscheidend ist.
SimOTA Label Assignment Studien: Forschungsprojekte, die auf optimalem Transport basierende Label-Assignment-Strategien und deren Auswirkungen auf die Trainingskonvergenz untersuchen.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Ultralytics von Ultralytics : Geben Sie YOLO26 ein

Während PP-YOLOE+ und YOLOX hervorragende Meilensteine in der Forschung darstellen, erfordert die moderne Einsatzlandschaft eine einheitlichere, entwicklerfreundlichere Erfahrung mit überlegener Effizienz. Hier setzt Ultralytics völlig neue Maßstäbe für moderne visuelle KI.

Für Teams, die den Übergang von isolierten Forschungsrepositorien zu produktionsreifen Systemen anstreben, Ultralytics ein robustes, gut gepflegtes Ökosystem. Das Trainieren eines Modells erfordert keine Konfiguration komplexer Umgebungen mehr, sondern ist so einfach wie der Zugriff auf eine einheitliche Python .

Zu den wichtigsten Vorteilen von Ultralytics gehören:

End-to-End NMS-freies Design: Im Gegensatz zu PP-YOLOE+ und YOLOX, die Non-Maximum Suppression (NMS) zur Filterung redundanter Bounding Boxes benötigen, ist YOLO26 nativ End-to-End. Dies eliminiert Latenzengpässe und vereinfacht die Bereitstellungslogik drastisch.
Bis zu 43 % schnellere CPU-Inferenz: Durch die strategische Entfernung von Distribution Focal Loss (DFL) erzielt YOLO26 unübertroffene Inferenzgeschwindigkeiten auf CPU-Hardware, was es für Edge Computing und stromsparende Geräte weit überlegen macht.
MuSGD-Optimierer: Inspiriert von Moonshot AIs Kimi K2, bringt dieser Hybrid-Optimierer die LLM-Trainingsstabilität in die Computer Vision, was eine deutlich schnellere Konvergenz gewährleistet und den Speicherbedarf während der Trainingsphasen minimiert.
ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen liefern bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, ein entscheidendes Merkmal für Drohnenoperationen und hochdetaillierte Luftbildaufnahmen.
Vielseitigkeit: Während PP-YOLOE+ und YOLOX sich ausschließlich auf die Erkennung konzentrieren, verarbeitet YOLO26 nahtlos die Instanzsegmentierung, Posenschätzung und Oriented Bounding Boxes (OBB) unter Verwendung derselben intuitiven Syntax.

Erfahren Sie mehr über YOLO26

Optimiertes Training mit Ultralytics

Die Speichereffizienz und Trainingsgeschwindigkeit der Ultralytics sind unübertroffen und übertreffen transformatorbasierte Alternativen, die einen immensen CUDA erfordern, bei weitem. Sie können die Leistungsfähigkeit von YOLO26 mit nur wenigen Zeilen Code nutzen:

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT
model.export(format="engine")

Entdecken Sie die Ultralytics

Für Teams, die nach einer No-Code-Lösung suchen, bietet die Ultralytics cloudbasierte Schulungen, integrierte Datensatzannotation und die Bereitstellung aller YOLO mit einem Klick.

Fazit

Sowohl PP-YOLOE+ als auch YOLOX haben sich ihren Platz in der Geschichte des Computer Vision verdient und bieten jeweils hohe Genauigkeit und leichtgewichtige, ankerfreie Designs. Für Organisationen, die die Zukunft der KI in der Landwirtschaft, Smart Cities und im Einzelhandel gestalten, macht jedoch die kontinuierliche Wartung, Benutzerfreundlichkeit und native NMS-freie Architektur von Ultralytics YOLO26 es zur unbestrittenen Wahl.

Wenn Sie alternative Architekturen für bestimmte Benchmarks untersuchen, könnte es für Sie auch interessant sein, die ältere YOLO11 oder transformatorbasierten Optionen wie RT-DETR zu Ultralytics . Durch die Ultralytics zum einheitlichen Ultralytics sparen Entwickler wertvolle Zeit und Ressourcen und erzielen gleichzeitig modernste Ergebnisse bei jeder Edge- oder Cloud-Bereitstellung.