YOLO11 PP-YOLOE+: Ein technischer Vergleich von Echtzeit-Detektoren

Die Auswahl der optimalen neuronalen Netzwerkarchitektur ist entscheidend, wenn Computer-Vision-Anwendungen in der Produktion eingesetzt werden. In diesem technischen Vergleich untersuchen wir zwei bekannte Modelle im Bereich der Echtzeit-Objekterkennung: Ultralytics YOLO11 und Baidus PP-YOLOE+. Beide Architekturen bieten eine robuste Leistung, gehen jedoch ganz unterschiedlich mit den Herausforderungen hinsichtlich Genauigkeit, Inferenzgeschwindigkeit und Entwickler-Ökosystem um.

Unten ist ein interaktives Diagramm, das die Leistungsgrenzen dieser Modelle zeigt, um Ihnen zu helfen, die beste Lösung für Ihre Hardware-Einschränkungen zu finden.

Modellursprünge und technische Abstammung

Das Verständnis der Ursprünge und Designphilosophien dieser Modelle liefert wertvolle Informationen über ihre jeweiligen Stärken und idealen Anwendungsfälle.

YOLO11

Entwickelt von Ultralytics, stellt YOLO11 eine hochverfeinerte Iteration der YOLO-Serie dar, die ein Gleichgewicht aus Hochgeschwindigkeits-Inferenz, extremer Parametereffizienz und unübertroffener Benutzerfreundlichkeit priorisiert. Es ist weithin bekannt für seine vereinheitlichten Multi-Task-Fähigkeiten und seine entwicklerfreundliche Python API.

Autoren: Glenn Jocher und Jing Qiu
Organisation:Ultralytics
Datum: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Dokumentation:YOLO11 Dokumentation

Erfahren Sie mehr über YOLO11

PP-YOLOE+ Details

PP-YOLOE+ ist eine Weiterentwicklung von PP-YOLOv2, die auf dem PaddlePaddle basiert. Es führt architektonische Änderungen wie das CSPRepResNet-Backbone und Task Alignment Learning (TAL) ein, um die Grenzen der Genauigkeit insbesondere auf High-End-GPUs zu erweitern.

Autoren: PaddlePaddle Autoren
Organisation:Baidu
Datum: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Dokumentation:PP-YOLOE+ Konfigurationsdokumentation

Erfahren Sie mehr über PP-YOLOE+

Architektonische Unterschiede

Die grundlegenden architektonischen Entwürfe von YOLO11 PP-YOLOE+ spiegeln ihre unterschiedlichen Prioritäten im Bereich der Computervision wider.

YOLO11 basiert auf einem hochoptimierten Backbone und einem ankerfreien Detektionskopf. Es nutzt C3k2-Blöcke und Spatial Pyramid Pooling - Fast (SPPF), um Merkmale auf mehreren Skalen mit minimalem Rechenaufwand zu erfassen. Dieses Design ist äußerst vorteilhaft, um die Inferenzlatenz auf ressourcenbeschränkten Geräten wie Edge-NPUs und mobilen CPUs zu reduzieren. Darüber hinaus ist YOLO11 nativ für Multi-Task-Lernen konzipiert und unterstützt Instanzsegmentierung, Posenschätzung und Oriented Bounding Box (OBB) detect direkt ab Werk.

PP-YOLOE+ führt den CSPRepResNet-Backbone und einen Efficient Task-aligned Head (ET-Head) ein. Es nutzt stark Rep-Parametrisierungstechniken, um die Repräsentationskapazität während des Trainings zu erhöhen, während diese Parameter für die Inferenz in Standard-Faltungsschichten überführt werden. Obwohl dies eine beeindruckende Mean Average Precision (mAP) liefert, neigen die resultierenden Modelle dazu, hinsichtlich Parameter und Speicherbedarf schwerer zu sein, was sie besser für den Einsatz auf robusten Server-GPUs als auf leichten Edge-Geräten geeignet macht.

Vielseitigkeit bei mehreren Aufgaben

Wenn Ihr Projekt über Standard-Bounding-Boxes hinausgeht,YOLO11 Ultralytics YOLO11 native Unterstützung für Segmentierung, Posenschätzung und Klassifizierung innerhalb derselben API, wodurch der Entwicklungsaufwand im Vergleich zur Integration mehrerer unterschiedlicher Repositorys drastisch reduziert wird.

Performance und Benchmarks

Bei der Bewertung der Leistung betrachten wir die Genauigkeit (mAP), die Inferenzgeschwindigkeit auf verschiedenen Hardwarekomponenten und die Modelleffizienz (Parameter und FLOPs). Die folgende Tabelle zeigt die Vergleichskennzahlen, wobei die effizientesten oder leistungsstärksten Werte fett gedruckt sind.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Analyse

YOLO11 einen klaren Vorteil in Leistungsbilanz und Parameter-Effizienz. Zum Beispiel, YOLO11m erreicht einen höheren mAP (51,5) als PP-YOLOE+m (49,8) bei Verwendung weniger Parameter (20,1 Mio. vs. 23,43 Mio.) und Erzielung deutlich schnellerer Inferenzgeschwindigkeiten auf TensorRT (4,7 ms vs. 5,56 ms). Die leichte Natur von YOLO11-Modellen führt naturgemäß zu geringeren Speicheranforderungen während beider Modelltraining und Bereitstellung.

Schulungsumfeld und Benutzerfreundlichkeit

Der wahre Wert eines Modells liegt oft darin, wie einfach Entwickler es anhand benutzerdefinierter Computer-Vision-Datensätze trainieren und in der Produktion einsetzen können.

Der Ultralytics Vorteil

Ultralytics eine optimierte Entwicklererfahrung. Das Training YOLO11 über eine einfache Python oder CLI verwaltet, wodurch komplexer Boilerplate-Code abstrahiert wird. Die Ultralytics verbessert dies noch weiter, indem sie No-Code-Training, automatisierte Datensatzverwaltung und Exporte mit einem einzigen Klick in Formate wie ONNX, CoreML und TensorRT.

Darüber hinaus sind YOLO während des Trainings äußerst speichereffizient, wodurch die für transformatorbasierte Architekturen oder schwergewichtige rep-parametrisierte Modelle typischen massiven VRAM-Overheads vermieden werden und das Training auf handelsüblicher Hardware möglich ist.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

PP-YOLOE+ Ökosystem

PP-YOLOE+ arbeitet innerhalb des PaddleDetection-Ökosystems. Dieses Framework ist zwar leistungsstark und tief in die industriellen Lösungen von Baidu integriert, erfordert jedoch von Entwicklern die Verwendung des spezifischen PaddlePaddle . Dies kann für Teams, die bereits auf PyTorch standardisiert sind, eine steilere Lernkurve bedeuten. Darüber hinaus kann der Export von PP-YOLOE+-Modellen in standardisierte universelle Formate für Edge-Geräte im Vergleich zu den nativen Export-Pipelines in Ultralytics zusätzliche Konvertierungsschritte erfordern.

Ideale Anwendungsfälle

Die Wahl zwischen diesen Modellen hängt von Ihrer spezifischen Bereitstellungsumgebung ab.

Wählen Sie YOLO11 für agile Entwicklung, Edge Computing und mobile Anwendungen. Seine hohe Inferenzgeschwindigkeit, geringe Speicherplatzanforderungen und umfangreichen Exportfunktionen machen es ideal für Aufgaben wie Echtzeit-Bestandsverwaltung im Einzelhandel auf Standard-CPUs, drohnenbasierte Luftbildanalyse und komplexe Multi-Task-Pipelines.
Wählen Sie PP-YOLOE+, wenn Ihre gesamte Produktionspipeline bereits stark in das PaddlePaddle-Ökosystem investiert ist oder wenn Sie auf High-End-Inferenzservern mit dedizierter Hardware bereitstellen, bei denen Speicherbeschränkungen und Hardwarekompatibilität (außerhalb der optimierten Hardware von Paddle) keine primären Anliegen sind.

Die nächste Generation: Vorstellung von YOLO26

YOLO11 zwar YOLO11 unglaublich leistungsstark, doch die KI-Branche entwickelt sich rasant weiter. Für absolute Spitzenleistung in der Objekterkennung Ultralytics das neue YOLO26eingeführt. YOLO26 wurde im Januar 2026 veröffentlicht und baut auf den Erfolgen seiner Vorgänger auf, um eine beispiellose Effizienz und Genauigkeit zu bieten.

Wichtige Innovationen von YOLO26:

End-to-End NMS-freies Design: YOLO26 eliminiert nativ die Nachbearbeitung mittels Non-Maximum Suppression (NMS). Dies beschleunigt die Inferenz erheblich und vereinfacht die Bereitstellungslogik, ein architektonischer Fortschritt, der erstmals in YOLOv10 eingeführt wurde.
Bis zu 43 % schnellere CPU-Inferenz: Speziell optimiert für Edge-Geräte ohne GPUs, was Echtzeit-Leistung auf stromsparender Hardware gewährleistet.
MuSGD-Optimierer: Inspiriert von der Stabilität des LLM-Trainings, gewährleistet dieser Hybrid aus SGD und Muon eine schnellere Konvergenz und ein stabileres Training.
ProgLoss + STAL: Verbesserte Verlustfunktionen verbessern die Kleinstobjekterkennung drastisch, was für Drohnenanwendungen und Sicherheitsüberwachung entscheidend ist.
DFL-Entfernung: Die Entfernung von Distribution Focal Loss vereinfacht den Modell-Export und verbessert die Kompatibilität mit einer Vielzahl von Edge-Geräten drastisch.

Für neue Projekte, bei denen Geschwindigkeit, nahtloser Export und maximale Genauigkeit im Vordergrund stehen, empfehlen wir dringend, die Funktionen von YOLO26 über die Ultralytics zu nutzen.

Wenn Sie andere Architekturen evaluieren, könnte Sie auch ein Vergleich von YOLO11 RT-DETR oder zu untersuchen, wie sich das ältere YOLOv8 in modernen Benchmarks abschneidet.