Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 vs. PP-YOLOE+#

Die Wahl der optimalen neuronalen Netzwerkarchitektur ist entscheidend, wenn du Computer Vision-Anwendungen in der Produktion einsetzt. In diesem technischen Vergleich untersuchen wir zwei prominente Modelle im Bereich der Echtzeit-Objekterkennung: Ultralytics YOLO11 und Baidus PP-YOLOE+. Beide Architekturen bieten eine robuste Leistung, gehen aber sehr unterschiedlich mit den Herausforderungen von Genauigkeit, Inferenzgeschwindigkeit und dem Entwickler-Ökosystem um.

Unten findest du ein interaktives Diagramm, das die Leistungsgrenzen dieser Modelle aufzeigt, damit du die beste Lösung für deine Hardware-Einschränkungen ermitteln kannst.

Link to this sectionModellursprung und technische Abstammung#

Das Verständnis der Ursprünge und Designphilosophien dieser Modelle bietet wertvollen Kontext für ihre jeweiligen Stärken und idealen Anwendungsfälle.

Link to this sectionYOLO11 Details#

YOLO11 wurde von Ultralytics entwickelt und stellt eine hochgradig verfeinerte Iteration der YOLO-Serie dar. Dabei steht ein ausgewogenes Verhältnis zwischen hoher Inferenzgeschwindigkeit, extremer Parametereffizienz und unübertroffener Benutzerfreundlichkeit im Vordergrund. Es ist weithin für seine einheitlichen Multi-Task-Fähigkeiten und die entwicklerfreundliche Python API bekannt.

Erfahre mehr über YOLO11

Link to this sectionDetails zu PP-YOLOE+#

PP-YOLOE+ ist eine weiterentwickelte Version von PP-YOLOv2, die auf dem PaddlePaddle-Framework basiert. Es führt architektonische Änderungen wie das CSPRepResNet-Backbone und Task Alignment Learning (TAL) ein, um die Grenzen der Genauigkeit zu erweitern, insbesondere auf High-End-GPUs.

Erfahre mehr über PP-YOLOE+

Link to this sectionArchitektonische Unterschiede#

Die grundlegenden architektonischen Designs von YOLO11 und PP-YOLOE+ spiegeln ihre unterschiedlichen Prioritäten in der Computer Vision-Landschaft wider.

YOLO11 basiert auf einem hochoptimierten Backbone und einem anchor-freien Detection-Head. Es verwendet C3k2-Blöcke und Spatial Pyramid Pooling - Fast (SPPF), um Merkmale auf mehreren Skalen mit minimalem Rechenaufwand zu erfassen. Dieses Design ist äußerst vorteilhaft für die Reduzierung der Inferenz-Latenz auf ressourcenbeschränkten Geräten wie Edge NPUs und mobilen CPUs. Darüber hinaus ist YOLO11 nativ für Multi-Task-Learning ausgelegt und unterstützt Instanzsegmentierung, Pose-Schätzung und orientierte BBox-Erkennung (OBB) direkt ab Werk.

PP-YOLOE+ führt das CSPRepResNet-Backbone und einen Efficient Task-aligned Head (ET-head) ein. Es nutzt in großem Umfang Rep-Parametrisierungstechniken, um die Repräsentationskapazität während des Trainings zu erhöhen, während diese Parameter für die Inferenz in Standard-Konvolutionen gefaltet werden. Obwohl dies zu einer beeindruckenden mean Average Precision (mAP) führt, neigen die resultierenden Modelle dazu, schwerer in Bezug auf Parameter und Speicherbedarf zu sein, was sie besser für den Einsatz auf robusten Server-GPUs als auf leichtgewichtigen Edge-Geräten geeignet macht.

Multitasking-Vielseitigkeit

Wenn dein Projekt über Standard-BBoxen hinausgeht, bietet Ultralytics YOLO11 native Unterstützung für Segmentierung, Pose-Schätzung und Klassifizierung innerhalb derselben API, was den Entwicklungsaufwand im Vergleich zur Integration mehrerer verschiedener Repositories drastisch reduziert.

Link to this sectionLeistung und Benchmarks#

Bei der Leistungsbewertung betrachten wir die Genauigkeit (mAP), die Inferenzgeschwindigkeit auf verschiedenen Hardware-Plattformen und die Modelleffizienz (Parameter und FLOPs). Die folgende Tabelle hebt die Vergleichskennzahlen hervor, wobei die effizientesten oder leistungsstärksten Werte fett gedruckt sind.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02,59.421,5
YOLO11m64051.5183.24.720,168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356,9194.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Link to this sectionAnalyse#

YOLO11 zeigt einen klaren Vorteil bei der Leistungsbalance und Parametereffizienz. Beispielsweise erzielt YOLO11m eine höhere mAP (51,5) als PP-YOLOE+m (49,8), während es weniger Parameter (20,1M vs. 23,43M) verbraucht und deutlich schnellere Inferenzgeschwindigkeiten auf TensorRT (4,7 ms vs. 5,56 ms) erreicht. Die leichtgewichtige Natur der YOLO11-Modelle führt von Natur aus zu einem geringeren Speicherbedarf sowohl beim Modelltraining als auch bei der Bereitstellung.

Link to this sectionTrainings-Ökosystem und Benutzerfreundlichkeit#

Der wahre Wert eines Modells liegt oft darin, wie einfach Entwickler es auf benutzerdefinierten Computer Vision Datensätzen trainieren und in die Produktion überführen können.

Link to this sectionDer Ultralytics-Vorteil#

Ultralytics priorisiert eine optimierte Entwicklererfahrung. Das Training von YOLO11 wird über eine einfache Python API oder CLI verwaltet, wodurch komplexer Boilerplate-Code abstrahiert wird. Die Ultralytics Platform verbessert dies weiter durch No-Code-Training, automatisiertes Datensatz-Management und Ein-Klick-Exporte in Formate wie ONNX, CoreML und TensorRT.

Darüber hinaus sind YOLO-Modelle während des Trainings äußerst speichereffizient und vermeiden den massiven VRAM-Overhead, der für Transformer-basierte Architekturen oder schwer rep-parametrisierte Modelle typisch ist, was das Training auf Consumer-Hardware ermöglicht.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Link to this sectionPP-YOLOE+ Ökosystem#

PP-YOLOE+ arbeitet innerhalb des PaddleDetection-Ökosystems. Obwohl dieses Framework leistungsstark ist und tief in die industriellen Lösungen von Baidu integriert ist, erfordert es von Entwicklern, das spezifische PaddlePaddle Deep-Learning-Framework zu nutzen. Dies kann eine steilere Lernkurve für Teams bedeuten, die bereits auf PyTorch standardisiert sind. Zudem kann der Export von PP-YOLOE+-Modellen in universelle Standardformate für Edge-Geräte zusätzliche Konvertierungsschritte erfordern, verglichen mit den nativen Export-Pipelines in Ultralytics-Workflows.

Link to this sectionIdeale Anwendungsfälle#

Die Entscheidung zwischen diesen Modellen hängt von deiner spezifischen Bereitstellungsumgebung ab.

  • Wähle YOLO11 für agile Entwicklung, Edge Computing und mobile Anwendungen. Seine hohe Inferenzgeschwindigkeit, der geringe Speicherbedarf und die umfangreichen Exportmöglichkeiten machen es ideal für Aufgaben wie Echtzeit-Einzelhandels-Bestandsverwaltung auf Standard-CPUs, drohnengestützte Luftbildanalyse und komplexe Multi-Task-Pipelines.
  • Wähle PP-YOLOE+, wenn deine gesamte Produktions-Pipeline bereits stark in das PaddlePaddle-Ökosystem investiert ist oder wenn du auf High-End-Inferenzservern bereitstellst, bei denen Speicherbeschränkungen und Hardwarekompatibilität (außerhalb der für Paddle optimierten Hardware) keine primäre Rolle spielen.

Link to this sectionDie nächste Generation: Einführung von YOLO26#

Obwohl YOLO11 unglaublich leistungsfähig bleibt, entwickelt sich das Feld der KI schnell weiter. Für den absoluten Stand der Technik bei der Objekterkennung hat Ultralytics das neue YOLO26 eingeführt. YOLO26 wurde im Januar 2026 veröffentlicht und baut auf den Erfolgen seiner Vorgänger auf, um beispiellose Effizienz und Genauigkeit zu liefern.

Wichtige YOLO26-Innovationen:

  • End-to-End NMS-freies Design: YOLO26 eliminiert nativ die Non-Maximum Suppression (NMS)-Nachbearbeitung. Dies beschleunigt die Inferenz erheblich und vereinfacht die Bereitstellungslogik – ein architektonischer Sprung, der erstmals in YOLOv10 eingeführt wurde.
  • Bis zu 43 % schnellere CPU-Inferenz: Speziell für Edge-Geräte ohne GPUs optimiert, was Echtzeit-Leistung auf hardwareärmeren Systemen sicherstellt.
  • MuSGD-Optimizer: Inspiriert von der Stabilität beim Training von LLMs, sorgt diese Hybrid-Lösung aus SGD und Muon für eine schnellere Konvergenz und ein stabileres Training.
  • ProgLoss + STAL: Verbesserte Verlustfunktionen erhöhen die Erkennungsrate kleiner Objekte drastisch, was für Drohnenanwendungen und Sicherheitsüberwachung entscheidend ist.
  • DFL-Entfernung: Die Entfernung des Distribution Focal Loss vereinfacht den Modellexport und verbessert die Kompatibilität über eine Vielzahl von Edge-Geräten hinweg erheblich.

Für neue Projekte, bei denen Geschwindigkeit, nahtloser Export und maximale Genauigkeit im Vordergrund stehen, empfehlen wir dringend, die Funktionen von YOLO26 über die Ultralytics Platform zu nutzen.

Wenn du andere Architekturen evaluierst, interessiert dich vielleicht auch der Vergleich von YOLO11 mit RT-DETR oder die Frage, wie sich das ältere YOLOv8 in modernen Benchmarks schlägt.

Mitwirkende

Kommentare