Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ vs. DAMO-YOLO#

Die kontinuierliche Entwicklung im Bereich Computer Vision hat eine Reihe hochspezialisierter Architekturen für die Echtzeit-Objekterkennung hervorgebracht. Bei der Bewertung von Modellen für industrielle und Forschungsanwendungen stehen oft zwei prominente Frameworks aus dem Jahr 2022 zur Diskussion: PP-YOLOE+ von Baidu und DAMO-YOLO von der Alibaba Group. Beide Modelle erweiterten die Grenzen der anchor-freien Erkennung durch die Einführung neuartiger Backbones, fortschrittlicher Strategien zur Label-Zuweisung und spezieller Techniken zur Merkmalsfusion.

Dieser Leitfaden bietet eine detaillierte technische Analyse von PP-YOLOE+ und DAMO-YOLO und untersucht deren Architekturen, Trainingsmethoden und Stärken bei der Bereitstellung. Wir werden auch untersuchen, wie diese Frameworks im Vergleich zu modernen Lösungen wie Ultralytics YOLO26 abschneiden, damit du das richtige Werkzeug für deine spezifischen Anforderungen bei der Bereitstellung auswählen kannst.

Link to this sectionPP-YOLOE+: Optimierte industrielle Objekterkennung#

PP-YOLOE+ wurde im Baidu-Ökosystem entwickelt und ist eine iterative Verbesserung des ursprünglichen PP-YOLOE, die stark auf das Deep-Learning-Framework PaddlePaddle optimiert wurde. Es wurde entwickelt, um Genauigkeit und Inferenzgeschwindigkeit auf Server-Hardware zu maximieren, was es zu einem starken Kandidaten für industrielle Inspektionen und Anwendungen im Smart Retail macht.

Link to this sectionArchitektonische Innovationen#

PP-YOLOE+ führt mehrere architektonische Verbesserungen ein, um gegenüber früheren anchor-freien Detektoren besser abzuschneiden:

  • CSPRepResNet Backbone: Dieser Backbone nutzt eine Architektur im RepVGG-Stil in Kombination mit Cross Stage Partial (CSP)-Verbindungen und bietet ein starkes Gleichgewicht zwischen Merkmalextraktionsfähigkeit und Inferenzlatenz.
  • Task Alignment Learning (TAL): PP-YOLOE+ verwendet eine fortschrittliche Strategie zur dynamischen Label-Zuweisung, die Klassifizierungs- und Regressionsaufgaben während des Trainings angleicht und so die Lücke zwischen Trainings- und Inferenzleistung verringert.
  • Efficient Task-aligned Head (ET-head): Ein optimierter Erkennungskopf, der darauf ausgelegt ist, Merkmale schnell zu verarbeiten, ohne die räumliche Auflösung zu beeinträchtigen, was für die Aufrechterhaltung hoher mAP-Metriken sehr vorteilhaft ist.

PP-YOLOE+ Details:

Erfahre mehr über PP-YOLOE+

Link to this sectionDAMO-YOLO: Neural Architecture Search am Edge#

DAMO-YOLO wurde von der Alibaba DAMO Academy entwickelt und verfolgt einen grundlegend anderen Ansatz. Anstatt den Backbone manuell zu entwerfen, nutzte das Forschungsteam Neural Architecture Search (NAS), um hocheffiziente Netzwerktopologien zu entdecken, die auf strikte Latenzanforderungen zugeschnitten sind.

Link to this sectionHauptmerkmale und Trainings-Pipeline#

DAMO-YOLO legt den Schwerpunkt auf geringe Latenz und hohe Genauigkeit durch eine automatisierte und stark auf Destillation basierende Methodik:

  • MAE-NAS Backbones: Durch die Nutzung der Method of Automating Efficient Neural Architecture Search erstellt DAMO-YOLO Backbones, die speziell für den Kompromiss zwischen Parametern und Genauigkeit optimiert sind.
  • Efficient RepGFPN: Ein re-parametrisiertes Generalized Feature Pyramid Network ermöglicht eine robuste multiskalige Merkmalsfusion, die dem Modell hilft, Objekte stark unterschiedlicher Größe in einem einzigen Frame zu erkennen.
  • ZeroHead Design: Ein stark vereinfachter Erkennungskopf, der den Rechenaufwand während der Inferenzphase drastisch reduziert.
  • Distillation Enhancement: Um die Leistung kleinerer Varianten zu steigern, verlässt sich DAMO-YOLO stark auf einen komplexen Prozess der Wissensdestillation, bei dem ein größeres Lehrermodell das Schülermodell anleitet.

Details zu DAMO-YOLO:

Erfahre mehr über DAMO-YOLO

Framework-Bindung

Obwohl sowohl PP-YOLOE+ als auch DAMO-YOLO robuste theoretische Innovationen bieten, sind sie eng an ihre jeweiligen Frameworks (PaddlePaddle und spezifische Alibaba-Umgebungen) gekoppelt. Dies kann zu Schwierigkeiten führen, wenn man versucht, diese Modelle auf standardisierte Cloud- oder Edge-Bereitstellungen zu übertragen.

Link to this sectionLeistungsanalyse#

Bei der Bewertung dieser Modelle bestimmt der Kompromiss zwischen Latenz, Rechenkomplexität (FLOPs) und mean Average Precision (mAP) ihre ideale Bereitstellungsumgebung.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050,8-7.1842.197.3

DAMO-YOLO erreicht bei den Modellen der Größen nano und tiny im Allgemeinen niedrigere TensorRT-Latenzen, was es für Videostreams mit hohem Durchsatz sehr wettbewerbsfähig macht. PP-YOLOE+ lässt sich jedoch hervorragend auf seine extra-große (x) Variante skalieren und erzielt höchste Genauigkeit bei komplexen Bildern, bei denen die Inferenzzeit eine untergeordnete Rolle spielt.

Link to this sectionDer Ultralytics-Vorteil: Fortschritte über Architekturen aus 2022 hinaus#

Während PP-YOLOE+ und DAMO-YOLO wichtige Meilensteine darstellten, erfordert moderne Entwicklung größere Vielseitigkeit, einfachere Trainings-Pipelines und geringere Speicheranforderungen. Die Ultralytics Platform erfüllt diese Anforderungen mit einer reibungslosen Erfahrung, die die komplexe Destillation und die framework-spezifischen Setups älterer Modelle deutlich in den Schatten stellt.

Für Entwickler, die heute das beste Leistungsverhältnis erzielen wollen, bietet Ultralytics YOLO26 einen revolutionären Fortschritt bei der Effizienz im realen Einsatz.

Link to this sectionWarum YOLO26 die Branche anführt#

YOLO26 wurde Anfang 2026 veröffentlicht und baut auf dem Erbe von YOLO11 auf, indem es bahnbrechende Technologien für die Produktion einführt:

  • End-to-End NMS-freies Design: YOLO26 eliminiert die Non-Maximum Suppression (NMS) Nachverarbeitung. Dies führt zu einer einfacheren Bereitstellungslogik und konsistenten, gut vorhersehbaren Inferenzlatenzen.
  • MuSGD Optimizer: Inspiriert von Techniken zum Training großer Sprachmodelle nutzt YOLO26 einen hybriden MuSGD-Optimierer. Dies sorgt für ein unglaublich stabiles Training und eine schnelle Konvergenz, was wertvolle GPU-Stunden spart.
  • Überlegene CPU-Inferenz: Durch die Entfernung von Distribution Focal Loss (DFL) und die Optimierung des Netzwerkgraphen erreicht YOLO26 eine bis zu 43 % schnellere CPU-Inferenz, was es zur ersten Wahl für Edge AI-Geräte macht.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für Drohneneinsätze und Fernerkundung entscheidend ist.
  • Unübertroffene Vielseitigkeit: Im Gegensatz zu PP-YOLOE+, das sich strikt auf die Erkennung konzentriert, unterstützt YOLO26 nativ Pose Estimation, Instance Segmentation, Bildklassifizierung und orientierte Bounding Boxes (OBB) nahtlos.

Link to this sectionBenutzerfreundlichkeit und Trainingseffizienz#

Das Training eines DAMO-YOLO-Modells erfordert die Verwaltung einer komplexen Lehrer-Schüler-Destillations-Pipeline. Im Vergleich dazu erfordert das Training eines Ultralytics-Modells nur wenige Zeilen Python-Code bei minimaler CUDA-Speichernutzung im Vergleich zu konkurrierenden Architekturen.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Erfahre mehr über YOLO26

Link to this sectionIdeale Anwendungsfälle und Empfehlungen#

Die Auswahl der optimalen Computer-Vision-Architektur hängt stark von der Integration in das Ökosystem deines Teams und deinen Bereitstellungszielen ab.

  • Wähle PP-YOLOE+, wenn deine gesamte Pipeline tief im Baidu PaddlePaddle-Ökosystem eingebettet ist. Es bleibt eine hervorragende Wahl für die Analyse statischer Bilder auf leistungsstarken Servern, bei denen die Maximierung der Genauigkeit das Hauptziel ist.
  • Wähle DAMO-YOLO, wenn du spezifische Forschung zu Neural Architecture Search-Algorithmen betreibst oder über die technischen Ressourcen verfügst, um komplexe Destillations-Pipelines zu warten, um aggressive TensorRT-Latenzziele zu erreichen.
  • Wähle Ultralytics YOLO26 für fast alle modernen Produktionsszenarien. Das Ultralytics-Ökosystem bietet unvergleichliche Dokumentation, geringere Speicheranforderungen und eine optimierte API. Egal, ob du Systeme zur automatisierten Qualitätskontrolle aufbaust oder Echtzeit-Tracking auf einem Raspberry Pi ausführst, die NMS-freie Architektur von YOLO26 sorgt sofort für schnelle, stabile und hochgenaue Ergebnisse.

Für Entwickler, die andere hochmoderne Lösungen erforschen möchten, bietet die Ultralytics-Dokumentation auch umfangreiche Ressourcen zum weit verbreiteten YOLOv8 und dem robusten YOLO11, damit du für jede Computer-Vision-Herausforderung das richtige Modell hast.

Mitwirkende

Kommentare