Link to this sectionDAMO-YOLO vs. PP-YOLOE+#

In der hart umkämpften Welt der Echtzeit-Computer-Vision ist die Wahl der optimalen Architektur für deine spezifischen Bereitstellungsanforderungen entscheidend. Dieser Leitfaden bietet einen umfassenden technischen Vergleich zwischen DAMO-YOLO und PP-YOLOE+ und taucht tief in deren architektonische Designs, Trainingsmethoden und Leistungsmetriken ein. Wir untersuchen außerdem, wie sich diese Modelle im Vergleich zu modernsten Lösungen wie dem neu veröffentlichten Ultralytics YOLO26 schlagen.

Link to this sectionModellübersichten#

Beide Frameworks kamen 2022 als leistungsstarke Alternativen für industrielle Anwendungen auf den Markt und nutzen hochentwickelte Techniken, um die Grenzen von Genauigkeit und Inferenzgeschwindigkeit zu erweitern.

Link to this sectionDAMO-YOLO#

Das von der Alibaba Group entwickelte DAMO-YOLO führte mehrere neuartige Techniken zur Optimierung des Kompromisses zwischen Latenz und Genauigkeit ein, wobei es stark auf automatisierte Suchtechniken und fortschrittliche Feature-Fusion setzte.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23.11.2022
Arxiv: DAMO-YOLO: A Report on Real-Time Object Detection Design
GitHub: tinyvision/DAMO-YOLO
Dokumentation: DAMO-YOLO README

DAMO-YOLO verwendet eine Multi-Scale Architecture Search (MAE-NAS), um Backbones automatisch für Hardware-Effizienz zu optimieren. Es bietet zudem ein effizientes RepGFPN (Re-parameterized Generalized Feature Pyramid Network) für die Neck-Feature-Fusion und ein leichtgewichtiges "ZeroHead"-Design. Darüber hinaus setzt es beim Training stark auf Destillationsmethoden, um die Repräsentationskraft des Schülermodells zu erhöhen.

Erfahre mehr über DAMO-YOLO

Link to this sectionPP-YOLOE+#

PP-YOLOE+ stammt vom Baidu PaddlePaddle-Team und ist ein inkrementelles Upgrade der PP-YOLOE-Architektur. Es konzentriert sich auf groß angelegtes Pre-training und verfeinerte Verlustfunktionen, um eine hohe mAP zu erzielen, insbesondere innerhalb seines nativen Deep-Learning-Frameworks.

Autoren: PaddlePaddle-Autoren
Organisation: Baidu
Datum: 02.04.2022
Arxiv: PP-YOLOE: An evolved version of YOLO
GitHub: PaddlePaddle/PaddleDetection
Dokumentation: PP-YOLOE+ Configs

PP-YOLOE+ nutzt ein CSPRepResNet-Backbone und einen ET-head (Efficient Task-aligned head). Die "Plus"-Version führt eine leistungsstarke Pre-training-Strategie auf dem Objects365-Datensatz ein, die seine Fähigkeit zur Generalisierung über verschiedene reale Umgebungen hinweg erheblich verbessert.

Erfahre mehr über PP-YOLOE+

Link to this sectionArchitektonischer Vergleich#

Der Unterschied in der Designphilosophie zwischen diesen beiden Modellen beeinflusst stark ihre idealen Anwendungsfälle und Hardware-Kompatibilität.

Link to this sectionFeature Fusion und Backbones#

Die von MAE-NAS generierten Backbones von DAMO-YOLO sind stark auf Edge-Geräte zugeschnitten und bieten oft ein günstiges Verhältnis von Geschwindigkeit zu Parametern. Diese benutzerdefinierten Architekturen können jedoch starr und komplex in der Anpassung für neue Aufgaben wie Instance Segmentation sein. Der RepGFPN-Neck verbessert die Multi-Scale-Feature-Fusion, erhöht jedoch die Komplexität während der Re-Parameterization-Exportphase.

PP-YOLOE+ setzt auf das traditionellere, aber hocheffektive CSPRepResNet. Obwohl dieser Backbone für eine ähnliche Genauigkeit einen größeren Parameter-Footprint benötigt als DAMO-YOLO, ist er sehr stabil im Training und einfacher in bestehende Pipelines zu integrieren. Sein ET-head bewältigt Klassifizierung und Regression effizient, erfordert jedoch weiterhin Nachverarbeitungsschritte wie Non-Maximum Suppression (NMS).

Eliminierung von Verzögerungen bei der Nachverarbeitung

Sowohl DAMO-YOLO als auch PP-YOLOE+ benötigen NMS für die Nachverarbeitung von Bounding Boxes. Wenn die Inferenzlatenz entscheidend ist, solltest du Ultralytics YOLO26 in Betracht ziehen, das über ein natives End-to-End NMS-Free Design verfügt. Dieser bahnbrechende Ansatz eliminiert die NMS-Nachverarbeitung für eine schnellere und einfachere Bereitstellungspipeline.

Link to this sectionAnalyse von Leistung und Metriken#

Bei der Bewertung dieser Modelle für die Produktion ist das Gleichgewicht zwischen Genauigkeit (mAP), Inferenzgeschwindigkeit und Parametergröße entscheidend. Nachfolgend findest du einen direkten Vergleich ihrer primären Varianten.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50,8	-	7.18	42.1	97.3

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Wie die Tabelle veranschaulicht, erzielt DAMO-YOLO dank seiner NAS-optimierten Backbones im Allgemeinen eine geringere Latenz bei kleinen (s) und winzigen (t) Skalen. PP-YOLOE+ skaliert jedoch hervorragend in die mittleren (m) und großen (l) Stufen und bietet deutlich höhere mAP-Werte, wenn auch zu einem leichten Preis bei der T4 TensorRT-Geschwindigkeit.

Link to this sectionSpeicheranforderungen und Trainingseffizienz#

Da DAMO-YOLO auf Destillation angewiesen ist, musst du oft ein viel größeres Lehrermodell trainieren, bevor du das kleinere Schülermodell trainierst. Dies erhöht drastisch die CUDA-Speicheranforderungen und das gesamte Rechenbudget. PP-YOLOE+ vereinfacht dies durch ein Standard-Einstufen-Training, bleibt jedoch eng an das PaddlePaddle-Framework gebunden, was die Flexibilität für Teams, die an PyTorch gewöhnt sind, einschränken kann.

Im Gegensatz dazu löst das moderne Ultralytics YOLO26-Modell diese Engpässe. Durch die Nutzung des neuen MuSGD Optimizers—einer Hybridform aus SGD und Muon, inspiriert von Innovationen aus dem Training großer Sprachmodelle—erreicht YOLO26 eine schnellere Konvergenz und ein hochstabiles Training, ohne komplexe Destillationspipelines zu benötigen. Zudem benötigen YOLO-Modelle im Vergleich zu Transformer-basierten Detektoren wie RT-DETR beim Training in der Regel deutlich weniger CUDA-Speicher.

Link to this sectionPraxisanwendungen und ideale Anwendungsfälle#

Link to this sectionWann sollte man DAMO-YOLO verwenden?#

DAMO-YOLO ist ideal für Edge-Inferenz mit hohem Durchsatz, bei der Latenz der entscheidende Engpass ist. Seine kleinen Varianten glänzen in Umgebungen wie Verkehrsmanagement-Systemen oder der grundlegenden Drohnenüberwachung, vorausgesetzt, dein Engineering-Team verfügt über die Kapazitäten, um die komplexen Destillations- und Re-Parameterization-Prozesse zu verwalten.

Link to this sectionWann du PP-YOLOE+ verwenden solltest#

PP-YOLOE+ glänzt, wenn du bereits tief in das Baidu-Ökosystem investiert bist oder groß angelegte Server-Deployments betreibst. Seine beeindruckende mAP macht es geeignet für komplexe medizinische Bildanalyse oder dichte Defekterkennung in der Fertigung.

Link to this sectionDer Ultralytics-Vorteil#

Obwohl sowohl DAMO-YOLO als auch PP-YOLOE+ spezifische Vorteile bieten, wenden sich Entwickler, die maximale Vielseitigkeit, Geschwindigkeit und Benutzerfreundlichkeit suchen, konsequent an die Ultralytics Platform.

Beim Upgrade deiner Computer-Vision-Pipeline bietet Ultralytics YOLO26 eine unvergleichliche Entwicklererfahrung:

Bis zu 43 % schnellere CPU-Inferenz: Durch die vollständige Entfernung von Distribution Focal Loss (DFL) ist YOLO26 bemerkenswert schnell auf Edge-CPUs und IoT-Geräten mit geringem Stromverbrauch.
Verbesserte Erkennung kleiner Objekte: Die Integration der ProgLoss- und STAL-Verlustfunktionen bietet dramatische Verbesserungen bei der Erkennung kleiner Objekte, was für Luftbilder entscheidend ist.
Umfassende Vielseitigkeit: Anders als PP-YOLOE+, das sich strikt auf Detektion konzentriert, unterstützt YOLO26 nahtlos Pose-Schätzung, orientierte Bounding Boxes (OBB) und semantische Segmentierung mit aufgaben-spezifischen architektonischen Verbesserungen.

Link to this sectionFazit#

DAMO-YOLO und PP-YOLOE+ stellen wichtige Meilensteine in der Entwicklung der ankerfreien Objekterkennung dar. DAMO-YOLO verschob die Grenzen der neuronalen Architektursuche für Edge-Latenz, während PP-YOLOE+ die Leistungsfähigkeit von groß angelegtem Pre-training demonstrierte.

Für Entwickler, die jedoch das beste Gleichgewicht aus Geschwindigkeit, Genauigkeit und Bereitstellungseinfachheit suchen, ist das Ultralytics YOLO26-Modell die definitive Wahl. Seine NMS-freie Architektur, die robuste Python API und die nahtlose Integration mit Tools wie Weights & Biases und TensorRT stellen sicher, dass deine Projekte reibungslos vom Prototyp bis zur Produktion gelangen.

Bereit loszulegen? Erkunde den Ultralytics Quickstart Guide oder vergleiche weitere Modelle in unserer YOLO11 vs. DAMO-YOLO-Übersicht.

Mitwirkende

GLglenn-jocher¹⁵ PDpderrenger¹

Erstellt 27. Jan. 2025Aktualisiert vor 3 Wochen