DAMO-YOLO vs PP-YOLOE+: Ein detaillierter technischer Vergleich

In der wettbewerbsintensiven Landschaft der Echtzeit-Computervision ist die Wahl der optimalen Architektur für Ihre spezifischen Einsatzanforderungen von entscheidender Bedeutung. Dieser Leitfaden bietet einen umfassenden technischen Vergleich zwischen YOLO und PP-YOLOE+ und befasst sich eingehend mit deren Architekturdesigns, Trainingsmethoden und Leistungskennzahlen. Wir werden auch untersuchen, wie diese Modelle im Vergleich zu modernsten Lösungen wie dem neu veröffentlichten Ultralytics abschneiden.

Modellübersichten

Beide Frameworks entwickelten sich 2022 zu leistungsstarken Alternativen für industrielle Anwendungen, die ausgeklügelte Techniken nutzen, um die Grenzen der Genauigkeit und Inferenzgeschwindigkeit zu erweitern.

DAMO-YOLO

Entwickelt von der Alibaba Group, führte DAMO-YOLO mehrere neuartige Techniken ein, um den Kompromiss zwischen Latenz und Genauigkeit zu optimieren, wobei stark auf automatisierte Suchtechniken und fortgeschrittene Feature-Fusion gesetzt wurde.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23.11.2022
Arxiv: DAMO-YOLO: Ein Bericht über das Design von Echtzeit-Objekterkennung
GitHub: YOLO
Dokumentation: DAMO-YOLO README

DAMO-YOLO verwendet eine Multi-Scale Architecture Search (MAE-NAS), um Backbones automatisch zu entwerfen, die für Hardware-Effizienz optimiert sind. Es verfügt außerdem über ein effizientes RepGFPN (Re-parameterized Generalized Feature Pyramid Network) für die Neck-Feature-Fusion und ein leichtgewichtiges „ZeroHead“-Design. Darüber hinaus stützt es sich während des Trainings stark auf Destillationstechniken, um die Repräsentationskraft des Studentenmodells zu steigern.

Erfahren Sie mehr über DAMO-YOLO

PP-YOLOE+

Das Baidu PaddlePaddle hat mit PP-YOLOE+ eine inkrementelle Weiterentwicklung der PP-YOLOE-Architektur vorgestellt. Der Schwerpunkt liegt auf groß angelegten Vorabtrainings und verfeinerten Verlustfunktionen, um insbesondere innerhalb des nativen Deep-Learning-Frameworks mAP hohe mAP zu erzielen.

Autoren: PaddlePaddle Autoren
Organisation: Baidu
Datum: 02.04.2022
Arxiv: PP-YOLOE: Eine weiterentwickelte Version von YOLO
GitHub: PaddlePaddle
Dokumentation: PP-YOLOE+ Konfigurationen

PP-YOLOE+ nutzt ein CSPRepResNet-Backbone und einen ET-Head (Efficient Task-aligned Head). Die „Plus“-Version führt eine leistungsstarke Vorab-Trainingsstrategie für den Objects365-Datensatz ein, die die Fähigkeit zur Verallgemeinerung in verschiedenen realen Umgebungen erheblich verbessert.

Erfahren Sie mehr über PP-YOLOE+

Architekturvergleich

Die unterschiedliche Designphilosophie dieser beiden Modelle hat einen großen Einfluss auf ihre idealen Anwendungsfälle und die Hardwarekompatibilität.

Feature Fusion und Backbones

Die von DAMO-YOLO's MAE-NAS generierten Backbones sind hochgradig auf Edge-Geräte zugeschnitten und bieten oft ein günstiges Verhältnis von Geschwindigkeit zu Parametern. Diese benutzerdefinierten Architekturen können jedoch starr und komplex sein, um sie an neue Aufgaben wie die Instanzsegmentierung anzupassen. Der RepGFPN-Neck verbessert die multiskalare Merkmalsfusion, erhöht jedoch die Komplexität während der Re-Parametrisierungs-Exportphase.

PP-YOLOE+ basiert auf dem traditionelleren, aber dennoch hochwirksamen CSPRepResNet. Dieses Backbone erfordert zwarYOLO eine ähnliche Genauigkeit einen größeren Parameter-Footprint alsYOLO , ist jedoch sehr stabil im Training und lässt sich leichter in bestehende Pipelines integrieren. Sein ET-Head bewältigt Klassifizierung und Regression effizient, erfordert jedoch dennoch Nachbearbeitungsschritte wie Non-Maximum Suppression (NMS).

Beseitigung von Verzögerungen bei der Nachbearbeitung

Sowohl DAMO-YOLO als auch PP-YOLOE+ erfordern NMS für die Nachbearbeitung von Bounding Boxes. Wenn die Inferenzlatenz kritisch ist, sollten Sie Ultralytics YOLO26 in Betracht ziehen, das ein nativ End-to-End NMS-freies Design aufweist. Dieser bahnbrechende Ansatz eliminiert die NMS-Nachbearbeitung für eine schnellere, einfachere Bereitstellungspipeline.

Leistungs- und Metrikanalyse

Bei der Bewertung dieser Modelle für die Produktion ist das Gleichgewicht zwischen Genauigkeit (mAP), Inferenzgeschwindigkeit und Parametergröße von entscheidender Bedeutung. Nachfolgend finden Sie einen direkten Vergleich ihrer wichtigsten Varianten.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Wie die Tabelle zeigt, erreicht DAMO-YOLO dank seiner NAS-optimierten Backbones im Allgemeinen eine geringere Latenz bei kleinen (s) und winzigen (t) Skalierungen. PP-YOLOE+ skaliert jedoch unglaublich gut in die mittleren (m) und großen (l) Stufen und weist deutlich höhere mAP-Werte auf, wenn auch mit einem geringen Nachteil bei der T4 TensorRT-Geschwindigkeit.

Speicheranforderungen und Trainingseffizienz

Die Abhängigkeit von DAMO-YOLO von Destillation bedeutet, dass man oft ein viel größeres Lehrermodell trainieren muss, bevor das kleinere Schülermodell trainiert wird. Dies erhöht die CUDA-Speicheranforderungen und das gesamte Rechenbudget drastisch. PP-YOLOE+ vereinfacht dies mit einem standardmäßigen einstufigen Training, bleibt jedoch eng an das PaddlePaddle-Framework gekoppelt, was die Flexibilität für Teams, die an PyTorch gewöhnt sind, einschränken kann.

Im Gegensatz dazu löst das moderne Ultralytics YOLO26-Modell diese Engpässe. Durch die Verwendung des neuen MuSGD Optimizer—einer Hybridform aus SGD und Muon, inspiriert von LLM-Trainingsinnovationen—erreicht YOLO26 eine schnellere Konvergenz und ein hochstabiles Training, ohne komplizierte Destillations-Pipelines zu erfordern. Zusätzlich benötigen YOLO-Modelle während des Trainings typischerweise wesentlich weniger CUDA-Speicher im Vergleich zu transformatorbasierten Detektoren wie RT-DETR.

Anwendungen in der Praxis und ideale Anwendungsfälle

Wann sollteYOLO verwendet werden?

DAMO-YOLO ist ideal für Edge-Inferenz mit hohem Durchsatz, wo Latenz der ultimative Engpass ist. Seine kleinen Varianten zeichnen sich in Umgebungen wie Verkehrsmanagementsystemen oder einfacher Drohnenüberwachung aus, vorausgesetzt, Ihr Ingenieurteam verfügt über die Kapazitäten, um die komplexen Destillations- und Re-Parameterisierungsprozesse zu verwalten.

Wann sollte PP-YOLOE+ verwendet werden?

PP-YOLOE+ glänzt, wenn Sie bereits tief in das Baidu-Ökosystem investiert sind oder groß angelegte Serverbereitstellungen betreiben. mAP seiner beeindruckenden mAP es mAP für komplexe medizinische Bildanalysen oder die Erkennung dichter Fertigungsfehler.

Der Ultralytics Vorteil

Obwohl sowohlYOLO PP-YOLOE+ spezifische lokale Vorteile bieten, entscheiden sich Entwickler, die maximale Vielseitigkeit, Geschwindigkeit und Benutzerfreundlichkeit suchen, durchweg für die Ultralytics .

Bei der Aktualisierung Ihrer Computer-Vision-Pipeline bietet Ultralytics eine unvergleichliche Entwicklererfahrung:

Bis zu 43 % schnellere CPU-Inferenz: Durch die vollständige Entfernung des Distribution Focal Loss (DFL) ist YOLO26 auf Edge-CPUs und stromsparenden IoT-Geräten bemerkenswert schnell.
Verbesserte Erkennung kleiner Objekte: Die Integration der ProgLoss- und STAL-Verlustfunktionen bietet dramatische Verbesserungen bei der Erkennung kleiner Objekte, was für Luftbilder unerlässlich ist.
Umfassende Vielseitigkeit: Im Gegensatz zu PP-YOLOE+, das sich ausschließlich auf die Detektion konzentriert, bewältigt YOLO26 nahtlos Posenschätzung, Orientierte Bounding Boxes (OBB) und semantische Segmentierung mit aufgabenspezifischen architektonischen Verbesserungen.

Fazit

DAMO-YOLO und PP-YOLOE+ stellen wichtige Meilensteine in der Entwicklung der ankerfreien Objekterkennung dar. DAMO-YOLO verschob die Grenzen der neuronalen Architektursuche für Edge-Latenz, während PP-YOLOE+ die Leistungsfähigkeit des großskaligen Vortrainings demonstrierte.

Für Entwickler, die das beste Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und einfacher Bereitstellung suchen, ist das Ultralytics jedoch die definitive Wahl. Seine NMS Architektur, Python robuste Python und die nahtlose Integration mit Tools wie Weights & Biases und TensorRT sorgen dafür, dass Ihre Projekte reibungslos vom Prototyp zur Produktion gelangen.

Sind Sie bereit, loszulegen? Entdecken Sie den Ultralytics oder vergleichen Sie weitere Modelle in unserer Übersicht YOLO11 YOLO.