DAMO-YOLO vs. YOLOv7: Ein detaillierter technischer Vergleich

Die Auswahl der optimalen Architektur für die Objekterkennung ist eine zentrale Entscheidung bei der Entwicklung von Computer Vision. Die Wahl erfordert oft ein Abwägen zwischen Inferenzlatenz und Erkennungsgenauigkeit bei gleichzeitiger Berücksichtigung der Hardwarebeschränkungen für den Einsatz. In diesem technischen Vergleich werden YOLO und YOLOv7 untersucht, zwei einflussreiche Modelle, die 2022 veröffentlicht wurden und die Grenzen der Echtzeiterkennung verschoben haben. Wir analysieren ihre architektonischen Innovationen, Benchmark-Leistungen und idealen Anwendungsszenarien, um Ihnen bei der Modellauswahl zu helfen.

DAMO-YOLO: Neuronale Architektursuche für Edge-Effizienz

DAMO-YOLO wurde von der Alibaba Group mit dem spezifischen Fokus entwickelt, die Leistung für industrielle Anwendungen zu maximieren. Es zeichnet sich durch die Integration der Neural Architecture Search (NAS) aus, um das Design seines Backbones zu automatisieren und so eine optimale Effizienz zu gewährleisten.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Dokumentation:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Architektonische Innovationen

DAMO-YOLO führt mehrere innovative Technologien ein, die darauf abzielen, den Rechenaufwand zu reduzieren und gleichzeitig eine hohe Präzision aufrechtzuerhalten:

MAE-NAS-Backbone (GiraffeNet): Im Gegensatz zu traditionellen manuell entworfenen Backbones verwendet DAMO-YOLO einen Method-Aware Efficiency (MAE) NAS-Ansatz. Dies führt zu einer Backbone-Serie namens GiraffeNet, die einen überlegenen Kompromiss zwischen Gleitkommaoperationen (FLOPs) und Latenz unter verschiedenen Hardware-Einschränkungen bietet.
Effizientes RepGFPN: Das Modell verfügt über ein Generalisiertes Feature Pyramid Network (GFPN), das mit Reparameterisierung optimiert wurde. Dieses „RepGFPN“ ermöglicht eine effiziente multiskalare Merkmalsfusion, die für das detect von Objekten unterschiedlicher Größen unerlässlich ist, ohne die hohen Rechenkosten, die mit Standard-FPNs verbunden sind.
ZeroHead: Ein neuartiges „ZeroHead“-Design vereinfacht den detection head erheblich. Durch die Entkopplung von Klassifizierungs- und Regressionsaufgaben und die Entfernung der komplexen spezifischen Schicht reduziert es die Parameteranzahl des Heads während der Inferenz auf null, was Speicher spart und die Geschwindigkeit erhöht.
AlignedOTA: Um die Trainingsstabilität und -genauigkeit zu verbessern, verwendet DAMO-YOLO AlignedOTA, eine dynamische Strategie zur Zuweisung von Labels, die das Fehlausrichtungsproblem zwischen Klassifizierungssicherheit und Regressionsgenauigkeit behebt.

Stärken und Anwendungsfälle

DAMO-YOLO zeichnet sich in Umgebungen aus, in denen Latenz entscheidend ist. Seine kleineren Varianten (Tiny/Small) sind besonders effektiv für Edge-AI-Implementierungen.

Industrieautomation: Ideal für Hochgeschwindigkeits-Montagelinien, bei denen Millisekunden zählen.
Mobile Anwendungen: Die geringe Parameteranzahl macht es für den Betrieb auf Smartphones mit begrenzter Rechenleistung geeignet.

Erfahren Sie mehr über DAMO-YOLO

YOLOv7: Optimierung der Echtzeitgenauigkeit

YOLOv7, kurz vor DAMO-YOLO veröffentlicht, setzte einen neuen Maßstab für Spitzenleistung im Bereich von 5 FPS bis 160 FPS. Es konzentrierte sich stark auf die Optimierung des Trainingsprozesses und des Gradientenflusses, um eine höhere Genauigkeit zu erreichen, ohne die Inferenzkosten zu erhöhen.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Dokumentation:https://docs.ultralytics.com/models/yolov7/

Architektonische Innovationen

YOLOv7 führte „Bag-of-Freebies“-Methoden ein, die die Genauigkeit während des Trainings verbessern, ohne die Inferenzmodellstruktur zu beeinflussen:

E-ELAN (Extended Efficient Layer Aggregation Network): Diese Architektur steuert die kürzesten und längsten Gradientenpfade, wodurch das Netzwerk vielfältigere Merkmale lernen kann. Sie verbessert die Lernfähigkeit der „Kardinalität“, ohne den ursprünglichen Zustand des Gradientenpfads zu zerstören.
Modellskalierung für auf Konkatenation basierende Modelle: YOLOv7 schlägt eine zusammengesetzte Skalierungsmethode vor, die Tiefe und Breite gleichzeitig für auf Konkatenation basierende Architekturen skaliert, um eine optimale Parameternutzung zu gewährleisten.
Trainierbare Bag-of-Freebies: Es werden Techniken wie die geplante Re-Parametrisierung und die Überwachung durch Hilfs-Heads (grob-zu-fein) eingesetzt. Diese verbessern die Robustheit und Genauigkeit des Modells während des Trainings, werden aber während der Inferenz zusammengeführt oder verworfen, wodurch das Modell schnell bleibt.

Stärken und Anwendungsfälle

YOLOv7 ist ein Kraftpaket für die allgemeine Objekterkennung, das eine ausgezeichnete Mean Average Precision (mAP) auf Standarddatensätzen wie MS COCO bietet.

Smart City Überwachung: Seine hohe Genauigkeit macht es zuverlässig für die detect von Fußgängern und Fahrzeugen in komplexen städtischen Umgebungen.
Autonome Systeme: Geeignet für Robotik und Drohnen, die eine zuverlässige Detektion über größere Entfernungen erfordern, bei denen hochauflösende Eingaben vorteilhaft sind.

Erfahren Sie mehr über YOLOv7

Leistungsvergleich

Die folgende Tabelle vergleicht die Leistung von DAMO-YOLO und YOLOv7. Während DAMO-YOLO für seine Größe oft eine geringere Latenz (höhere Geschwindigkeit) erreicht, behält YOLOv7 im Allgemeinen einen starken Ruf für Genauigkeit, insbesondere in seinen größeren Konfigurationen.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Die Daten zeigen, dass DAMO-YOLO für stark eingeschränkte Umgebungen eine sehr leichte Lösung bietet (8,5 Mio. Parameter für die Tiny-Version). YOLOv7 verschiebt jedoch die Grenzen der Genauigkeit, wobei seine X-Variante 53,1 % mAP erreicht, wenn auch mit höheren Rechenkosten.

Architektur-Kompromisse

Während die NAS-basierte Backbone-Architektur von DAMO-YOLO speziell auf Latenz optimiert ist, konzentriert sich das manuelle architektonische Design von YOLOv7 auf die Effizienz des Gradientenflusses. Anwender sollten beide auf ihrer spezifischen Hardware benchmarken, da theoretische FLOPs nicht immer perfekt mit der realen inference speed korrelieren.

Der Ultralytics Vorteil: Warum upgraden?

Während sowohl DAMO-YOLO als auch YOLOv7 bedeutende Errungenschaften in der Geschichte der Computer Vision darstellen, entwickelt sich das Feld rasant weiter. Für Entwickler, die die robustesten, vielseitigsten und benutzerfreundlichsten Lösungen suchen, sind Ultralytics YOLO11 und YOLOv8 die empfohlenen Optionen.

Ultralytics Modelle sind nicht nur als Forschungsartefakte, sondern als umfassende Produktionstools konzipiert. Sie lösen die „Last-Mile“-Probleme bei der KI-Bereitstellung – Benutzerfreundlichkeit, Integration und Wartung.

Hauptvorteile von Ultralytics Modellen

Benutzerfreundlichkeit: Mit einer einheitlichen Python API und CLI können Sie ein hochmodernes Modell in wenigen Codezeilen trainieren. Es ist nicht nötig, komplexe Konfigurationsdateien manuell anzupassen oder sich mit Abhängigkeiten auseinanderzusetzen.
Gut gepflegtes Ökosystem: Ultralytics bietet ein florierendes Ökosystem mit häufigen Updates, das Fehler schnell identifiziert und behebt. Unterstützung ist durch umfangreiche Dokumentation und aktive Community-Kanäle leicht verfügbar.
Leistungsbalance: Modelle wie YOLO11 verwenden fortschrittliche ankerfreie detect-Heads und optimierte Backbones, um überlegene Genauigkeits-Geschwindigkeits-Verhältnisse im Vergleich zu YOLOv7 und DAMO-YOLO zu erzielen.
Vielseitigkeit: Im Gegensatz zu älteren Modellen, die oft auf Erkennung beschränkt sind, unterstützt Ultralytics YOLO Instanzsegmentierung, Posenschätzung, orientierte Objekterkennung (OBB) und Klassifizierung sofort einsatzbereit.
Trainingseffizienz: Vortrainierte Gewichte und optimierte Datenlader gewährleisten eine schnellere Konvergenz, wodurch GPU-Stunden und Energie gespart werden.

from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Erfahren Sie mehr über YOLO11

Fazit

DAMO-YOLO und YOLOv7 haben jeweils unterschiedliche Vorzüge. DAMO-YOLO ist ein starker Kandidat für Projekte, bei denen die Inferenzgeschwindigkeit am Edge die primäre Einschränkung ist, da es NAS nutzt, um Millisekunden einzusparen. YOLOv7 bleibt eine solide Wahl für Forscher, die eine hochpräzise detect mit einer bewährten architektonischen Abstammung suchen.

Für die meisten kommerziellen und Forschungsanwendungen bietet das Ultralytics YOLO-Ökosystem heute jedoch ein überlegenes Erlebnis. Durch die Kombination von Spitzenleistung mit unübertroffener Benutzerfreundlichkeit und Vielseitigkeit ermöglichen Ultralytics-Modelle Entwicklern, sich auf die Wertschöpfung statt auf das Debuggen von Code zu konzentrieren. Ob Sie auf einem Cloud-Server oder einem Edge-Gerät wie dem NVIDIA Jetson bereitstellen, Ultralytics bietet den optimiertesten Weg zur Produktion.

Andere Modelle

Wenn Sie Architekturen zur Objekterkennung erkunden, könnten Sie auch an diesen Modellen interessiert sein:

Ultralytics YOLOv8: Ein äußerst vielseitiges Modell, das Detektion, Segmentierung und Pose-Aufgaben unterstützt.
Ultralytics YOLO11: Die neueste Entwicklung in der YOLO-Serie, die modernste Effizienz bietet.
RT-DETR: Ein auf Transformer basierender Echtzeit-Detektor, der NMS-Verzögerungen vermeidet.
YOLOv9: Bietet programmierbare Gradienteninformationen (PGI) für verbessertes Lernen.
YOLOv10: Konzentriert sich auf NMS-freies End-to-End-Training für reduzierte Latenz.

DAMO-YOLO vs. YOLOv7: Ein detaillierter technischer Vergleich

DAMO-YOLO: Neuronale Architektursuche für Edge-Effizienz

Architektonische Innovationen

Stärken und Anwendungsfälle

YOLOv7: Optimierung der Echtzeitgenauigkeit

Architektonische Innovationen

Stärken und Anwendungsfälle

Leistungsvergleich

Der Ultralytics Vorteil: Warum upgraden?

Hauptvorteile von Ultralytics Modellen

Fazit

Andere Modelle

Kommentare