YOLOv5 vs DAMO-YOLO: Ein detaillierter technischer Vergleich
In der sich schnell entwickelnden Landschaft der Computer Vision ist die Auswahl der richtigen Architektur für die Objekterkennung entscheidend für den Projekterfolg. In diesem Vergleich werden zwei wichtige Modelle untersucht: Ultralytics YOLOv5ein weltweit anerkannter Industriestandard, der für seine Zuverlässigkeit und Geschwindigkeit bekannt ist, und YOLO, ein forschungsorientiertes Modell der Alibaba Group, das neue architektonische Suchtechniken einführt.
Obwohl beide Modelle auf die Lösung von Objekterkennungsaufgaben abzielen, erfüllen sie unterschiedliche Anforderungen. YOLOv5 legt den Schwerpunkt auf Benutzerfreundlichkeit, vielseitige Einsatzmöglichkeiten und eine ausgewogene Leistung in der realen Welt, während YOLO sich darauf konzentriert, die akademischen Grenzen mit Neural Architecture Search (NAS) und umfangreichen Mechanismen zur Merkmalsfusion zu erweitern.
Leistungsmetriken und Benchmarks
Bei der Auswahl eines Modells für die Produktion ist es wichtig, die Kompromisse zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit zu verstehen. Die folgenden Daten zeigen, wie diese Modelle auf dem COCO , einem Standard-Benchmark für die Objekterkennung, abschneiden.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analyse der Ergebnisse
Die Daten zeigen eine deutliche Dichotomie in der Designphilosophie. YOLOv5n (Nano) ist der unangefochtene Champion in Sachen Geschwindigkeit und Effizienz und bietet eine unglaubliche Inferenzzeit von 1,12 ms auf der GPU und eine weithin zugängliche CPU . Dies macht ihn ideal für Edge-KI-Anwendungen, bei denen eine niedrige Latenzzeit nicht verhandelbar ist.
YOLO , wie zum Beispiel das DAMO-YOLOlerzielen geringfügig höhere mittlere durchschnittliche PräzisionmAP)mit einem Höchststand von 50.8aber um den Preis der Undurchsichtigkeit der CPU . Das Fehlen von gemeldeten CPU für YOLO lässt vermuten, dass es in erster Linie für GPU optimiert ist, was seine Flexibilität für breitere Einsatzszenarien wie mobile Anwendungen oder eingebettete Systeme einschränkt.
Ultralytics YOLOv5: Der vielseitige Industriestandard
Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 26.06.2020
GitHubyolov5
Dokumentationyolov5
Seit seiner Veröffentlichung hat sich YOLOv5 zu einem Eckpfeiler in der Computer Vision Community entwickelt. Es wurde nativ in PyTorchentwickelt, hält es die Balance zwischen Komplexität und Benutzerfreundlichkeit und bietet eine "batteriefreie" Erfahrung. Seine Architektur nutzt ein CSPDarknet-Backbone und einen PANet-Hals, der Merkmale in verschiedenen Maßstäben effizient aggregiert, um Objekte unterschiedlicher Größe detect .
Zentrale Stärken
- Benutzerfreundlichkeit: Ultralytics legt großen Wert auf die Erfahrung der Entwickler (DX). Mit einer einfachen Python und intuitiven CLI können Benutzer Modelle in wenigen Minuten trainieren und bereitstellen.
- Gepflegtes Ökosystem: Unterstützt durch eine aktive Gemeinschaft und häufige Updates gewährleistet YOLOv5 die Kompatibilität mit den neuesten Tools, einschließlich Ultralytics HUB für nahtloses Modellmanagement.
- Vielseitigkeit: Über die Standarderkennung hinaus unterstützt YOLOv5 die Segmentierung von Instanzen und die Bildklassifizierung, so dass Entwickler mehrere Bildverarbeitungsaufgaben mit einem einzigen Framework bewältigen können.
- Flexibilität bei der Bereitstellung: Vom Export zu ONNX und TensorRT bis hin zum Einsatz auf iOS und Android- YOLOv5 ist so konzipiert, dass es überall läuft.
Rationalisierter Arbeitsablauf
YOLOv5 lässt sich nahtlos in gängige MLOps-Tools integrieren. Sie können Ihre Experimente track mit Weights & Biases oder Comet mit einem einzigen Befehl nachverfolgen und so sicherstellen, dass Ihre Trainingsläufe reproduzierbar und einfach zu analysieren sind.
YOLO: Forschungsgestützte Genauigkeit
Die Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, und Xiuyu Sun
Organisation: Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
YOLO ist eine von der DAMO Academy von Alibaba entwickelte Methode. Sie führt eine Reihe fortschrittlicher Technologien ein, darunter Neural Architecture Search (NAS) zur automatischen Entwicklung effizienter Backbones (MAE-NAS), eine schwere Halsstruktur namens RepGFPN (Reparameterized Generalized Feature Pyramid Network) und einen leichtgewichtigen Kopf namens ZeroHead.
Wesentliche Merkmale
- MAE-NAS-Backbone: Verwendet eine Methode namens MAE-NAS, um eine optimale Netzwerkstruktur unter bestimmten Latenzvorgaben zu finden, obwohl dies die Architektur komplexer machen kann, um sie manuell zu ändern.
- AlignedOTA Label-Zuweisung: Es verwendet eine dynamische Label-Zuweisungsstrategie namens AlignedOTA, um Fehlausrichtungen zwischen Klassifizierungs- und Regressionsaufgaben zu lösen.
- Fokus auf Genauigkeit: Das Hauptziel von YOLO ist die Maximierung von mAP auf dem COCO , was es zu einem starken Konkurrenten für Wettbewerbe oder akademische Forschung macht, wo jeder Bruchteil eines Prozents zählt.
Erfahren Sie mehr über DAMO-YOLO
Architektonische und betriebliche Unterschiede
Die Unterschiede zwischen YOLOv5 und YOLO gehen über einfache Kennzahlen hinaus und betreffen die grundlegenden Entwurfsphilosophien und betrieblichen Anforderungen.
Architektur: Einfachheit vs. Komplexität
YOLOv5 verfügt über eine handgefertigte, intuitive Architektur. Sein ankerbasierter Ansatz ist gut verständlich und leicht zu debuggen. Im Gegensatz dazu verlässt sich YOLO auf umfangreiche Neuparametrisierung und automatische Suche (NAS). NAS kann zwar zu effizienten Strukturen führen, führt aber oft zu "Blackbox"-Modellen, die von den Entwicklern nur schwer angepasst oder interpretiert werden können. Darüber hinaus erhöht die starke Einschnürung (RepGFPN) in YOLO die Rechenlast während des Trainings und erfordert mehr GPU im Vergleich zum effizienten CSP-Design von YOLOv5.
Trainingseffizienz und Gedächtnis
Ultralytics sind für ihre Trainingseffizienz bekannt. YOLOv5 benötigt in der Regel weniger CUDA , so dass es auf Consumer-GPUs trainiert werden kann. YOLO mit seinen komplexen Neuparametrisierungs- und Destillationsprozessen erfordert oft High-End-Hardware für ein effektives Training. Darüber hinaus bietet Ultralytics eine umfangreiche Bibliothek mit vortrainierten Gewichten und automatischer Hyperparameter-Abstimmung, um den Weg zur Konvergenz zu beschleunigen.
Ökosystem und Benutzerfreundlichkeit
Der vielleicht wichtigste Unterschied liegt im Ökosystem. YOLOv5 ist nicht nur ein Modell, sondern Teil einer umfassenden Suite von Tools.
- Dokumentation: Ultralytics unterhält eine umfangreiche, mehrsprachige Dokumentation, die die Benutzer von der Datenerfassung bis zur Bereitstellung begleitet.
- Gemeinschaft: Eine große globale Gemeinschaft sorgt dafür, dass Probleme schnell gelöst werden und Anleitungen leicht verfügbar sind.
- Integrationen: Native Unterstützung für Roboflow Datensätze und Einsatzziele wie NVIDIA Jetson vereinfacht die gesamte Pipeline.
YOLO, in erster Linie ein Forschungsrepository, verfügt nicht über dieses Maß an ausgefeilter Unterstützung, was die Integration in kommerzielle Produkte erheblich erschwert.
Anwendungsfälle in der Praxis
Die Wahl zwischen diesen Modellen hängt oft von der jeweiligen Einsatzumgebung ab.
Was YOLOv5 auszeichnet
- Intelligente Landwirtschaft: Aufgrund seines geringen Ressourcenbedarfs eignet sich das System perfekt für den Einsatz auf Drohnen oder autonomen Traktoren zur Erkennung von Pflanzenkrankheiten.
- Fertigung: In der Industrieautomation ermöglicht die hohe Geschwindigkeit von YOLOv5 die Echtzeit-Erkennung von Defekten an sich schnell bewegenden Förderbändern.
- Einzelhandels-Analytik: Für die Objektzählung und das Warteschlangenmanagement ermöglicht die CPU von YOLOv5 einen kosteneffizienten Einsatz auf vorhandener Ladenhardware.
Wo YOLO sich auszeichnet
- Akademische Forschung: Forschern, die die Wirksamkeit von RepGFPN- oder NAS-Techniken untersuchen, bietet YOLO eine wertvolle Grundlage.
- High-End-Überwachung: In Szenarien mit dedizierten GPUs in Serverqualität, bei denen die Genauigkeit Vorrang vor der Latenzzeit hat, kann YOLO eine präzise Erkennung in komplexen Szenen bieten.
Code-Beispiel: Erste Schritte mit YOLOv5
Die Ausführung von YOLOv5 ist dank desPython ganz einfach. Das folgende Beispiel zeigt, wie ein vortrainiertes Modell geladen und die Inferenz auf ein Bild ausgeführt wird.
import torch
# Load a pre-trained YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Run inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
Fazit
Sowohl YOLOv5 als auch YOLO leisten einen wichtigen Beitrag im Bereich der Objekterkennung. YOLO zeigt das Potenzial der neuronalen Architektursuche und der fortgeschrittenen Merkmalsfusion für das Erreichen von Benchmarks mit hoher Genauigkeit.
Für die überwiegende Mehrheit der Entwickler, Ingenieure und Unternehmen ist Ultralytics jedoch nicht geeignet, Ultralytics YOLOv5 weiterhin die beste Wahl. Die unübertroffene Benutzerfreundlichkeit, die robuste Leistungsbilanz und die Sicherheit eines gut gepflegten Ökosystems sorgen dafür, dass Projekte mit minimaler Reibung vom Prototyp zur Produktion übergehen. Die Fähigkeit zum effizienten Einsatz auf CPUs und GPUs, kombiniert mit geringeren Speicheranforderungen für das Training, macht YOLOv5 zu einer äußerst praktischen Lösung für reale Anwendungen.
Für alle, die die neueste Computer-Vision-Technologie nutzen möchten, hat Ultralytics die Innovation mit YOLOv8 und dem hochmodernen YOLO11. Diese neueren Modelle bauen auf der soliden Grundlage von YOLOv5 auf und bieten eine noch höhere Geschwindigkeit, Genauigkeit und Vielseitigkeit bei den Aufgaben.
Weitere Vergleiche entdecken
Um besser zu verstehen, wie sich diese Modelle in das breitere Ökosystem einfügen, sollten Sie sich diese detaillierten Vergleiche ansehen: