DAMO-YOLO vs. YOLOv5: Ein tiefer Einblick in die Echtzeit-Objekterkennung

Die Entwicklung der Computervision ist geprägt von kontinuierlichen Innovationen im Bereich der Echtzeit-Objekterkennung. Heute stehen Entwickler und Forscher bei der Konzeption von Vision-Pipelines vor einer Vielzahl von architektonischen Entscheidungen. Dieser umfassende technische Vergleich untersucht die Nuancen zwischen YOLO und Ultralytics YOLOv5und beleuchtet deren jeweilige Architekturen, Trainingsmethoden, Leistungskennzahlen und ideale Einsatzszenarien.

Einführung inYOLO

YOLO wurde von der Alibaba Group veröffentlicht undYOLO mehrere neuartige TechnikenYOLO , die darauf abzielen, die Grenzen der Erkennungsgeschwindigkeit und -genauigkeit zu erweitern.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 23. November 2022
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO
Dokumentation:README.md

Erfahren Sie mehr über DAMO-YOLO

Architektonische Innovationen

DAMO-YOLO basiert auf einer Grundlage von Neural Architecture Search (NAS). Die Autoren nutzten MAE-NAS, um Backbones automatisch zu entwerfen, die Latenz und Genauigkeit ausbalancieren. Das Modell führt ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network) ein, das die Feature-Fusion über verschiedene Skalen hinweg verbessert. Darüber hinaus integriert DAMO-YOLO ein „ZeroHead“-Design, das komplexe Multi-Branch-Vorhersage-Heads zugunsten einer einfacheren, effizienteren Struktur eliminiert, die stark auf Reparameterisierung während der Inferenz setzt.

Um das Training zu verbessern, verwendet das Modell AlignedOTA für die Label-Zuweisung und einen intensiven Destillationsverbesserungsprozess, bei dem ein größeres „Lehrer”-Modell das kleinere „Schüler”-Modell anleitet, um eine höhere Genauigkeit zu erreichen.

Einführung in Ultralytics YOLOv5

Ultralytics YOLOv5 eine der weltweit am häufigsten eingesetzten Bildverarbeitungsarchitekturen und bekannt für ihre Stabilität, Benutzerfreundlichkeit und ihr umfangreiches Einsatzumfeld.

Autoren: Glenn Jocher
Organisation:Ultralytics
Datum: 26. Juni 2020
GitHub:ultralytics/yolov5
Dokumentation:YOLOv5 Dokumentation

Erfahren Sie mehr über YOLOv5

Der Ökosystemstandard

YOLOv5 den Industriestandard für Benutzerfreundlichkeit YOLOv5 . Nativ in PyTorchintegriert, nutzt es ein hochoptimiertes CSPNet-Backbone und einen PANet-Neck für eine robuste Merkmalsaggregation. Obwohl es dem Trend zu ankerfreien Modellen vorausging, gewährleistet sein hochentwickelter ankerbasierter Ansatz in Verbindung mit automatischem Ankerlernen eine hervorragende Leistung ab dem ersten Einsatz.

Die wahre Stärke von YOLOv5 in seinem gut gepflegten Ökosystem. Es lässt sich nahtlos in Tracking-Tools wie Comet und Weights & Biasesund unterstützt den Export mit einem Klick in Formate wie ONNX, TensorRTund CoreML.

Erste Schritte mit YOLOv5

YOLOv5 unglaublich einfach mit benutzerdefinierten Datensätzen trainieren. Die optimierte API reduziert die Reibungsverluste vom Prototyp bis zur Produktion und macht es zu einem Favoriten unter agilen Entwicklerteams.

Leistung und Metriken im Vergleich

Beim Vergleich dieser Modelle ist es entscheidend, das Gleichgewicht zwischen der mittleren durchschnittlichen Präzision (mAP), der Inferenzgeschwindigkeit und der Parameteranzahl zu betrachten.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Analyse der Kompromisse

DAMO-YOLO erreicht beeindruckende mAP-Werte für seine Parametergrößen und profitiert stark von seiner Destillations-Trainingsphase. Dies geht jedoch zulasten der Trainingseffizienz. Der mehrstufige Destillationsprozess erfordert zunächst das Training eines großen Teachermodells, was die benötigte GPU-Rechenzeit und den VRAM erheblich erhöht.

Andererseits bietet YOLOv5 exzellente Speicheranforderungen. Ultralytics YOLO-Modelle sind bekannt für ihren geringeren Speicherverbrauch sowohl während des Trainings als auch der Inferenz im Vergleich zu komplexen Destillations-Pipelines oder Transformer-basierten Modellen wie RT-DETR. Dies ermöglicht es, YOLOv5 effizient auf Consumer-Hardware oder zugänglichen Cloud-Umgebungen wie Google Colab zu trainieren.

Praktische Anwendungen und Vielseitigkeit

Die Wahl der richtigen Architektur hängt oft von der Bereitstellungsumgebung ab.

Wo DAMO-YOLO seine Stärken ausspielt

DAMO-YOLO ist strikt ein object detection-Modell. Es ist eine ausgezeichnete Wahl für die akademische Forschung, insbesondere für Teams, die Neural Architecture Search untersuchen oder die im Paper detaillierten Reparameterisierungstechniken reproduzieren möchten. Wenn ein Projekt über umfangreiche Rechenressourcen verfügt, um die Destillations-Trainingsphase durchzuführen, und sich ausschließlich darauf konzentriert, den letzten Bruchteil an Genauigkeit für 2D-Bounding Boxes herauszuholen, ist DAMO-YOLO ein starker Kandidat.

Der Ultralytics Vorteil

Für die reale Produktion sind Ultralytics aufgrund ihrer Benutzerfreundlichkeit und Vielseitigkeit die erste Wahl. Während YOLOv5 ein Standard für die Erkennung und Bildklassifizierung YOLOv5 , ermöglicht das umfassendere Ultralytics Entwicklern einen mühelosen Wechsel zwischen verschiedenen Aufgaben.

Beispielsweise unterstützen neuere Versionen der Ultralytics nativ Instanzsegmentierung, Posenschätzung und OBB-Erkennung (Oriented Bounding Box). Diese Multitasking-Fähigkeit stellt sicher, dass Teams eine einzige, einheitliche Python für komplexe Pipelines nutzen können, beispielsweise für die Kombination von automatischer Kennzeichenerkennung mit Fahrzeugsegmentierung.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen DAMO-YOLO und YOLOv5 hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann DAMO-YOLO wählen?

DAMO-YOLO ist eine gute Wahl für:

Hochdurchsatz-Videoanalyse: Verarbeitung von Hoch-FPS-Videoströmen auf fester NVIDIA-GPU-Infrastruktur, wo der Batch-1-Durchsatz die primäre Metrik ist.
Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenz-Beschränkungen auf dedizierter Hardware, wie z.B. Echtzeit-Qualitätsinspektion an Montagelinien.
Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten reparametrisierten Backbones auf die Detektionsleistung.

Wann man YOLOv5 wählen sollte

YOLOv5 empfohlen für:

Bewährte Produktionssysteme: Bestehende Implementierungen, bei denen die langjährige Stabilität, die umfassende Dokumentation und der massive Community-Support von YOLOv5 geschätzt werden.
Ressourcenbeschränktes Training: Umgebungen mit begrenzten GPU-Ressourcen, in denen die effiziente Trainingspipeline und die geringeren Speicheranforderungen von YOLOv5 vorteilhaft sind.
Umfangreiche Unterstützung für Exportformate: Projekte, die eine Bereitstellung in vielen Formaten erfordern, einschließlich ONNX, TensorRT, CoreML und TFLite.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Die Zukunft: Umzug nach YOLO26

YOLOv5 zwar legendär undYOLO interessante akademische Erkenntnisse, doch die Technik hat sich weiterentwickelt. Ultralytics wurde im Januar 2026 veröffentlicht und stellt einen enormen Fortschritt für die Vision-Community dar.

Erfahren Sie mehr über YOLO26

YOLO26 behebt die traditionellen Engpässe bei der Edge-Bereitstellung und der Instabilität des Trainings:

End-to-End NMS-freies Design: YOLO26 eliminiert nativ die Non-Maximum Suppression-Nachbearbeitung. Dieser Durchbruch vereinfacht die Bereitstellungslogik und reduziert die Latenzvariabilität drastisch, wodurch es ideal für Hochgeschwindigkeits-Robotik und autonome Systeme ist.
MuSGD-Optimierer: Inspiriert von LLM-Trainingsinnovationen (wie Moonshot AIs Kimi K2) nutzt YOLO26 den MuSGD-Optimierer (einen Hybrid aus SGD und Muon). Dies gewährleistet hochstabile Trainingsläufe und eine bemerkenswert schnellere Konvergenz.
Bis zu 43 % schnellere CPU-Inferenz: Durch die strategische Entfernung des Distribution Focal Loss (DFL) erzielt YOLO26 deutlich überlegene Geschwindigkeiten auf CPUs und Edge-Geräten im Vergleich zu seinen Vorgängern wie YOLO11 und YOLOv8.
ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen erzielen bemerkenswerte Verbesserungen bei der Kleinstobjekterkennung, was für die Analyse von Luftbildaufnahmen von Drohnen und IoT-Sensorfeeds entscheidend ist.

Code-Beispiel: Einfachheit in Aktion

Ultralytics können Sie Modelle mit nur wenigen Zeilen Code trainieren und bereitstellen. Unabhängig davon, ob Sie YOLOv5 verwenden YOLOv5 auf das empfohlene YOLO26 upgraden, bleibt die Benutzeroberfläche konsistent und intuitiv.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Fazit

Sowohl DAMO-YOLO als auch YOLOv5 haben maßgeblich zur Landschaft des Computer Vision beigetragen. DAMO-YOLO demonstriert die Leistungsfähigkeit von Neural Architecture Search und Destillation und ist damit eine interessante Studie für Forscher. YOLOv5 bleibt jedoch ein praktisches Kraftpaket aufgrund seiner Leistungsbalance, geringen Speicheranforderungen und unübertroffenen Benutzerfreundlichkeit.

Entwicklern, die heute neue Projekte starten, wird empfohlen, die Ultralytics zu nutzen und YOLO26 einzusetzen. Es kombiniert das beliebte benutzerfreundliche Ökosystem von YOLOv5 bahnbrechenden architektonischen Fortschritten und gewährleistet so höchste Genauigkeit und blitzschnelle Inferenz für Cloud- und Edge-KI-Anwendungen. Entwickler sollten auch andere effiziente Modelle wie YOLOv6 oder YOLOX in Betracht ziehen.