YOLO11 vs. DAMO-YOLO: Ein technischer Vergleich
In der sich schnell entwickelnden Landschaft der Computer Vision ist die Wahl des richtigen Objekterkennungsmodells entscheidend für den Projekterfolg. Diese Seite enthält einen detaillierten technischen Vergleich zwischen Ultralytics YOLO11 und YOLO, zwei Hochleistungsarchitekturen, die auf Geschwindigkeit und Genauigkeit ausgelegt sind. Während YOLO innovative Techniken aus der akademischen Forschung einführt, zeichnet sich YOLO11 als vielseitige, produktionsreife Lösung aus, die durch ein robustes Ökosystem unterstützt wird.
Zusammenfassung
Ultralytics YOLO11 ist die neueste Entwicklung der YOLO und optimiert die Echtzeit-Inferenz für unterschiedliche Hardware, von Edge-Geräten bis hin zu Cloud-Servern. Sie unterstützt von Haus aus mehrere Aufgaben, darunter Erkennung, Segmentierung und Posenschätzung, und ist damit eine einheitliche Lösung für komplexe KI-Pipelines.
YOLO, entwickelt von der Alibaba Group, konzentriert sich auf die Ausgewogenheit von Erkennungsgeschwindigkeit und -genauigkeit unter Verwendung von Neural Architecture Search (NAS) und neuartiger Merkmalsfusionstechniken. Es handelt sich in erster Linie um einen forschungsorientierten Detektor, der für den GPU optimiert ist.
Ultralytics YOLO11
Die Autoren: Glenn Jocher, Jing Qiu
Organisation:Ultralytics
Datum: 2024-09-27
GitHubultralytics
Docsyolo11
YOLO11 verfeinert den Stand der Technik durch die Einführung architektonischer Verbesserungen, die die Merkmalsextraktion verbessern und gleichzeitig eine hohe Effizienz gewährleisten. Es nutzt ein modifiziertes CSPNet-Backbone und einen fortschrittlichen ankerfreien Kopf, um im Vergleich zu früheren Generationen mit weniger Parametern eine höhere Genauigkeit zu erzielen.
Hauptmerkmale und Stärken
- Vielseitigkeit: Im Gegensatz zu vielen spezialisierten Modellen ist YOLO11 ein Multi-Task-Framework. Es unterstützt Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierte Bounding Boxes (OBB).
- Verfeinerte Architektur: Enthält C3k2-Blöcke und C2PSA-Module (Cross-Stage Partial with Spatial Attention), um komplexe Muster effektiv zu erfassen und die Leistung bei kleinen Objekten und schwierigen Hintergründen zu verbessern.
- Breite Hardware-Unterstützung: Optimiert für CPU und GPU optimiert und bietet verschiedene Modellskalen (Nano bis X-Large), um den Anforderungen von Raspberry Pi bis hin zu NVIDIA A100-Clustern gerecht zu werden.
- Benutzerfreundlichkeit: DiePython und CLI Ultralytics ermöglichen es Entwicklern, Modelle mit minimalem Code zu trainieren, zu validieren und einzusetzen.
Produktionsfähiges Ökosystem
YOLO11 lässt sich nahtlos in das Ultralytics integrieren, einschließlich Tools für die Datenverwaltung, die Modellschulung über Ultralytics HUB und den Export mit einem Klick in Formate wie ONNX, TensorRTund CoreML.
DAMO-YOLO
Authors: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
Bei der Entwicklung von YOLO lag der Schwerpunkt auf niedrigen Latenzzeiten und hohem Durchsatz für industrielle Anwendungen. Die YOLO wurde um mehrere "New Tech"-Komponenten erweitert, um die Grenzen des Kompromisses zwischen Geschwindigkeit und Genauigkeit zu erweitern.
Architektonische Innovationen
- MAE-NAS-Backbone: Nutzt die neuronale Architektursuche (NAS), die sich am mittleren absoluten Fehler (MAE) orientiert, um automatisch eine effiziente Netztopologie zu finden.
- Effizientes RepGFPN: Ein verallgemeinertes Merkmalspyramidennetzwerk (GFPN), das eine Neuparametrisierung einsetzt, die eine komplexe Merkmalsfusion während des Trainings ermöglicht, während es während der Inferenz in eine schnellere, einfachere Struktur kollabiert.
- ZeroHead: Ein leichtgewichtiger Erkennungskopf, der Klassifizierungs- und Regressionsaufgaben entkoppelt und so den Rechenaufwand für die letzten Ausgabeschichten erheblich reduziert.
- AlignedOTA: Eine verbesserte Strategie für die Label-Zuweisung, die die Diskrepanz zwischen Klassifizierungszuverlässigkeit und Regressionsgenauigkeit während des Trainings behebt.
YOLO zeichnet sich zwar durch spezifische Metriken aus, ist aber in erster Linie ein Forschungsrepository. Es verfügt nicht über die umfangreiche Dokumentation, die kontinuierlichen Aktualisierungen und die breite Unterstützung der Gemeinschaft, die im Ultralytics zu finden ist.
Erfahren Sie mehr über DAMO-YOLO
Leistungsmetriken: Kopf-an-Kopf-Rennen
Die folgende Tabelle vergleicht die Leistung von YOLO11 und YOLO auf dem COCO val2017-Datensatz. Zu den wichtigsten Metriken gehören die mittlere durchschnittliche PräzisionmAP) und die Inferenzgeschwindigkeit auf CPU und GPU .
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analyse der Ergebnisse
- Überlegenheit bei der Effizienz: YOLO11 zeigt eine überlegene Parametereffizienz. So erreicht das YOLO11m-Modell 51,5 mAP mit nur 20,1 Millionen Parametern, während das vergleichbare DAMO-YOLOm-Modell mit 49,2 mAP und einem größeren Fußabdruck von 28,2 Millionen Parametern zurückbleibt.
- Ultimative Genauigkeit: Die größte Variante, YOLO11x, erreicht bemerkenswerte 54,7 mAP und übertrifft damit das größte gelistete YOLO . Damit ist YOLO11 die erste Wahl für hochpräzise Aufgaben wie medizinische Bildgebung oder Fehlererkennung.
- Edge-Einsatz: Das Modell YOLO11n (Nano) ist außergewöhnlich leicht (2,6 Mio. Parameter) und schnell (1,5 ms bei T4), was es perfekt für eingebettete Systeme macht, in denen der Speicher knapp ist. Im Gegensatz dazu ist das kleinste YOLO deutlich schwerer (8,5 Mio. Parameter).
- CPU : Ultralytics bietet transparente CPU , die die Tauglichkeit von YOLO11 für den Einsatz ohne dedizierte Beschleuniger unterstreichen. YOLO gibt keine offiziellen CPU an, was seine Bewertung für IoT-Anwendungen mit geringem Stromverbrauch einschränkt.
Technische Vertiefung
Ausbildung und Architektur
YOLO stützt sich bei der Definition seines Backbones stark auf die neuronale Architektursuche (NAS). Dies kann zwar theoretisch optimale Strukturen ergeben, führt aber oft zu unregelmäßigen Blöcken, die nicht auf allen Geräten hardwarefreundlich sind. Im Gegensatz dazu verwendet YOLO11 handgefertigte, verfeinerte Blöcke (C3k2, C2PSA), die intuitiv für Standard GPU und CPU ausgelegt sind.
YOLO11 legt auch Wert auf Trainingseffizienz. Dank optimierter Hyperparameter und Strategien zur Datenerweiterung konvergiert es schnell. Der Speicherbedarf während des Trainings ist im Allgemeinen geringer als bei komplexen transformator- oder NAS-basierten Architekturen, so dass Forscher effektive Modelle auf verbraucherfreundlicher Hardware trainieren können.
Ökosystem und Benutzerfreundlichkeit
Eines der wichtigsten Unterscheidungsmerkmale ist das Ökosystem. YOLO ist in erster Linie ein Code-Repository für die Reproduktion von Forschungsergebnissen.
Ultralytics YOLO11 hingegen ist eine Full-Service-Plattform:
- Dokumentation: Umfassende Anleitungen zu jedem Aspekt der Pipeline.
- Integrationen: Native Unterstützung für MLFlow, TensorBoard, und Weights & Biases für Experimentverfolgung.
- Gemeinschaft: Eine große, aktive Community auf GitHub und Discord, die dafür sorgt, dass Bugs schnell behoben und Fragen beantwortet werden.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for deployment
path = model.export(format="onnx")
Empfehlungen für Anwendungsfälle
Wann man Ultralytics YOLO11 wählen sollte
- Real-World Deployment: Wenn Sie verschiedene Hardware einsetzen müssen (iOS, Android, Edge TPU, Jetson), sind die Exportmöglichkeiten von YOLO11 unübertroffen.
- Komplexe Vision Pipelines: Wenn Ihr Projekt mehr als nur Bounding Boxes erfordert - wie z.B. das Verfolgen von Objekten oder das Schätzen der Körperhaltung -kann YOLO11 dies nativ verarbeiten.
- Schnelles Prototyping: Die Benutzerfreundlichkeit ermöglicht es Entwicklern, innerhalb von Minuten von Daten zu einer funktionierenden Demo zu gelangen.
- Ressourcenbeschränkungen: Die Modelle Nano und Small bieten das beste Verhältnis zwischen Genauigkeit und Größe für batteriebetriebene Geräte.
Wann DAMO-YOLO in Betracht gezogen werden sollte
- Akademische Forschung: Forschern, die die Wirksamkeit von NAS bei der Objekterkennung oder Neuparametrisierungstechniken untersuchen, könnte YOLO eine wertvolle Grundlage sein.
- Spezielle GPU : In Szenarien, in denen die spezifischen architektonischen Blöcke von YOLO perfekt auf die Cache-Hierarchie eines Zielbeschleunigers abgestimmt sind, kann es einen wettbewerbsfähigen Durchsatz bieten.
Fazit
Während YOLO beeindruckende akademische Konzepte wie MAE-NAS und RepGFPN vorstellt, Ultralytics YOLO11 für die große Mehrheit der Entwickler und Unternehmen nach wie vor die bessere Wahl. Seine Kombination aus hochmoderner Genauigkeit, schlanker Architektur und einem florierenden Ökosystem stellt sicher, dass Projekte nicht nur leistungsfähig, sondern auch wartbar und skalierbar sind.
Für Entwickler, die eine zuverlässige, vielseitige und leistungsstarke Bildverarbeitungslösung suchen, bietet YOLO11 die notwendigen Werkzeuge und Metriken, um im Jahr 2025 und darüber hinaus erfolgreich zu sein.
Weitere Modellvergleiche entdecken
Um die Landschaft der Objekterkennungsmodelle besser zu verstehen, sollten Sie sich diese Vergleiche ansehen: