DAMO-YOLO vs. YOLO11: Ein technischer Vergleich
In der sich schnell entwickelnden Landschaft der Computer Vision ist die Wahl des richtigen Objekterkennungsmodells entscheidend für den Erfolg der Anwendung. In diesem umfassenden Vergleich werden zwei bedeutende Architekturen analysiert: YOLO, entwickelt von der Alibaba Group, und Ultralytics YOLO11das neueste, hochmoderne Modell von Ultralytics. Während beide Modelle darauf abzielen, den Kompromiss zwischen Geschwindigkeit und Genauigkeit zu optimieren, dienen sie unterschiedlichen primären Zwecken und bieten je nach Einsatzszenario unterschiedliche Vorteile.
Dieser Leitfaden bietet einen detaillierten Einblick in ihre Architekturen, Leistungskennzahlen und idealen Anwendungsfälle, um Entwicklern und Forschern eine fundierte Entscheidung zu ermöglichen.
DAMO-YOLO
Authors: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO
YOLO ist ein Framework für die Objekterkennung, das mehrere Spitzentechnologien integriert, um eine hohe Leistung zu erzielen. Der Schwerpunkt liegt auf der Verringerung der Latenzzeit bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen Genauigkeit durch eine Reihe von architektonischen Innovationen, die auf der Forschung von Alibaba basieren.
Erfahren Sie mehr über DAMO-YOLO
Architektur und Innovation
YOLO führt einen "Distill-and-Select"-Ansatz ein und umfasst die folgenden Schlüsselkomponenten:
- MAE-NAS-Grundgerüst: Mithilfe von Neural Architecture Search (NAS) wird das Backbone unter bestimmten Bedingungen optimiert, um eine effiziente Merkmalsextraktion zu gewährleisten.
- Effizientes RepGFPN: Ein verallgemeinertes Merkmalspyramidennetzwerk (GFPN) nutzt in hohem Maße Re-Parametrisierungsmechanismen, um die Merkmalsfusion über verschiedene Skalen hinweg zu verbessern, ohne dabei hohe Rechenkosten während der Inferenz zu verursachen.
- ZeroHead: Dieser leichtgewichtige Erkennungskopf entkoppelt Klassifizierungs- und Regressionsaufgaben und zielt darauf ab, die Geschwindigkeit der Schlussfolgerungen zu maximieren.
- AlignedOTA: Eine Label-Zuweisungsstrategie, die die Fehlausrichtung zwischen Klassifikations- und Regressionszielen löst und die Konvergenz während des Trainings verbessert.
YOLO bietet zwar beeindruckende theoretische Fortschritte, ist aber in erster Linie ein forschungsorientiertes Framework, das sich auf die Objekterkennung konzentriert. Ihm fehlt in der Regel die native Multitasking-Unterstützung, die in umfassenderen Ökosystemen zu finden ist.
Ultralytics YOLO11
Die Autoren: Glenn Jocher, Jing Qiu
Organisation:Ultralytics
Datum: 2024-09-27
GitHubultralytics
Docsyolo11
Ultralytics YOLO11 stellt die Spitze der Echtzeit-Computer-Vision dar und verfeinert das Erbe der YOLO mit erheblichen Verbesserungen in Bezug auf Architektur, Effizienz und Benutzerfreundlichkeit. Es ist nicht nur als Modell konzipiert, sondern als vielseitiges Werkzeug für den praktischen, realen Einsatz in verschiedenen Hardware-Umgebungen.
Architektur und Ökosystem
YOLO11 baut auf früheren Erfolgen auf und verfügt über eine verfeinerte ankerfreie Architektur. Es verfügt über ein verbessertes Grundgerüst für eine bessere Merkmalsextraktion und ein modifiziertes Halsdesign, das den Informationsfluss auf verschiedenen Ebenen verbessert.
Zu den wichtigsten Vorteilen des Ultralytics YOLO11 Frameworks gehören:
- Vielseitigkeit: Im Gegensatz zu vielen Mitbewerbern unterstützt YOLO11 von Haus aus eine breite Palette von Aufgaben, darunter Objekterkennung, Instanzsegmentierung, Posenschätzung, Bildklassifizierung und orientierte Bounding Boxes (OBB).
- Benutzerfreundlichkeit: Das Modell ist in eine benutzerfreundliche Python und CLIverpackt, wodurch es sowohl für Anfänger als auch für Experten zugänglich ist.
- Trainingseffizienz: YOLO11 wurde für eine schnellere Konvergenz optimiert und verwendet effiziente Datenerweiterungs- und Verlustfunktionen, die es dem Benutzer ermöglichen, benutzerdefinierte Modelle auf Datensätzen wie COCO mit geringerem Ressourcen-Overhead trainieren.
- Gepflegtes Ökosystem: Unterstützt von der Ultralytics Team profitieren die Benutzer von häufigen Aktualisierungen, umfassender Dokumentation und nahtloser Integration mit MLOps-Tools wie Ultralytics HUB.
Wussten Sie das?
YOLO11 wurde entwickelt, um auf Edge AI-Geräten hocheffizient zu sein. Seine optimierte Architektur sorgt für eine geringe Speichernutzung und hohe Inferenzgeschwindigkeiten auf Hardware wie dem NVIDIA Jetson und dem Raspberry Pi, was ihn im Vergleich zu schwereren transformatorbasierten Modellen zu einer hervorragenden Wahl für eingebettete Anwendungen macht.
Leistungsvergleich
Das folgende Diagramm und die Tabelle veranschaulichen die Leistungsunterschiede zwischen YOLO und YOLO11. Ultralytics YOLO11 zeigt durchweg eine überlegene GenauigkeitmAP) und günstige Inferenzgeschwindigkeiten, insbesondere auf CPU , für die es bei YOLO keine offiziellen Benchmarks gibt.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Analyse der Ergebnisse
- Genauigkeit: YOLO11 übertrifft die vergleichbaren YOLO deutlich. Zum Beispiel erreicht YOLO11m einen Wert von 51,5 mAP, deutlich höher als DAMO-YOLOm mit 49,2 mAP, obwohl es weniger Parameter hat (20,1M gegenüber 28,2M).
- Inferenz-Geschwindigkeit: Auf der GPU (T4 TensorRT) bietet YOLO11 eine äußerst wettbewerbsfähige Latenzzeit. YOLO11n ist mit 1,5 ms unglaublich schnell und eignet sich daher für Anwendungen mit extrem geringer Latenz.
- CPU : Ein großer Vorteil der Ultralytics ist ihre Transparenz hinsichtlich der CPU . YOLO11 ist für die CPU optimiert durch ONNX und OpenVINO optimiert, wohingegen sich YOLO stark auf die GPU konzentriert und die CPU oft undefiniert lässt.
- Effizienz des Modells: YOLO11 weist ein besseres Gleichgewicht zwischen Parametern und Leistung auf. Die architektonische Effizienz ermöglicht kleinere Modelldateien, was sich in schnelleren Downloads und geringeren Speicheranforderungen auf Edge-Geräten niederschlägt.
Wesentliche Unterscheidungsmerkmale und Anwendungsfälle
Die Stärken von Ultralytics YOLO11
Entwickler, die Ultralytics YOLO11 nutzen, erhalten Zugang zu einer robusten, produktionsgerechten Umgebung.
- Ausgewogene Leistung: Die Modellarchitektur wurde sorgfältig abgestimmt, um den besten Kompromiss zwischen Inferenzgeschwindigkeit und Genauigkeit zu erzielen, was für die Echtzeit-Videoanalyse entscheidend ist.
- Multi-Task-Fähigkeiten: Wenn sich Ihr Projektumfang von der Erkennung auf die Verfolgung oder Segmentierung ausweitet, kann YOLO11 dies nahtlos innerhalb derselben Codebasis verarbeiten.
- Benutzerfreundlichkeit: Die
ultralyticsPaket vereinfacht die gesamte Pipeline. Das Laden eines Modells, das Ausführen von Vorhersagen und das Exportieren in Formate wie CoreML, TFLite oder TensorRT können mit nur wenigen Zeilen Code erledigt werden. - Geringerer Speicherbedarf: Im Vergleich zu transformatorbasierten Detektoren oder nicht optimierten Architekturen benötigt YOLO11 in der Regel weniger CUDA während des Trainings, was es Forschern ermöglicht, auf Consumer-GPUs zu trainieren.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Die Stärken von YOLO
YOLO ist in akademischen Forschungskreisen ein starker Anwärter.
- Innovation in der Forschung: Funktionen wie MAE-NAS und ZeroHead bieten interessante Einblicke in die Suche nach neuronalen Architekturen und die Entkopplung von Köpfen.
- GPU : Für bestimmte industrielle Anwendungen, die ausschließlich auf unterstützten GPUs laufen, bietet YOLO einen hohen Durchsatz, obwohl es bei der reinen Genauigkeit pro Parameter oft hinter YOLO11 zurückbleibt.
Fazit
Während YOLO neuartige Konzepte des Forschungsteams von Alibaba vorstellt, Ultralytics YOLO11 für die große Mehrheit der Entwickler und Unternehmen die bessere Wahl. Seine Dominanz wird nicht nur durch höhere mAP Scores und schnellere Inferenzen, sondern auch durch das umfassende Ökosystem, das es unterstützt.
Von der Benutzerfreundlichkeit und Vielseitigkeit bis hin zu einer gut gepflegten Codebasis und aktivem Community-Support senkt YOLO11 die Einstiegshürde für die Entwicklung fortschrittlicher KI-Lösungen. Ob auf Cloud-Servern oder ressourcenbeschränkten Edge-Geräten, YOLO11 bietet die Zuverlässigkeit und Leistung, die für moderne Computer-Vision-Anwendungen erforderlich sind.
Weitere Modellvergleiche entdecken
Um besser zu verstehen, wie Ultralytics Modelle im Vergleich zu anderen Architekturen abschneiden, lesen Sie unsere detaillierten Vergleichsseiten: