DAMO-YOLO vs. YOLO11: Ein technischer Vergleich

In der sich schnell entwickelnden Landschaft der Computer Vision ist die Wahl des richtigen Objekterkennungsmodells entscheidend für den Erfolg der Anwendung. In diesem umfassenden Vergleich werden zwei bedeutende Architekturen analysiert: YOLO, entwickelt von der Alibaba Group, und Ultralytics YOLO11das neueste, hochmoderne Modell von Ultralytics. Während beide Modelle darauf abzielen, den Kompromiss zwischen Geschwindigkeit und Genauigkeit zu optimieren, dienen sie unterschiedlichen primären Zwecken und bieten je nach Einsatzszenario unterschiedliche Vorteile.

Dieser Leitfaden bietet einen tiefgehenden Einblick in ihre Architekturen, Leistungsmetriken und idealen Anwendungsfälle, um Entwicklern und Forschern fundierte Entscheidungen zu ermöglichen.

DAMO-YOLO

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, und Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Dokumentation:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO ist ein Objekterkennungs-Framework, das mehrere innovative Technologien integriert, um eine hohe Leistung zu erzielen. Es konzentriert sich auf die Reduzierung der Latenz bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen Genauigkeit durch eine Reihe architektonischer Innovationen, die durch Alibabas Forschung vorangetrieben wurden.

Erfahren Sie mehr über DAMO-YOLO

Architektur und Innovation

DAMO-YOLO führt einen „Distill-and-Select“-Ansatz ein und integriert die folgenden Schlüsselkomponenten:

MAE-NAS Backbone: Unter Verwendung von Neural Architecture Search (NAS) wird das Backbone unter spezifischen Einschränkungen optimiert, um eine effiziente Feature-Extraktion zu gewährleisten.
Effizientes RepGFPN: Ein Generalisiertes Feature Pyramid Network (GFPN) nutzt intensiv Reparameterisierungsmechanismen, um die Merkmalsfusion über verschiedene Skalen hinweg zu verbessern, ohne während der Inferenz hohe Rechenkosten zu verursachen.
ZeroHead: Dieser leichtgewichtige detection head entkoppelt Klassifizierungs- und Regressionsaufgaben, mit dem Ziel, die Inferenzgeschwindigkeit zu maximieren.
AlignedOTA: Eine Strategie zur Zuweisung von Labels, die die Fehlausrichtung zwischen Klassifizierungs- und Regressionszielen behebt und die Konvergenz während des Trainings verbessert.

Obwohl DAMO-YOLO beeindruckende theoretische Fortschritte aufweist, ist es primär ein forschungsorientiertes Framework, das sich auf die object detection konzentriert. Es fehlt typischerweise die native Multitasking-Unterstützung, die in umfassenderen Ökosystemen zu finden ist.

Ultralytics YOLO11

Autoren: Glenn Jocher, Jing Qiu
Organisation:Ultralytics
Datum: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Dokumentation:https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 repräsentiert den Höhepunkt der Echtzeit-Computer-Vision und verfeinert das Erbe der YOLO-Serie mit signifikanten Verbesserungen in Architektur, Effizienz und Benutzerfreundlichkeit. Es ist nicht nur als Modell konzipiert, sondern als vielseitiges Werkzeug für den praktischen Einsatz in der realen Welt über verschiedene Hardwareumgebungen hinweg.

Erfahren Sie mehr über YOLO11

Architektur und Ökosystem

YOLO11 baut auf früheren Erfolgen mit einer verfeinerten ankerfreien Architektur auf. Es verfügt über ein verbessertes Backbone für überlegene Merkmalsextraktion und ein modifiziertes Neck-Design, das den Informationsfluss auf verschiedenen Skalen verbessert.

Wichtige Vorteile des Ultralytics YOLO11 Frameworks umfassen:

Vielseitigkeit: Im Gegensatz zu vielen Wettbewerbern unterstützt YOLO11 nativ eine breite Palette von Aufgaben, darunter Objekterkennung, Instanzsegmentierung, Posenschätzung, Bildklassifizierung und orientierte Bounding Boxes (OBB).
Benutzerfreundlichkeit: Das Modell ist in eine benutzerfreundliche Python API und CLI gehüllt, wodurch es sowohl für Anfänger als auch für Experten zugänglich ist.
Trainingseffizienz: Optimiert für schnellere Konvergenz, nutzt YOLO11 effiziente Datenerweiterungs- und Verlustfunktionen, wodurch Benutzer benutzerdefinierte Modelle auf Datensätzen wie COCO mit geringerem Ressourcenaufwand trainieren können.
Gut gepflegtes Ökosystem: Unterstützt durch das Ultralytics-Team, profitieren Nutzer von häufigen Updates, umfangreicher Dokumentation und nahtloser Integration mit MLOps-Tools wie Ultralytics HUB.

Wussten Sie schon?

YOLO11 ist darauf ausgelegt, auf Edge-AI-Geräten hoch effizient zu sein. Seine optimierte Architektur gewährleistet geringen Speicherverbrauch und hohe Inferenzgeschwindigkeiten auf Hardware wie dem NVIDIA Jetson und Raspberry Pi, was es zu einer überlegenen Wahl für eingebettete Anwendungen im Vergleich zu schwereren transformatorbasierten Modellen macht.

Leistungsvergleich

Das folgende Diagramm und die Tabelle veranschaulichen die Leistungsunterschiede zwischen DAMO-YOLO und YOLO11. Ultralytics YOLO11 demonstriert durchweg eine überlegene Genauigkeit (mAP) und vorteilhafte Inferenzgeschwindigkeiten, insbesondere auf CPU-Hardware, wo DAMO-YOLO keine offiziellen Benchmarks aufweist.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Analyse der Ergebnisse

Genauigkeit: YOLO11 übertrifft vergleichbare DAMO-YOLO-Modelle deutlich. Zum Beispiel erreicht YOLO11m ein 51,5 mAP, was merklich höher ist als DAMO-YOLOm mit 49,2 mAP, obwohl es weniger Parameter hat (20,1M vs. 28,2M).
Inferenz-Geschwindigkeit: Auf GPU (T4 TensorRT) bietet YOLO11 eine äußerst wettbewerbsfähige Latenz. YOLO11n ist mit 1,5 ms unglaublich schnell, was es für Anwendungen mit extrem niedriger Latenz geeignet macht.
CPU-Leistung: Ein großer Vorteil der Ultralytics-Modelle ist ihre Transparenz hinsichtlich der CPU-Leistung. YOLO11 ist für die CPU-Inferenz über ONNX und OpenVINO optimiert, während DAMO-YOLO stark auf GPU setzt und die CPU-Bereitstellungsleistung oft undefiniert lässt.
Modelleffizienz: YOLO11 demonstriert ein besseres Verhältnis von Parametern zu Leistung. Die architektonische Effizienz ermöglicht kleinere Modelldateien, was zu schnelleren Downloads und geringeren Speicheranforderungen auf Edge-Geräten führt.

Wesentliche Unterscheidungsmerkmale und Anwendungsfälle

Stärken von Ultralytics YOLO11

Entwickler, die Ultralytics YOLO11 nutzen, erhalten Zugang zu einer robusten, produktionsreifen Umgebung.

Leistungsbalance: Die Modellarchitektur ist sorgfältig abgestimmt, um den besten Kompromiss zwischen Inferenzgeschwindigkeit und Genauigkeit zu bieten, was für Echtzeit-Videoanalysen entscheidend ist.
Multi-Task-Fähigkeiten: Wenn sich der Umfang Ihres Projekts von detect auf track oder segment erweitert, handhabt YOLO11 dies nahtlos innerhalb derselben Codebasis.
Benutzerfreundlichkeit: Die ultralytics Das Paket vereinfacht die gesamte Pipeline. Das Laden eines Modells, das Ausführen von Vorhersagen und der Export in Formate wie CoreML, TFLite oder TensorRT kann mit nur wenigen Codezeilen erfolgen.
Geringere Speicheranforderungen: Im Vergleich zu transformatorbasierten Detektoren oder unoptimierten Architekturen benötigt YOLO11 typischerweise weniger CUDA-Speicher während des Trainings, was Forschern das Training auf Consumer-GPUs ermöglicht.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Stärken von DAMO-YOLO

DAMO-YOLO ist ein starker Kandidat in akademischen Forschungskreisen.

Forschungsinnovation: Funktionen wie MAE-NAS und ZeroHead bieten interessante Einblicke in die neuronale Architektursuche und Head-Entkopplung.
GPU-Durchsatz: Für spezifische industrielle Anwendungen, die ausschließlich auf unterstützten GPUs laufen, bietet DAMO-YOLO einen hohen Durchsatz, obwohl es in Bezug auf die reine Genauigkeit pro Parameter-Effizienz oft hinter YOLO11 zurückbleibt.

Fazit

Obwohl DAMO-YOLO neuartige Konzepte vom Forschungsteam von Alibaba einführt, zeichnet sich Ultralytics YOLO11 als die überlegene Wahl für die überwiegende Mehrheit der Entwickler und Unternehmen aus. Seine Dominanz wird nicht nur durch höhere mAP-Werte und schnellere Inferenz definiert, sondern durch das umfassende Ökosystem, das es unterstützt.

Von der Benutzerfreundlichkeit und Vielseitigkeit bis hin zu einer gut gepflegten Codebasis und aktiver Community-Unterstützung senkt YOLO11 die Einstiegshürde für die Entwicklung fortschrittlicher KI-Lösungen. Ob auf Cloud-Servern oder ressourcenbeschränkten Edge-Geräten eingesetzt, YOLO11 bietet die notwendige Zuverlässigkeit und Leistung für moderne Computer-Vision-Anwendungen.

Weitere Modellvergleiche entdecken

Um besser zu verstehen, wie Ultralytics-Modelle im Vergleich zu anderen Architekturen abschneiden, erkunden Sie unsere detaillierten Vergleichsseiten: