DAMO-YOLO vs YOLOv7: Evaluierung von Echtzeit-Objektdetektoren

Die rasante Entwicklung der Computervision hat zu hocheffizienten Objekterkennungsmodellen geführt, die auf ein ausgewogenes Verhältnis zwischen Präzision und Rechenaufwand ausgelegt sind. Zwei bemerkenswerte Modelle, die 2022 eingeführt wurden, sind YOLO und YOLOv7. Beide zielen darauf ab, die Grenzen von Echtzeit-Vision-Aufgaben zu erweitern, erzielen ihre Ergebnisse jedoch durch sehr unterschiedliche Architekturparadigmen und Trainingsmethoden.

Dieser umfassende technische Vergleich untersucht die unterschiedlichen Ansätze beider Modelle und beleuchtet deren Architekturen, Einsatzmöglichkeiten und Leistungskennzahlen, um Machine-Learning-Ingenieuren dabei zu helfen, das richtige Tool für ihre spezifischen Computer-Vision-Anwendungen auszuwählen.

Modellursprünge und Metadaten

Bevor man sich mit der tiefgehenden technischen Analyse befasst, ist es unerlässlich, die Ursprünge dieser beiden Computer-Vision-Modelle zu kontextualisieren.

DAMO-YOLO

Entwickelt von Forschern der Alibaba Group, wurde DAMO-YOLO eingeführt, um sowohl Geschwindigkeit als auch Genauigkeit durch automatisierte Architektursuche und Destillation zu optimieren.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation:Alibaba Group
Datum: 23. November 2022
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

Erfahren Sie mehr über DAMO-YOLO

YOLOv7

YOLOv7 wurde Mitte 2022 als neueste Technologie auf den Markt gebracht und YOLOv7 die Echtzeit-Inferenz durch die Einführung trainierbarer „Bag-of-Freebies” weiter YOLOv7 , ohne die Bereitstellungskosten zu erhöhen.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 6. Juli 2022
Arxiv:2207.02696
Dokumentation:YOLOv7 Dokumentation

Erfahren Sie mehr über YOLOv7

Unterstütztes Ökosystem

YOLOv7 offiziell im Ultralytics unterstützt und ermöglicht nahtloses Training, Validierung und Export mit einer einheitlichen API.

Architektonische Innovationen

YOLO: NAS und Destillation

DAMO-YOLO integriert mehrere hochmoderne Techniken, die auf maximale Effizienz ausgerichtet sind:

NAS Backbones: Nutzt Neural Architecture Search (NAS), um automatisch optimale Backbones (MAE-NAS) zu entwerfen, die auf latenzkritische Umgebungen zugeschnitten sind.
Effizientes RepGFPN: Ein modifiziertes Generalized Feature Pyramid Network, das die Effizienz der Merkmalsfusion über mehrere Skalen hinweg erheblich verbessert.
ZeroHead & AlignedOTA: Integriert einen leichtgewichtigen Detektionskopf und eine optimierte Label-Zuweisungsstrategie (AlignedOTA), um den Rechenaufwand zu reduzieren.
Destillationsverbesserung: Nutzt während des Trainings stark die Wissensdestillation, um die Leistung kleinerer Modellvarianten zu steigern, ohne deren Parameteranzahl zu erhöhen.

YOLOv7: E-ELAN und Bag-of-Freebies

YOLOv7 einen eher strukturellen Ansatz und konzentrierte sich auf die Optimierung des Gradientenpfads und robuste Trainingsstrategien.

E-ELAN-Architektur: Das Extended Efficient Layer Aggregation Network ermöglicht es dem Modell, vielfältigere Merkmale zu lernen, indem es die kürzesten und längsten Gradientenpfade steuert und so eine effektive Lernkonvergenz gewährleistet.
Modellskalierung: Führt eine zusammengesetzte Skalierungsmethode ein, die auf Verkettungs-basierte Modelle zugeschnitten ist und Tiefe und Breite gleichzeitig für eine strukturelle Ausrichtung skaliert.
Trainierbare Bag-of-Freebies: Es werden Techniken wie re-parametrisierte Faltungen (RepConv) ohne Identitätsverbindungen und dynamische Label-Zuweisungsstrategien eingesetzt, die die Genauigkeit während des Trainings steigern, ohne die Inferenzgeschwindigkeit zu beeinträchtigen.

Leistungsanalyse

Bei der Bewertung der mittleren durchschnittlichen Genauigkeit (mAP), Geschwindigkeit und Effizienz weisen beide Modelle beeindruckende Kennzahlen auf, obwohl sie auf leicht unterschiedliche Segmente abzielen. YOLOv7 stark auf GPU mit hoher Genauigkeit, während die von NAS abgeleiteten StrukturenYOLO auf einen aggressiven Einsatz CPU Edge-Computing mit geringer Latenz abzielen.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Wie in den Metriken ersichtlich, während DAMO-YOLO extrem leichtgewichtige Varianten bietet (wie das Tiny-Modell mit nur 8,5 Mio. Parametern), erreicht YOLOv7 eine höhere Gesamtgenauigkeitsspitze, wobei YOLOv7x einen beeindruckenden mAP von 53,1 auf dem COCO-Datensatz erzielt.

Der Vorteil des Ultralytics-Ökosystems

Die theoretische Architektur ist zwar wichtig, doch die Praktikabilität eines Modells hängt von seinem Ökosystem ab. Von Ultralytics unterstützte Modelle wie YOLOv7 profitieren von einem gut gepflegten Ökosystem und einer unvergleichlichen Benutzerfreundlichkeit.

Leistungsbalance: Ultralytics-Modelle erzielen stets einen optimalen Kompromiss zwischen Inferenzgeschwindigkeit und detect-Genauigkeit, was sie ideal für Edge-Geräte und cloudbasierte Modellbereitstellung macht.
Speicherbedarf: Im Gegensatz zu speicherintensiveren Transformer-basierten Modellen behalten Ultralytics YOLO-Modelle geringe CUDA-Speicheranforderungen während des Trainings bei. Dies ermöglicht größere Batch-Größen und optimiert den Trainingsprozess selbst auf Consumer-Hardware.
Vielseitigkeit: Das Ultralytics-Framework geht über die Objekterkennung hinaus und umfasst Aufgaben wie die Instanzsegmentierung und Posenschätzung, was Entwicklern ein vollständiges Computer-Vision-Toolkit bietet.

Trainingseffizienz

Ultralytics können Sie in nur wenigen Minuten nahtlos von Datensätzen zu einem vollständig trainierten Modell übergehen, indem Sie hochoptimierte Datenlader und vortrainierte Gewichte nutzen.

Codebeispiel: Training von YOLOv7 mit Ultralytics

Die Integration von YOLOv7 Ihre Computer-Vision-Pipeline ist mit der Ultralytics Python unglaublich einfach.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Der neue Standard: Vorstellung von YOLO26

Während YOLOv7 YOLO im Jahr 2022 bedeutende DurchbrücheYOLO , entwickelt sich der Bereich der Bildverarbeitungs-KI rasant weiter. Für Teams, die heute neue Projekte starten, ist das empfohlene Modell das hochmoderne Ultralytics , das im Januar 2026 veröffentlicht wurde.

YOLO26 sorgt für einen Generationssprung in Sachen Leistung und Benutzerfreundlichkeit und verfügt über modernste Innovationen:

End-to-End NMS-freies Design: YOLO26 ist nativ End-to-End. Durch die Eliminierung der Non-Maximum Suppression (NMS)-Nachbearbeitung bietet es eine schnellere, einfachere Bereitstellungslogik—ein Paradigmenwechsel, der ursprünglich von YOLOv10 initiiert wurde.
MuSGD-Optimierer: Inspiriert von Innovationen bei großen Sprachmodellen wie Kimi K2 von Moonshot AI, nutzt YOLO26 einen Hybrid aus SGD und Muon. Dieser Optimierer gewährleistet hochstabile Trainingsdynamiken und dramatisch schnellere Konvergenzraten.
Bis zu 43 % schnellere CPU-Inferenz: Durch die gezielte Entfernung des Distribution Focal Loss (DFL) und tiefgreifende strukturelle Verbesserungen ist YOLO26 stark für stromsparendes Edge-Computing optimiert und übertrifft frühere Generationen auf Nicht-GPU-Hardware.
ProgLoss + STAL: Integriert fortschrittliche neue Verlustfunktionen, die explizit auf die Kleinstobjekterkennung abzielen und diese verbessern – eine wesentliche Fähigkeit für Anwendungen in der Luftbildfotografie, Robotik und Sicherheitsüberwachung.
Task-Specific Improvements: Über die Standard-detect hinaus bietet YOLO26 maßgeschneiderte Verbesserungen für verschiedene Aufgaben, einschließlich Multi-Scale-Prototyping für segment, RLE für die Posenschätzung und spezifische Winkelfunktionen für Oriented Bounding Boxes (OBB).

Erfahren Sie mehr über YOLO26

Ideale Anwendungsfälle

Die Wahl der richtigen Architektur hängt vollständig von Ihrer Zielbereitstellungsumgebung und den Projektbeschränkungen ab.

Wann sollte man sich fürYOLO entscheiden?

Sie arbeiten in stark eingeschränkten, ressourcenbegrenzten Edge-Umgebungen, in denen die Anzahl der Rohparameter extrem gering gehalten werden muss (z. B. Mikrocontroller).
Sie nutzen automatisierte Machine-Learning-Pipelines, die speziell in die proprietären Cloud-Dienste von Alibaba integriert sind.

Wann sollte man sich für YOLOv7 entscheiden?

Sie verfügen bereits über ältere GPU , die für ankerbasierte, hochpräzise Inferenz optimiert sind.
Sie arbeiten in Umgebungen, in denen Echtzeitgenauigkeit von größter Bedeutung ist, wie beispielsweise bei autonomen Hochgeschwindigkeitsfahrzeugen oder fortschrittlicher Robotik.

Wann sollte man sich für YOLO26 entscheiden (empfohlen):

Sie entwickeln eine neue Computer-Vision-Anwendung von Grund auf neu und benötigen dabei sowohl hinsichtlich der Präzision als auch CPU den absoluten Stand der Technik.
Sie benötigen eine schnelle, nahtlose Bereitstellung (z. B. Export nach CoreML oder TensorRT) ohne sich mit den Einschränkungen NMS auseinandersetzen zu müssen.
Sie möchten die gesamten Funktionen der Ultralytics für Cloud-Schulungen, Datenverwaltung und automatisierte Bereitstellung nutzen.

Durch die Nutzung des robusten Ökosystems von Ultralytics-Modellen können Entwickler die Entwicklungszeit drastisch reduzieren und gleichzeitig eine erstklassige Vorhersageleistung für ihre realen Anwendungen sichern.