DAMO-YOLO vs YOLOv10: Evolution der effizienten Echtzeit-Objekterkennung

Der Bereich der Computervision hat eine rasante Entwicklung bei den Architekturen zur Echtzeit-Objekterkennung erlebt. Beim Vergleich von YOLO und YOLOv10beobachten wir zwei unterschiedliche Philosophien im Modelldesign: automatisierte Architektursuche versus End-to-End-Optimierung NMS. Beide erweitern zwar die Grenzen von Genauigkeit und Geschwindigkeit, unterscheiden sich jedoch erheblich in ihren zugrunde liegenden Strukturen und idealen Anwendungsfällen.

YOLO: Neuronale Architektursuche in großem Maßstab

Entwickelt von der Alibaba Group, etablierte sich DAMO-YOLO als leistungsstarker Detektor, der sich auf die Nutzung automatisierter Entdeckung für strukturelle Effizienz konzentriert.

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Datum: 23. November 2022
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

Architektonische Highlights

DAMO-YOLO setzt stark auf Neural Architecture Search (NAS), um Leistung und Latenz auszubalancieren. Sein Backbone, genannt MAE-NAS, verwendet eine multiobjektive evolutionäre Suche unter strengen Rechenbudgets, um die optimale Schichttiefe und -breite zu finden.

Um die Merkmalsfusion über verschiedene Skalen hinweg zu bewältigen, verwendet das Modell ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network). Dieses Heavy-Neck-Design eignet sich besonders gut für die Extraktion komplexer räumlicher Hierarchien und ist daher in Szenarien wie der Analyse von Luftbildern nützlich. Darüber hinausYOLO den ZeroHeadYOLO , einen optimierten Erkennungskopf, der die Komplexität der endgültigen Vorhersageschichten erheblich reduziert und sich dabei auf einen robusten Destillationsverbesserungsprozess während des Trainings stützt.

Destillationstraining

DAMO-YOLO nutzt oft einen mehrstufigen Knowledge-Distillation-Prozess. Es erfordert das Training eines schwereren „Lehrer“-Modells, um das kleinere „Schüler“-Modell anzuleiten, das eine höhere mAP (mean Average Precision) erzielt, aber die benötigte GPU compute-Zeit erheblich verlängert.

Erfahren Sie mehr über DAMO-YOLO

YOLOv10: Wegweisende End-to-End-Objekterkennung

Eineinhalb Jahre später wurde YOLOv10 veröffentlicht, das einen Paradigmenwechsel YOLOv10 , indem es die Notwendigkeit der Non-Maximum Suppression (NMS) während der Inferenz vollständig eliminierte.

Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation:Tsinghua University
Datum: 23. Mai 2024
Arxiv:2405.14458
Dokumentation:Ultralytics YOLOv10

Architektonische Highlights

Das herausragende Merkmal von YOLOv10 seine konsistenten doppelten Zuweisungen für NMS Training. Herkömmliche Detektoren sagen mehrere überlappende Begrenzungsrahmen für ein einzelnes Objekt voraus, sodass NMS erforderlich ist NMS Duplikate NMS filtern. Dieser Nachbearbeitungsschritt verursacht einen Engpass, insbesondere auf Edge-Geräten. YOLOv10 dieses Problem, indem es dem Modell ermöglicht, auf natürliche Weise einen einzigen, genauen Begrenzungsrahmen pro Objekt vorherzusagen.

Die Autoren konzentrierten sich außerdem auf ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign. Durch sorgfältige Analyse der Rechenredundanz in bestehenden Architekturen optimierten sie das Backbone und den Kopf, um die Anzahl der FLOPs und Parameter zu reduzieren. Dieses leichtgewichtige Design sorgt YOLOv10 beim Export in Formate wie TensorRT oder OpenVINOexportiert wird.

Erfahren Sie mehr über YOLOv10

Performance und Benchmarks

Die folgende Tabelle zeigt die Rohleistungsmetriken für den COCO . Die besten Gesamtwerte in jeder Spalte sind fett hervorgehoben.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

WährendYOLO in puncto GenauigkeitYOLO , bietet YOLOv10 eine geringere Latenz und deutlich kleinere Modellgewichte. So erreicht YOLOv10s einen etwas höheren mAP 46,7 %) als DAMO-YOLOs (46,0 %), während es weniger als die Hälfte der Parameter verwendet (7,2 Mio. gegenüber 16,3 Mio.). Der geringere Speicherbedarf macht YOLOv10 zu YOLOv10 außergewöhnlich vielseitigen Wahl für eingebettete Systeme.

Trainingseffizienz und Benutzerfreundlichkeit

Beim Übergang von der akademischen Forschung zur Produktion ist Benutzerfreundlichkeit von größter Bedeutung. Der mehrstufige Destillationsprozess und die komplexen NAS-KonfigurationenYOLO können für Ingenieurteams eine steile Lernkurve bedeuten.

Im Gegensatz dazu profitiert YOLOv10 immens von der vollständigen Integration in das Ultralytics Python SDK. Das Training eines benutzerdefinierten Modells erfordert minimalen Boilerplate-Code. Ultralytics übernimmt Datenaugmentierung, Hyperparameter-Optimierung und Experiment-Tracking automatisch.

from ultralytics import YOLO

# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()

Schnelle Prototypenentwicklung

Durch die Nutzung des Ultralytics können Entwickler mit nur wenigen Zeilen Code von einem Prototyp zu einem vollständig exportierten ONNX übergehen und dabei die komplexen Umgebungseinstellungen umgehen, die bei älteren Frameworks erforderlich sind.

Anwendungsfälle in der Praxis

Smart Retail (DAMO-YOLO): Die Genauigkeit von DAMO-YOLO ist gut geeignet für Serverumgebungen mit hoher Dichte, die Kundenverhalten analysieren, wo GPUs reichlich vorhanden sind und NMS-Engpässe in Echtzeit beherrschbar sind.
Autonome Fahrzeuge (YOLOv10): Die NMS-freie Architektur garantiert eine deterministische, vorhersagbare Latenz, was für Sicherheitssysteme beim autonomen Fahren entscheidend ist.
Industrielle Automatisierung (YOLOv10): Das Erkennen von Defekten an schnelllebigen Montagelinien erfordert Modelle, die Echtzeit-Inferenzgeschwindigkeiten maximieren, ohne viel VRAM zu verbrauchen, was YOLOv10 zu einem idealen Kandidaten für Edge-Deployments macht.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen DAMO-YOLO und YOLOv10 hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann DAMO-YOLO wählen?

DAMO-YOLO ist eine gute Wahl für:

Hochdurchsatz-Videoanalyse: Verarbeitung von Hoch-FPS-Videoströmen auf fester NVIDIA-GPU-Infrastruktur, wo der Batch-1-Durchsatz die primäre Metrik ist.
Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenz-Beschränkungen auf dedizierter Hardware, wie z.B. Echtzeit-Qualitätsinspektion an Montagelinien.
Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten reparametrisierten Backbones auf die Detektionsleistung.

Wann man YOLOv10 wählen sollte

YOLOv10 empfohlen für:

NMS-freie Echtzeit-detect: Anwendungen, die von einer End-to-End-detect ohne Non-Maximum Suppression profitieren und die Bereitstellungskomplexität reduzieren.
Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und detect-Genauigkeit über verschiedene Modellskalen hinweg erfordern.
Anwendungen mit konsistenter Latenz: Bereitstellungsszenarien, in denen vorhersehbare Inferenzzeiten kritisch sind, wie z. B. Robotik oder autonome Systeme.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Die nächste Generation: Ultralytics

Während YOLOv10 den Grundstein für die NMS Erkennung YOLOv10 , hat sich die Technologie rasant weiterentwickelt. Für moderne Anwendungen bietet das Ultralytics eine beispiellose Leistung und Benutzerfreundlichkeit, indem es das Beste aus früheren Generationen übernimmt und für die Produktion weiterentwickelt.

YOLO26 verfügt über ein streng natives End-to-End-Design, wodurch NMS entfällt und die Bereitstellungspipelines auf Edge-Geräten vereinfacht werden. Darüber hinaus hat die Entfernung des Distribution Focal Loss (DFL) die Kompatibilität mit energiesparender Edge-AI-Hardware erheblich verbessert.

Auf der Trainingsseite führt YOLO26 den MuSGD-Optimierer ein, einen Hybrid, der von den Trainingstechniken des Large Language Model (LLM) inspiriert ist. Dies sorgt für ein stabileres Training und eine schnellere Konvergenz. In Verbindung mit den Verlustfunktionen ProgLoss + STAL zeigt YOLO26 bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, einer wichtigen Funktion für den Naturschutz und den Drohnenbetrieb.

Entscheidend ist, dass YOLO26 nicht nur ein Objektdetektor ist. Es bietet durchweg aufgabenspezifische Verbesserungen und unterstützt nativ Instanzsegmentierung, Pose-Schätzung mittels Residual Log-Likelihood Estimation (RLE) sowie spezialisierte Winkelverluste für Oriented Bounding Boxes (OBB). Mit einer bis zu 43 % schnelleren CPU-Inferenz als seine Vorgänger ist es die definitive Wahl für agile Engineering-Teams.

Für die zentralisierte Verwaltung, Annotation und Cloud-Schulung von YOLO26-Modellen bietet die Ultralytics eine intuitive Benutzeroberfläche, die den gesamten Lebenszyklus der Computer Vision optimiert.

Entwickler, die an der Erforschung weiterer jüngster Fortschritte interessiert sind, können auch Ultralytics YOLO11 oder das transformatorbasierte RT-DETR-Framework für Szenarien evaluieren, die unterschiedliche architektonische Lösungen erfordern.

DAMO-YOLO vs YOLOv10: Evolution der effizienten Echtzeit-Objekterkennung

YOLO: Neuronale Architektursuche in großem Maßstab

Architektonische Highlights

YOLOv10: Wegweisende End-to-End-Objekterkennung

Architektonische Highlights

Performance und Benchmarks

Trainingseffizienz und Benutzerfreundlichkeit

Anwendungsfälle in der Praxis

Anwendungsfälle und Empfehlungen

Wann DAMO-YOLO wählen?

Wann man YOLOv10 wählen sollte

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Die nächste Generation: Ultralytics

Kommentare