YOLOv8 .YOLO: Ein umfassender technischer Vergleich von Objekterkennungsmodellen

Die Landschaft der Computervision entwickelt sich ständig weiter, wobei neue Architekturen die Grenzen des Möglichen auf Edge-Geräten und massiven Cloud-Clustern erweitern. In dieser technischen Vertiefung vergleichen wir zwei bekannte Modelle zur Echtzeit-Objekterkennung: YOLOv8 und YOLO. Durch die Untersuchung ihrer Architekturen, Leistungskennzahlen und Trainingsmethoden können ML-Ingenieure fundierte Entscheidungen für ihre Bereitstellungspipelines treffen.

Hintergründe und Ursprünge der Modelle

Beide Modelle wurden etwa zur gleichen Zeit eingeführt, stammen aber aus unterschiedlichen Designphilosophien und Forschungszielen.

YOLOv8 Details

Autoren: Glenn Jocher, Ayush Chaurasia und Jing Qiu
Organisation: Ultralytics
Datum: 10.01.2023
GitHub: Ultralytics
Dokumentation: YOLOv8 Offizielle Dokumentation

Erfahren Sie mehr über YOLOv8

DAMO-YOLO Details

Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
Organisation: Alibaba Group
Datum: 23.11.2022
Arxiv: DAMO-YOLO Forschungsarbeit
GitHub: YOLO

Erfahren Sie mehr über DAMO-YOLO

Architektonische Innovationen

YOLOv8: Vielseitiges Design ohne Verankerung

Ultralytics YOLOv8 führte signifikante Verbesserungen gegenüber seinen Vorgängern ein und festigte seinen Status als hochzuverlässiges, hochmodernes Modell. Es verfügt über einen ankerfreien Detektionskopf, der die Anzahl der Box-Vorhersagen reduziert und die Inferenz beschleunigt. Die Architektur verwendet einen entkoppelten Kopf, der Objektivität, Klassifizierung und Regressionsaufgaben trennt, was zu genaueren Bounding-Box-Vorhersagen führt.

Darüber hinaus YOLOv8 neben CIoU auch den Distribution Focal Loss (DFL), wodurch die Fähigkeit des Modells verbessert wird, Objektgrenzen präzise zu lokalisieren, insbesondere bei kleineren oder verdeckten Zielen. Sein optimiertes Backbone ist sowohl für GPU für CPU hochgradig optimiert.

DAMO-YOLO: Angetrieben durch Architektursuche

DAMO-YOLO verfolgt einen anderen Ansatz und setzt stark auf Neural Architecture Search (NAS), um sein Backbone automatisch zu entwerfen. Das Alibaba-Team führte „MAE-NAS“ ein, um Strukturen zu finden, die optimale Kompromisse zwischen Latenz und Genauigkeit bieten, insbesondere unter TensorRT-Beschleunigung.

Das Modell umfasst ein RepGFPN (Reparameterized Generalized Feature Pyramid Network) für eine effiziente Merkmalsfusion und ein „ZeroHead“-Design, um die Rechenlast des Erkennungskopfes zu minimieren. Während des Trainings nutzt es AlignedOTA für die Zuweisung von Labels und stützt sich stark auf einen komplexen Wissensdestillationsprozess, der ein größeres Lehrer-Modell erfordert, um das Ziel-Schüler-Modell zu überwachen.

Komplexität der Ausbildung

WährendYOLO über NAS und Destillation beeindruckende LatenzwerteYOLO , erfordert dies im Vergleich zur hochoptimierten, einstufigen Trainingspipeline von YOLOv8 deutlich mehr CUDA und Rechenzeit während des Trainings.

Leistung und Kennzahlen

Bei der Bereitstellung von Computer-Vision-Modellen in der Produktion ist es entscheidend, ein Gleichgewicht zwischen Genauigkeit (mAP) und Inferenzgeschwindigkeit zu finden. Die folgende Tabelle veranschaulicht die Leistung beider Modelle in verschiedenen Größen.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv8 eine außergewöhnliche Leistungsbalance YOLOv8 . Die YOLOv8n (Nano)-Modell benötigt nur 3,2 Millionen Parameter im Vergleich zu DAMO-YOLOt's 8,5 Millionen, was es für mobile Geräte oder Umgebungen mit strengen Speicheranforderungen erheblich überlegen macht. Darüber hinaus bietet YOLOv8 eine breitere Palette von Größen, die bis zum hochpräzisen YOLOv8x für Cloud-basierte Workloads.

Entwicklererfahrung und Ökosystem

Benutzerfreundlichkeit und Trainingseffizienz

Einer der größten Unterscheidungsfaktoren ist die Benutzererfahrung. Das Ultralytics ist auf Entwicklergeschwindigkeit ausgelegt. Das Trainieren eines benutzerdefinierten YOLOv8 erfordert nur sehr wenig Speicherplatz und kann über eine einheitliche Python oder eine Befehlszeilenschnittstelle ausgeführt werden.

Andererseits erfordert die Reproduktion des durch Destillation verbesserten Trainings von DAMO-YOLO oft das Navigieren durch komplexe Konfigurationsdateien und die Handhabung von mehrstufigem Lehrer-Schüler-Experiment-Tracking.

Hier ist ein Beispiel dafür, wie einfach es ist, YOLOv8 Python zu trainieren, zu validieren und zu exportieren:

from ultralytics import YOLO

# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")

# Export the trained model to ONNX format
path = model.export(format="onnx")

Vielseitigkeit bei Sehaufgaben

DAMO-YOLO ist strikt für die Bounding-Box object detection konzipiert. Im Gegensatz dazu unterstützt die YOLOv8-Architektur nativ mehrere Aufgaben. Durch einfaches Austauschen der Modellgewichte können Entwickler Instance Segmentation, Image Classification und Pose Estimation durchführen, ohne ihre zugrunde liegende Deployment-Codebasis ändern zu müssen. Diese Vielseitigkeit macht Ultralytics-Modelle für komplexe Anwendungen wesentlich praktischer.

Anwendungsfälle in der Praxis

Wann man YOLOv8 verwenden sollte

Die Kombination aus Geschwindigkeit, Genauigkeit und einfacher Bereitstellung macht YOLOYOLOv8 ideal für:

Smart Retail Analysen: Durchführung von Objekt-track zur Überwachung des Kundenverhaltens oder zur Automatisierung von Inventurprüfungen.
Agrarrobotik: Durch die Nutzung seiner starken Leistung auf unterschiedlicher Hardware können Pflanzen oder Schädlinge in Echtzeit identifiziert werden.
Gesundheitsdiagnostik: Einsatz von Instanzsegmentierung, um Anomalien in medizinischen Bildern schnell und präzise abzubilden.
Edge-Implementierungen: Die nahtlose Integration mit Exportformaten wie OpenVINO und CoreML lässt YOLOv8 auf ressourcenbeschränkten Geräten glänzen.

Wann sollteYOLO verwendet werden?

DAMO-YOLO kann in Nischenszenarien von Vorteil sein, insbesondere:

Akademische NAS-Forschung: Für Teams, die Rep-Parametrisierung oder automatisierte Architekturentwurfsmethodologien untersuchen.
Streng GPU-gebundene Pipelines: Anwendungen, die ausschließlich auf spezifischer NVIDIA-Hardware laufen, bei denen die NAS-Strukturen stark für TensorRT-Ausführungslimits optimiert wurden.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv8 und DAMO-YOLO hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv8 wählen sollte

YOLOv8 eine gute Wahl für:

Vielseitige Multi-Task-Bereitstellung: Projekte, die ein bewährtes Modell für detection, segmentation, classification und pose estimation innerhalb des Ultralytics-Ökosystems erfordern.
Etablierte Produktionssysteme: Bestehende Produktionsumgebungen, die bereits auf der YOLOv8-Architektur basieren und über stabile, gut getestete Bereitstellungspipelines verfügen.
Breite Community- und Ökosystem-Unterstützung: Anwendungen, die von den umfangreichen Tutorials, Integrationen von Drittanbietern und aktiven Community-Ressourcen von YOLOv8 profitieren.

Wann DAMO-YOLO wählen?

DAMO-YOLO wird empfohlen für:

Hochdurchsatz-Videoanalyse: Verarbeitung von Hoch-FPS-Videoströmen auf fester NVIDIA-GPU-Infrastruktur, wo der Batch-1-Durchsatz die primäre Metrik ist.
Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenz-Beschränkungen auf dedizierter Hardware, wie z.B. Echtzeit-Qualitätsinspektion an Montagelinien.
Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten reparametrisierten Backbones auf die Detektionsleistung.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Ausblick: Neuere Ultralytics

Während YOLOv8 ein äußerst zuverlässiges Arbeitstier YOLOv8 , entwickelt sich der Bereich der Bildverarbeitung rasant weiter. Anwender sollten daher auch die neueren Generationen in Betracht ziehen:

YOLO26: Die neueste Generation, Ultralytics YOLO26, stellt einen Paradigmenwechsel dar. Es führt ein nativ End-to-End NMS-Free Design ein, das die Latenzengpässe, die mit der Non-Maximum Suppression Nachbearbeitung verbunden sind, vollständig eliminiert. Angetrieben durch den neuen MuSGD Optimizer (ein Hybrid aus SGD und Muon) und spezialisierte ProgLoss + STAL Verlustfunktionen, erreicht YOLO26 ein bemerkenswert stabiles Training und eine deutlich verbesserte Kleinstobjekterkennung. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) bieten architektonische Anpassungen eine bis zu 43% schnellere CPU Inference im Vergleich zu früheren Generationen, was es zur definitiven Wahl für modernes Edge Computing macht.

YOLO11: Eine weitere hervorragende Alternative, Ultralytics YOLO11 bietet inkrementelle architektonische Verfeinerungen gegenüber YOLOv8 und bleibt ein robustes, stark angenommenes Modell in der Community.

Optimieren Sie Ihren Arbeitsablauf

Sind Sie bereit, Ihre Modelle vom Prototyp zur Produktion zu bringen? Nutzen Sie die Ultralytics , um Datensätze automatisch zu annotieren, track und Modelle nahtlos in der Cloud oder auf Edge-Geräten bereitzustellen.

Zusammenfassend lässt sich sagen, dassYOLO zwar interessante akademische Einblicke in die ArchitektursucheYOLO , Ultralytics jedoch ein deutlich ausgereifteres, vielseitigeres und entwicklerfreundlicheres Ökosystem bieten. Ganz gleich, YOLOv8 Sie sich für die bewährte Stabilität von YOLOv8 entscheiden YOLOv8 auf die blitzschnelle, NMS Architektur von YOLO26 umsteigen – die Ultralytics bleibt die erste Wahl für Echtzeit-Vision-KI.