Zum Inhalt springen

YOLOv8 .YOLO: Ein umfassender technischer Vergleich von Objekterkennungsmodellen

Die Landschaft der Computervision entwickelt sich ständig weiter, wobei neue Architekturen die Grenzen des Möglichen auf Edge-Geräten und massiven Cloud-Clustern erweitern. In dieser technischen Vertiefung vergleichen wir zwei bekannte Modelle zur Echtzeit-Objekterkennung: YOLOv8 und YOLO. Durch die Untersuchung ihrer Architekturen, Leistungskennzahlen und Trainingsmethoden können ML-Ingenieure fundierte Entscheidungen für ihre Bereitstellungspipelines treffen.

Hintergründe und Ursprünge der Modelle

Beide Modelle wurden etwa zur gleichen Zeit eingeführt, basieren jedoch auf unterschiedlichen Designphilosophien und Forschungszielen.

YOLOv8 Details

Erfahren Sie mehr über YOLOv8

YOLO

  • Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
  • Organisation: Alibaba Group
  • Datum: 23.11.2022
  • Arxiv: YOLO
  • GitHub: YOLO

Erfahren Sie mehr über DAMO-YOLO

Architektonische Innovationen

YOLOv8: Vielseitiges Design ohne Verankerung

Ultralytics YOLOv8 hat gegenüber seinen Vorgängern erhebliche Verbesserungen eingeführt und damit seinen Status als äußerst zuverlässiges, hochmodernes Modell gefestigt. Es verfügt über einen ankerfreien Erkennungskopf, der die Anzahl der Box-Vorhersagen reduziert und die Inferenz beschleunigt. Die Architektur nutzt einen entkoppelten Kopf, der Objekt-, Klassifizierungs- und Regressionsaufgaben voneinander trennt, was zu genaueren Bounding-Box-Vorhersagen führt.

Darüber hinaus YOLOv8 neben CIoU auch den Distribution Focal Loss (DFL), wodurch die Fähigkeit des Modells verbessert wird, Objektgrenzen präzise zu lokalisieren, insbesondere bei kleineren oder verdeckten Zielen. Sein optimiertes Backbone ist sowohl für GPU für CPU hochgradig optimiert.

YOLO einen anderen Ansatz und stützt sich stark auf Neural Architecture Search (NAS), um sein Backbone automatisch zu entwerfen. Das Alibaba-Team führte „MAE-NAS“ ein, um Strukturen zu finden, die speziell unter TensorRT Beschleunigung.

Das Modell umfasst ein RepGFPN (Reparameterized Generalized Feature Pyramid Network) für eine effiziente Merkmalsfusion und ein „ZeroHead“-Design, um die Rechenlast des Erkennungskopfes zu minimieren. Während des Trainings nutzt es AlignedOTA für die Zuweisung von Labels und stützt sich stark auf einen komplexen Wissensdestillationsprozess, der ein größeres Lehrer-Modell erfordert, um das Ziel-Schüler-Modell zu überwachen.

Komplexität der Ausbildung

WährendYOLO über NAS und Destillation beeindruckende LatenzwerteYOLO , erfordert dies im Vergleich zur hochoptimierten, einstufigen Trainingspipeline von YOLOv8 deutlich mehr CUDA und Rechenzeit während des Trainings.

Leistung und Kennzahlen

Bei der Bereitstellung von Computer-Vision-Modellen in der Produktion ist es entscheidend, ein Gleichgewicht zwischen Genauigkeit (mAP) und Inferenzgeschwindigkeit zu finden. Die folgende Tabelle veranschaulicht die Leistung beider Modelle in verschiedenen Größen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv8 eine außergewöhnliche Leistungsbalance YOLOv8 . Die YOLOv8n Das (Nano-)Modell benötigt nur 3,2 Millionen Parameter im Vergleich zu den 8,5 Millionen von DAMO-YOLOt, wodurch es für mobile Geräte oder Umgebungen mit strengen Speicheranforderungen deutlich überlegen ist. Darüber hinaus YOLOv8 eine größere Auswahl an Größen, die bis zu einer hohen Genauigkeit skaliert werden können. YOLOv8x für Cloud-basierte Workloads.

Entwicklererfahrung und Ökosystem

Benutzerfreundlichkeit und Trainingseffizienz

Einer der größten Unterscheidungsfaktoren ist die Benutzererfahrung. Das Ultralytics ist auf Entwicklergeschwindigkeit ausgelegt. Das Trainieren eines benutzerdefinierten YOLOv8 erfordert nur sehr wenig Speicherplatz und kann über eine einheitliche Python oder eine Befehlszeilenschnittstelle ausgeführt werden.

Umgekehrt erfordert die Reproduktion des durch Destillation verbesserten Trainings vonYOLO die Navigation durch komplexe Konfigurationsdateien und die Handhabung mehrstufiger Lehrer-Schüler-Experimentverfolgung.

Hier ist ein Beispiel dafür, wie einfach es ist, YOLOv8 Python zu trainieren, zu validieren und zu exportieren:

from ultralytics import YOLO

# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")

# Export the trained model to ONNX format
path = model.export(format="onnx")

Vielseitigkeit bei Sehaufgaben

YOLO ausschließlich für die Erkennung von Objekten mit Begrenzungsrahmen entwickelt. Im Gegensatz dazu unterstützt die YOLOv8 von Haus aus mehrere Aufgaben. Durch einfaches Austauschen der Modellgewichte können Entwickler Instanzsegmentierung, Bildklassifizierung und Posenschätzung durchführen, ohne ihre zugrunde liegende Codebasis ändern zu müssen. Diese Vielseitigkeit macht Ultralytics für komplexe Anwendungen wesentlich praktischer.

Anwendungsfälle in der Praxis

Wann man YOLOv8 verwenden sollte

Die Kombination aus Geschwindigkeit, Genauigkeit und einfacher Bereitstellung macht YOLOYOLOv8 ideal für:

  • Intelligente Einzelhandelsanalysen: Durchführung von Objektverfolgung zur Überwachung des Kundenverhaltens oder zur Automatisierung von Bestandsprüfungen.
  • Landwirtschaftliche Robotik: Nutzung ihrer starken Leistung auf unterschiedlicher Hardware, um Pflanzen oder Schädlinge in Echtzeit zu identifizieren.
  • Gesundheitsdiagnostik: Verwendung von Instanzsegmentierung zur schnellen und genauen Darstellung von Anomalien in medizinischen Bildern.
  • Edge-Bereitstellungen: Die nahtlose Integration mit Exportformaten wie OpenVINO und CoreML ermöglicht es YOLOv8 , auch auf leistungsschwachen Geräten YOLOv8 glänzen.

Wann sollteYOLO verwendet werden?

YOLO in bestimmten Nischenszenarien von Vorteil sein, insbesondere:

  • Akademische NAS-Forschung: Für Teams, die sich mit Rep-Parametrisierung oder automatisierten Architekturdesign-Methoden befassen.
  • Streng GPU Pipelines: Anwendungen, die ausschließlich auf bestimmter NVIDIA laufen, wobei die NAS-Strukturen stark für die TensorRT optimiert wurden.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv8 YOLO von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und ÖkosystempräferenzenYOLO .

Wann man YOLOv8 wählen sollte

YOLOv8 eine gute Wahl für:

  • Vielseitiger Multi-Task-Einsatz: Projekte, die ein bewährtes Modell für Erkennung, Segmentierung, Klassifizierung und Posenschätzung innerhalb des Ultralytics erfordern.
  • Etablierte Produktionssysteme: Bestehende Produktionsumgebungen, die bereits auf der YOLOv8 basieren und über stabile, gut getestete Bereitstellungspipelines verfügen.
  • Umfassende Community- und Ökosystem-Unterstützung: Anwendungen, die von den umfangreichen Tutorials, Integrationen von Drittanbietern und aktiven Community-Ressourcen YOLOv8 profitieren.

Wann DAMO-YOLO wählen?

YOLO empfohlen für:

  • Hochdurchsatz-Videoanalyse: Verarbeitung von Videostreams mit hoher Bildfrequenz aufGPU festenGPU , wobei der Durchsatz von Batch 1 die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU auf dedizierter Hardware, wie z. B. Echtzeit-Qualitätskontrollen an Fertigungslinien.
  • Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen der automatisierten Architektursuche (MAE-NAS) und effizienter reparametrisierter Backbones auf die Erkennungsleistung.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Ausblick: Neuere Ultralytics

Während YOLOv8 ein äußerst zuverlässiges Arbeitstier YOLOv8 , entwickelt sich der Bereich der Bildverarbeitung rasant weiter. Anwender sollten daher auch die neueren Generationen in Betracht ziehen:

YOLO26: Die neueste Generation, Ultralytics , steht für einen Paradigmenwechsel. Sie führt ein natives End-to-End NMS ein, das die mit der Nachbearbeitung durch Non-Maximum Suppression verbundenen Latenzengpässe vollständig beseitigt. Angetrieben durch den neuen MuSGD-Optimierer (eine Mischung aus SGD Muon) und spezielle ProgLoss + STAL-Verlust funktionen erzielt YOLO26 ein bemerkenswert stabiles Training und eine deutlich verbesserte Erkennung kleiner Objekte. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) sorgen architektonische Optimierungen für CPU bis zu 43 % schnellere CPU im Vergleich zu früheren Generationen, was es zur ersten Wahl für modernes Edge-Computing macht.

YOLO11: Eine weitere hervorragende Alternative, Ultralytics YOLO11 bietet gegenüber YOLOv8 inkrementelle architektonische Verbesserungen YOLOv8 ist nach wie vor ein robustes, in der Community stark verbreitetes Modell.

Optimieren Sie Ihren Arbeitsablauf

Sind Sie bereit, Ihre Modelle vom Prototyp zur Produktion zu bringen? Nutzen Sie die Ultralytics , um Datensätze automatisch zu annotieren, track und Modelle nahtlos in der Cloud oder auf Edge-Geräten bereitzustellen.

Zusammenfassend lässt sich sagen, dassYOLO zwar interessante akademische Einblicke in die ArchitektursucheYOLO , Ultralytics jedoch ein deutlich ausgereifteres, vielseitigeres und entwicklerfreundlicheres Ökosystem bieten. Ganz gleich, YOLOv8 Sie sich für die bewährte Stabilität von YOLOv8 entscheiden YOLOv8 auf die blitzschnelle, NMS Architektur von YOLO26 umsteigen – die Ultralytics bleibt die erste Wahl für Echtzeit-Vision-KI.


Kommentare