Zum Inhalt springen

YOLO vs. YOLOv8: Eine technische Vertiefung

Die Landschaft der Objekterkennung entwickelt sich ständig weiter, wobei Forscher und Ingenieure versuchen, die konkurrierenden Anforderungen an Geschwindigkeit, Genauigkeit und Recheneffizienz in Einklang zu bringen. Zwei prominente Architekturen, die in der Computer-Vision-Gemeinschaft große Wellen geschlagen haben, sind YOLO, entwickelt von der Alibaba Group, und YOLOv8entwickelt von Ultralytics.

In diesem technischen Vergleich werden die architektonischen Innovationen, Leistungskennzahlen und die praktische Nutzbarkeit beider Modelle untersucht. Während YOLO neue Forschungskonzepte wie die neuronale Architektursuche (NAS) einführt, konzentriert sich Ultralytics YOLOv8 auf die Bereitstellung eines robusten, benutzerfreundlichen Ökosystems, das den Arbeitsablauf vom Training bis zur Bereitstellung rationalisiert.

Performance-Analyse: Geschwindigkeit und Genauigkeit

Um zu verstehen, wie diese Modelle in realen Szenarien abschneiden, analysieren wir ihre Leistung mit dem COCO . Die folgenden Metriken zeigen die Kompromisse zwischen mittlerer durchschnittlicher PräzisionmAP), Inferenzgeschwindigkeit auf unterschiedlicher Hardware und Modellkomplexität.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Wichtige Erkenntnisse

Die Daten lassen je nach Einsatzziel deutliche Vorteile erkennen:

  • Spitzenleistung: Die YOLOv8n (Nano)-Modell ist der unangefochtene Spitzenreiter für ressourcenbeschränkte Umgebungen. Mit nur 3,2M Parametern und 8,7B FLOPs erreicht es die schnellsten Inferenzgeschwindigkeiten sowohl auf der CPU als auch auf der GPU. Dies macht es ideal für mobile Anwendungen oder IoT-Geräte, bei denen Speicher und Energie knapp sind.
  • Höchste Genauigkeit: Für Anwendungen, bei denen es auf Präzision ankommt, YOLOv8x erreicht die höchste mAP von 53,9 %. Während die YOLO gute Leistungen erbringen, verschiebt die größte YOLOv8 die Grenze der Erkennungsgenauigkeit weiter nach oben.
  • Kompromisse bei der Latenz: YOLO zeigt auf dedizierten GPUs (wie dem T4) einen beeindruckenden Durchsatz, der durch sein NAS-optimiertes Grundgerüst ermöglicht wird. Ultralytics YOLOv8 bietet jedoch ein besseres Gleichgewicht bei einer größeren Vielfalt an Hardware, einschließlich CPUs, und gewährleistet so eine größere Flexibilität bei der Bereitstellung.

YOLO: Forschungsgetriebene Innovation

YOLO ist ein Produkt der Forschungsinitiativen der Alibaba-Gruppe. Der Name steht für "Discovery (Entdeckung), Adventure (Abenteuer), Momentum (Schwung) und Outlook (Ausblick)" und spiegelt den Fokus auf die Erkundung neuer architektonischer Grenzen wider.

Authors: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO

Architektonische Highlights

YOLO integriert mehrere fortschrittliche Technologien, um den Kompromiss zwischen Latenz und Genauigkeit zu optimieren:

  1. MAE-NAS-Backbone: Es nutzt die neuronale Architektursuche (NAS), um automatisch effiziente Netzwerkstrukturen zu entdecken, und zwar unter Verwendung einer Methode namens MAE-NAS.
  2. RepGFPN-Ausschnitt: Ein stark parametrisiertes Generalized Feature Pyramid Network (GFPN) wird verwendet, um den Informationsfluss zwischen verschiedenen Skalenebenen zu maximieren und so die Erkennung von Objekten in unterschiedlichen Entfernungen zu verbessern.
  3. ZeroHead: Um den schweren Hals auszugleichen, verwendet das Modell einen leichten "ZeroHead", der den Rechenaufwand in der letzten Erkennungsphase reduziert.
  4. AlignedOTA: Eine dynamische Label-Zuweisungsstrategie, die die Klassifizierungs- und Regressionsaufgaben während des Trainings aneinander anpasst und so die Konvergenz des Modells verbessert.

Erfahren Sie mehr über DAMO-YOLO

Ultralytics YOLOv8: Der Ökosystem-Standard

YOLOv8 stellt eine Verfeinerung der YOLO dar, die sich auf Benutzerfreundlichkeit, Vielseitigkeit und modernste Leistung konzentriert. Im Gegensatz zu reinen Forschungsmodellen ist YOLOv8 als Produkt für Entwickler konzipiert, wobei der Schwerpunkt auf einem gut gewarteten Ökosystem und einer einfachen Integration liegt.

Die Autoren: Glenn Jocher, Ayush Chaurasia, und Jing Qiu
Organisation:Ultralytics
Datum: 2023-01-10
Docs:Ultralytics YOLOv8

Architektonische Stärken

  • Ankerfreie Erkennung: YOLOv8 eliminiert Ankerboxen, wodurch die Anzahl der Hyperparameter, die Entwickler abstimmen müssen, reduziert und der Trainingsprozess vereinfacht wird.
  • C2f-Modul: Die Architektur ersetzt das C3-Modul durch das C2f-Modul, das umfangreichere Informationen über den Gradientenfluss bietet und gleichzeitig einen geringen Platzbedarf hat.
  • Entkoppelter Kopf: Durch die Trennung von Klassifikations- und Regressionsaufgaben im Kopf erreicht das Modell eine höhere Lokalisierungsgenauigkeit.
  • Einheitliches Framework: Das vielleicht stärkste architektonische Merkmal ist die native Unterstützung für mehrere Bildverarbeitungsaufgaben -Instanzsegmentierung, Posenschätzung, Klassifizierung und orientierte Objekterkennung (OBB)- alles in einer einzigen Codebasis.

Wussten Sie das?

Ultralytics bietet einen nahtlosen Weg zum Export von Modellen in optimierte Formate wie ONNX, TensorRT, CoreMLund OpenVINO. Diese Exportfähigkeit gewährleistet, dass Ihre trainierten Modelle auf nahezu jeder Hardwareplattform effizient ausgeführt werden können.

Erfahren Sie mehr über YOLOv8

Benutzerfreundlichkeit und Erfahrung der Entwickler

Der größte Unterschied zwischen den beiden Modellen liegt in ihrer Benutzerfreundlichkeit und dem sie umgebenden Ökosystem.

Ultralytics YOLO Modelle sind berühmt für ihre "Zero-to-Hero"-Erfahrung. Mit einer einfachen PIP-Installation erhalten Entwickler Zugang zu einer leistungsstarken CLI und Python . Dies senkt die Einstiegshürde erheblich im Vergleich zu Forschungsrepositorien, die oft komplexe Umgebungseinstellungen erfordern.

Effizienz der Ausbildung

Ultralytics sind auf Trainingseffizienz ausgelegt. Sie nutzen den CUDA effizient und ermöglichen so größere Stapelgrößen oder Schulungen auf Consumer-GPUs. Darüber hinaus beschleunigt die Verfügbarkeit von hochwertigen , vorab trainierten Gewichten die Konvergenz und spart wertvolle Rechenzeit und Energie.

Hier ist ein vollständiges, lauffähiges Beispiel für das Laden und Vorhersagen mit einem YOLOv8 in nur drei Zeilen Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

Im Gegensatz dazu bietet YOLO zwar eine starke Leistung, erfordert aber im Allgemeinen eine stärkere manuelle Konfiguration und Vertrautheit mit forschungsorientierten Frameworks, was es für die schnelle Prototypenerstellung oder kommerzielle Integration weniger geeignet macht.

Schlussfolgerung: Die Wahl des richtigen Werkzeugs

Sowohl YOLO als auch YOLOv8 sind außergewöhnliche Leistungen auf dem Gebiet der Computer Vision.

YOLO ist eine ausgezeichnete Wahl für Forscher, die sich für die Suche in neuronalen Architekturen interessieren, und für diejenigen, die es speziell auf Hardware einsetzen wollen, für die das benutzerdefinierte Backbone vollständig optimiert ist.

Für die meisten Entwickler, Forscher und Unternehmen ist dies jedoch nicht der Fall, Ultralytics YOLOv8 (und das neuere YOLO11) ein überlegenes Wertangebot:

  1. Vielseitigkeit: Kann Erkennung, Segmentierung, Pose und OBB in einem einzigen System verarbeiten.
  2. Benutzerfreundlichkeit: Unübertroffene Dokumentation, einfache API und solide Unterstützung durch die Community.
  3. Einsatz: Die umfassende Unterstützung für Exportmodi reicht von Mobiltelefonen bis hin zu Cloud-Servern.
  4. Ausgewogene Leistung: Ausgezeichnetes Verhältnis zwischen Genauigkeit und Geschwindigkeit, insbesondere bei CPU und Edge-Geräten.

Für diejenigen, die immer auf dem neuesten Stand sein wollen, empfehlen wir auch einen Blick auf YOLO11das auf den Stärken von YOLOv8 aufbaut und noch mehr Effizienz und Genauigkeit bietet.

Weitere Modellvergleiche entdecken

Um Ihnen zu helfen, die beste Entscheidung für Ihre Bildverarbeitungsprojekte zu treffen, finden Sie hier weitere detaillierte Vergleiche:


Kommentare