YOLOv10 vs. YOLOv5: Architektur und Leistung im Detail

In der sich schnell entwickelnden Landschaft der Computer Vision ist die Wahl des richtigen Objekterkennungsmodells entscheidend für den Projekterfolg. Dieser Vergleich erforscht die technischen Unterschiede zwischen YOLOv10einer neuen akademischen Version, die sich auf NMS Training konzentriert, und YOLOv5, dem legendären Modell von Ultralytics , das für seine Robustheit und seine branchenweite Verbreitung bekannt ist. Obwohl beide Modelle aus der You Only Look Once-Linie stammen, sind sie auf unterschiedliche technische Prioritäten und Einsatzumgebungen ausgerichtet.

Modellübersichten

YOLOv10: Der Effizienzspezialist

Im Mai 2024 von Forschern der Tsinghua University veröffentlicht, führt YOLOv10 architektonische Mechanismen ein, die darauf abzielen, die Notwendigkeit von Non-Maximum Suppression (NMS) während der Inferenz zu eliminieren. Durch die Verwendung konsistenter dualer Zuweisungen während des Trainings zielt YOLOv10 darauf ab, die End-to-End-Latenz zu reduzieren, was es zu einem starken Kandidaten für Edge-Anwendungen macht, bei denen jede Millisekunde Inferenzlatenz zählt.

Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation: Tsinghua University
Datum: 2024-05-23
Arxiv:YOLOv10: Real-Time End-to-End Object Detection
GitHub:THU-MIG/yolov10

Erfahren Sie mehr über YOLOv10

Ultralytics YOLOv5: Der Industriestandard

Seit seiner Veröffentlichung im Jahr 2020 durch Ultralytics hat YOLOv5 den Standard für Benutzerfreundlichkeit in der KI-Community gesetzt. Es priorisiert ein Gleichgewicht aus Geschwindigkeit, Genauigkeit und technischem Nutzen. Über reine Metriken hinaus bietet YOLOv5 ein ausgereiftes Ökosystem, das sich nahtlos in mobile Bereitstellungstools, Experiment-track-Plattformen und Dataset-Management-Workflows integriert. Seine Vielseitigkeit reicht über die detect hinaus und umfasst Bildklassifizierung und Instanz-segment.

Autor: Glenn Jocher
Organisation: Ultralytics
Datum: 2020-06-26
GitHub:ultralytics/yolov5

Erfahren Sie mehr über YOLOv5

Architektonische Unterschiede

Der Hauptunterschied liegt in der Verarbeitung von Vorhersagen. YOLOv5 verwendet eine hochoptimierte ankerbasierte Architektur, die auf NMS zur Filterung überlappender Bounding Boxes setzt. Diese Methode ist praxiserprobt und robust über verschiedene Datensätze hinweg.

Im Gegensatz dazu verwendet YOLOv10 eine konsistente Dual-Assignment-Strategie. Dies ermöglicht es dem Modell, während der Inferenz eine einzige beste Bounding Box für jedes Objekt vorherzusagen, wodurch der NMS-Schritt theoretisch vollständig entfällt. Diese Reduzierung des Post-Processing-Overheads ist YOLOv10s Hauptmerkmal und bietet eine geringere Latenz auf Edge-Geräten wie dem NVIDIA Jetson Orin Nano. Zusätzlich integriert YOLOv10 ganzheitliche Effizienzdesigns in seinen Backbone und Head, um Parameter (params) und Floating-Point Operations (FLOPs) zu minimieren.

Speichereffizienz

Ein Kennzeichen von Ultralytics-Modellen wie YOLOv5 (und dem neueren YOLO11) ist ihr optimierter Speicherbedarf. Im Gegensatz zu einigen transformatorbasierten Detektoren, die enorme Mengen an CUDA-Speicher verbrauchen, sind Ultralytics-Modelle darauf ausgelegt, effizient auf Consumer-Hardware zu trainieren, was den Zugang zu modernster KI demokratisiert.

Leistungsmetriken

Die folgende Tabelle hebt die Leistungs-Kompromisse hervor. YOLOv10 erreicht im Allgemeinen eine höhere Mean Average Precision (mAP) mit weniger Parametern im Vergleich zur älteren YOLOv5-Architektur. YOLOv5 bleibt jedoch in der reinen Inferenzgeschwindigkeit auf bestimmten Hardware-Konfigurationen wettbewerbsfähig, insbesondere bei der Verwendung optimierter Exportformate wie TensorRT oder ONNX.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Stärken und Schwächen

YOLOv10 Analyse

Stärken:

NMS-frei: Das Entfernen des Non-Maximum Suppression-Schritts vereinfacht die Bereitstellungspipeline und stabilisiert die Inferenzlatenz.
Parameter-Effizienz: Erreicht hohe Genauigkeit mit kleineren Modellgewichten, was für speicherbeschränkte Geräte vorteilhaft ist.
Spitzen-Genauigkeit: Übertrifft ältere YOLO-Versionen bei reinen mAP-Metriken auf dem COCO-Benchmark.

Schwächen:

Begrenzte Vielseitigkeit: Hauptsächlich auf die Objektdetektion ausgerichtet, ohne native Unterstützung für komplexe Aufgaben wie Pose-Schätzung oder Oriented Bounding Box (OBB) detect, die in neueren Ultralytics-Modellen zu finden ist.
Sich entwickelndes Ökosystem: Als forschungszentriertes Modell fehlen möglicherweise die umfangreichen Community-Plugins, praxiserprobten Integrationen und der Enterprise-Support, die für Ultralytics-eigene Modelle verfügbar sind.

YOLOv5 Analyse

Stärken:

Unübertroffene Vielseitigkeit: Unterstützt detect, segment und classification sofort einsatzbereit.
Robustes Ökosystem: Unterstützt von Ultralytics, integriert es sich mühelos in Tools wie Ultralytics HUB, Roboflow und Comet ML.
Bereit zur Bereitstellung: Es existiert eine umfassende Dokumentation für den Export nach CoreML, TFLite, TensorRT und OpenVINO, die reibungslose Produktions-Rollouts gewährleistet.
Trainingseffizienz: Bekannt für stabile Trainingsdynamik und geringen Speicherverbrauch, wodurch es für Entwickler mit Einzel-GPU-Setups zugänglich ist.

Schwächen:

Veraltete Architektur: Obwohl es immer noch leistungsstark ist, wurde sein reines mAP/FLOPs-Verhältnis von neueren Iterationen wie YOLOv8 und YOLO11 übertroffen.
Ankerabhängigkeit: Ist auf Anchor Boxes angewiesen, die möglicherweise eine manuelle Anpassung für Datensätze mit extremen Objektseitenverhältnissen erfordern.

Ideale Anwendungsfälle

Die Wahl zwischen diesen beiden läuft oft auf die spezifischen Einschränkungen Ihrer Bereitstellungsumgebung hinaus.

Wählen Sie YOLOv10, wenn: Sie ein dediziertes Objekterkennungssystem für ein eingebettetes Gerät entwickeln, wo die Eliminierung des NMS-Rechenaufwands einen entscheidenden Geschwindigkeitsvorteil bietet, oder wenn Sie das absolut höchste mAP bei geringem Modell-Footprint benötigen.
Wählen Sie YOLOv5, wenn: Sie ein zuverlässiges, Multi-Tasking-Modell für eine Produktionspipeline benötigen. Seine Fähigkeit, Instanzsegmentierung und classify zu handhaben, macht es zu einem „Schweizer Taschenmesser“ für Vision AI. Wenn Ihr Team zudem auf standardmäßige MLOps-Workflows angewiesen ist, reduziert die nahtlose Integration von YOLOv5 in das Ultralytics-Ökosystem die Entwicklungszeit erheblich.

Benutzererfahrung und Ökosystem

Eines der prägenden Merkmale von Ultralytics-Modellen ist der Fokus auf die Entwicklererfahrung. YOLOv5 setzte den Standard für „es funktioniert einfach“, und diese Philosophie wird fortgesetzt. Benutzer können ein YOLOv5-Modell mit nur wenigen Codezeilen auf benutzerdefinierten Daten trainieren, wobei sie vortrainierte Gewichte nutzen, um die Konvergenz zu beschleunigen.

Im Gegensatz dazu liefert YOLOv10 zwar exzellente akademische Ergebnisse, die Integration in komplexe Produktionspipelines kann jedoch einen höheren kundenspezifischen Engineering-Aufwand erfordern. Ultralytics pflegt eine lebendige Open-Source-Community, die sicherstellt, dass Fehler schnell behoben und Funktionen basierend auf dem Feedback realer Benutzer hinzugefügt werden.

Code-Vergleich

Das Ausführen dieser Modelle ist unkompliziert. Nachfolgend finden Sie Beispiele, wie Sie jedes Modell mit Python laden und Vorhersagen treffen können.

Verwendung von YOLOv10:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform inference on an image
results = model("path/to/image.jpg")
results[0].show()

Verwendung von YOLOv5 (via PyTorch Hub):

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference
results = model("path/to/image.jpg")
results.show()

Fazit

Beide Modelle stellen bedeutende Errungenschaften in der Computer Vision dar. YOLOv10 verschiebt die Grenzen der Latenzoptimierung mit seinem NMS-freien Design, was es zu einer spannenden Wahl für spezialisierte, Hochgeschwindigkeits-detect-Aufgaben macht.

Für die meisten Entwickler und Unternehmen bietet das Ultralytics-Ökosystem – hier repräsentiert durch die dauerhafte Zuverlässigkeit von YOLOv5 und die Spitzenleistung von YOLO11 – jedoch eine umfassendere Lösung. Die Kombination aus Benutzerfreundlichkeit, umfassender Dokumentation und Multitasking-Fähigkeiten stellt sicher, dass Sie weniger Zeit mit dem Debuggen und mehr Zeit mit der Bereitstellung von Mehrwert verbringen.

Für diejenigen, die von YOLOv5 upgraden und dabei die Vorteile des Ökosystems beibehalten möchten, empfehlen wir dringend, YOLO11 zu erkunden, das modernste Leistung, ankerfreie detect und Unterstützung für das gesamte Spektrum von Vision-Aufgaben, einschließlich obb und Pose-Schätzung, bietet.