Zum Inhalt springen

YOLOv5 . YOLOv7: Die Entwicklung von Echtzeit-Objektdetektoren

Bei der Auswahl der richtigen Objektdetektionsarchitektur müssen Genauigkeit, Inferenzgeschwindigkeit und einfache Bereitstellung gegeneinander abgewogen werden. Dieser Leitfaden enthält einen detaillierten technischen Vergleich zwischen Ultralytics YOLOv5 und YOLOv7, zwei einflussreichen Modellen im Bereich der Bildverarbeitung. Wir analysieren ihre architektonischen Unterschiede, Leistungsbenchmarks und idealen Anwendungsfälle, um Ihnen zu helfen, eine fundierte Entscheidung für Ihre Bildverarbeitungsprojekte zu treffen.

Zusammenfassung

Beide Modelle sind leistungsfähig, YOLOv5 bleibt jedoch der Industriestandard in Bezug auf Benutzerfreundlichkeit, Vielseitigkeit bei der Bereitstellung und Community-Support. Dank seines ausgereiften Ökosystems und der nahtlosen Integration in die Ultralytics ist es eine ausgezeichnete Wahl für Produktionsumgebungen. YOLOv7, das später veröffentlicht wurde, führte architektonische Innovationen wie E-ELAN für eine höhere Spitzengenauigkeit auf GPU ein, verfügt jedoch nicht über die umfassende Multitasking-Unterstützung und die optimierten Tools, die im Ultralytics zu finden sind.

Für Entwickler, die 2026 neue Projekte starten, empfehlen wir dringend, YOLO26zu prüfen, das beide Modelle in puncto Geschwindigkeit und Genauigkeit übertrifft und über ein natives End-to-End-Design NMS verfügt.

Ultralytics YOLOv5: Der Produktionsstandard

YOLOv5 revolutionierte das Gebiet nicht nur durch reine Metriken, sondern auch durch die Priorisierung der Entwicklererfahrung. Es war das erste YOLO , das nativ in PyTorchimplementiert wurde und somit einer großen Gemeinschaft von Forschern und Ingenieuren zugänglich war. Seine Philosophie „einfach zu trainieren, einfach zu implementieren” etablierte es als die Lösung der Wahl für reale Anwendungen, die von autonomen Fahrzeugen bis hin zur industriellen Inspektion reichen.

Autor: Glenn Jocher
Organisation:Ultralytics
Datum: 2020-06-26
GitHub:ultralytics/yolov5
Dokumente:YOLOv5 Documentation

Erfahren Sie mehr über YOLOv5

Architektur und Design

YOLOv5 ein CSP-Darknet53-Backbone mit einer Focus-Schicht (später durch eine 6x6-Faltung ersetzt) YOLOv5 , um die Rechenleistung zu reduzieren und gleichzeitig Informationen zu erhalten. Es nutzt einen Path Aggregation Network (PANet)-Neck für die Merkmalsfusion und die multiskalige Vorhersage. Zu den wichtigsten architektonischen Merkmalen gehören:

  • Mosaic Data Augmentation: Eine Trainingstechnik, die vier Bilder zu einem kombiniert, wodurch die Fähigkeit des Modells zur detect Objekte verbessert und der Bedarf an großen Mini-Batches reduziert wird.
  • Automatisches Lernen von Begrenzungsrahmen-Ankern: Das Modell passt die Ankerrahmen während des Trainings automatisch an die spezifische Geometrie benutzerdefinierter Datensätze an.
  • SiLU-Aktivierung: Verwendung der Sigmoid Linear Unit (SiLU) -Aktivierungsfunktion für eine gleichmäßigere Gradientenausbreitung.

Wichtige Stärken

  • Benutzerfreundlichkeit: Dank der vereinfachten API und der umfassenden Dokumentation können Entwickler mit nur wenigen Zeilen Code ein benutzerdefiniertes Modell trainieren.
  • Vielseitige Einsatzmöglichkeiten: Integrierte Exportunterstützung für ONNX, TensorRT, CoreML, TFLite und OpenVINO eine nahtlose Bereitstellung auf Edge- und Cloud-Zielen.
  • Multitasking-Fähigkeiten: Über die Erkennung hinaus YOLOv5 die Instanzsegmentierung und Bildklassifizierung und bietet damit ein umfassendes Toolkit für vielfältige Bildverarbeitungsaufgaben.

YOLOv7: Steigerung GPU

YOLOv7 wurde entwickelt, um die Grenzen von Geschwindigkeit und Genauigkeit auf GPU zu erweitern. Es führt mehrere „Bag-of-Freebies”-Strategien ein – Methoden, die die Genauigkeit erhöhen, ohne die Inferenzkosten zu erhöhen – und ist damit ein starker Anwärter für Hochleistungsrechenszenarien.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organisation: Institut für Informationswissenschaft, Academia Sinica, Taiwan
Datum: 06.07.2022
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7
Dokumentation:YOLOv7

Erfahren Sie mehr über YOLOv7

Architektur und Innovation

YOLOv7 auf effizientes Architekturdesign und Modellskalierung. Seine wichtigste Innovation ist das Extended Efficient Layer Aggregation Networks (E-ELAN), das es dem Modell ermöglicht, vielfältigere Merkmale zu lernen, indem es die kürzesten und längsten Gradientenpfade steuert.

  • Modellskalierung: YOLOv7 eine kombinierte Skalierungsmethode YOLOv7 , die gleichzeitig Tiefe und Breite für verkettungsbasierte Modelle modifiziert und so die Architektur für verschiedene Hardwarebeschränkungen optimiert.
  • Hilfskopf grob bis fein: Es wird ein Hilfskopf für das Training verwendet, der den Lernprozess steuert. Dieser wird dann für die Inferenz in den Hauptkopf umparametrisiert, wodurch sichergestellt wird, dass es bei der Bereitstellung zu keinen Geschwindigkeitseinbußen kommt.
  • Geplante Neuparametrisierung: Die Architektur nutzt strategisch neuparametrisierte Faltungen (RepConv), um Geschwindigkeit und Genauigkeit auszugleichen und Identitätsverbindungen zu vermeiden, die das residuale Lernen zerstören.

Leistungsbenchmark-Vergleich

Die folgende Tabelle vergleicht die Leistung von YOLOv5 YOLOv7 des COCO . Während YOLOv7 bei mAP rohen mAP GPU Stärken YOLOv7 , YOLOv5 eine konkurrenzfähige Geschwindigkeit, insbesondere auf CPU, und deutlich geringere Parameterzahlen für kleinere Modelle.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Analyse der Ergebnisse

  • Effizienz: YOLOv5n (Nano) ist außergewöhnlich leichtgewichtig und eignet sich daher perfekt für Edge-Geräte mit starken Einschränkungen, bei denen jedes Megabyte Speicherplatz zählt.
  • Genauigkeit: YOLOv7x erreicht eine höhere mAP (53,1 %) im Vergleich zu YOLOv5x (50,7 %) und demonstriert damit die Vorteile der E-ELAN-Architektur für GPU .
  • Bereitstellung: DieONNX für YOLOv5 gut dokumentiert und optimiert und bietet zuverlässige Leistung fürGPU .

Entscheidung für den Rand

Für Edge-Geräte wie Raspberry Pi oder Mobiltelefone sind YOLOv5n oder YOLOv5s aufgrund ihres geringeren Speicherbedarfs und ihrer bewährten TFLite oft die bessere Wahl.

Training und Ökosystem

Einer der wichtigsten Unterscheidungsmerkmale ist das Ökosystem rund um die Modelle.YOLO Ultralytics profitieren von einer kontinuierlich gepflegten Plattform, die den gesamten Lebenszyklus der Machine Learning Operations (MLOps) vereinfacht.

Ultralytics Ökosystem-Vorteil

  • Integrierte Plattform: Mit der Ultralytics können Benutzer Datensätze verwalten, Trainingsläufe visualisieren und Modelle nahtlos über eine Webschnittstelle bereitstellen.
  • Trainingseffizienz: YOLOv5 effiziente Datenlader und intelligentes Caching, wodurch die Trainingszeit für benutzerdefinierte Datensätze im Vergleich zu älteren Architekturen erheblich reduziert wird.
  • Community-Support: Dank Tausender Mitwirkender und aktiver Diskussionen auf GitHub und Discord lassen sich mit Ultralytics schneller Lösungen für Randfälle finden.

Code-Beispiel: Training mit Ultralytics

Das Training eines YOLO mit Ultralytics über alle Versionen hinweg standardisiert. Sie können zwischen YOLOv5, YOLO11 und dem empfohlenen YOLO26 wechseln, indem Sie einfach den Modellnamen ändern.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train the model on a custom dataset
# The API handles data downloading and configuration automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a new image
predictions = model("path/to/image.jpg")

Die Zukunft: Warum zu YOLO26 wechseln?

Der Vergleich YOLOv5 YOLOv7 zwar für das Verständnis älterer Systeme wertvoll, doch hat sich der Stand der Technik inzwischen erheblich weiterentwickelt. Das im Januar 2026 veröffentlichte Ultralytics stellt einen Paradigmenwechsel in der Objekterkennung dar.

Erfahren Sie mehr über YOLO26

  • Nativ End-to-End: Im Gegensatz zu YOLOv5 YOLOv7, die eine Nachbearbeitung mit Non-Maximum Suppression (NMS) erfordern, ist YOLO26 von Haus aus NMS. Dies vereinfacht die Bereitstellungspipelines und reduziert die Latenzschwankungen.
  • MuSGD-Optimierer: Der MuSGD-Optimierer nutzt Innovationen aus dem LLM-Training und sorgt für eine stabilere Konvergenz und robuste Leistung bei unterschiedlichen Datensätzen.
  • Verbesserte Geschwindigkeit: YOLO26 bietet im Vergleich zu früheren Generationen CPU um bis zu 43 % schnellere CPU und ist damit die erste Wahl für moderne Edge-KI-Anwendungen.
  • Vielseitigkeit: Es unterstützt nativ Oriented Bounding Box (OBB), Posenschätzung und Segmentierung mit speziellen Verlustfunktionen wie ProgLoss und STAL für eine bessere Erkennung kleiner Objekte.

Fazit

Sowohl YOLOv5 YOLOv7 ihren Platz in der Geschichte der Bildverarbeitung. YOLOv7 ist ein leistungsstarkes Werkzeug für Forscher, um mAP bestimmter GPU zu maximieren. Allerdings YOLOv5 bleibt für viele aufgrund seiner unübertroffenen Benutzerfreundlichkeit, Stabilität und breiten Einsatzunterstützung die praktische Wahl.

Für zukunftsorientierte Projekte lautet die Empfehlung eindeutig: Setzen Sie auf Ultralytics . Es kombiniert das benutzerfreundliche Ökosystem von YOLOv5 architektonischen Durchbrüchen, die beide Vorgänger in puncto Geschwindigkeit, Genauigkeit und Einfachheit übertreffen.

Besuchen Sie den Ultralytics Hub, um diese Architekturen näher kennenzulernen und vortrainierte Gewichte für Ihr nächstes Projekt herunterzuladen.


Kommentare