Zum Inhalt springen

YOLOv7 YOLOv5: Ein technischer Vergleich von Echtzeit-Detektoren

Beim Aufbau moderner Computer-Vision-Pipelines ist die Auswahl der richtigen Objektdetektionsarchitektur entscheidend für das Gleichgewicht zwischen Genauigkeit, Inferenzgeschwindigkeit und Ressourcennutzung. Dieser umfassende Vergleich untersucht zwei sehr einflussreiche Modelle im Bereich der Computer Vision: YOLOv7 Ultralytics YOLOv5.

Durch die Analyse ihrer architektonischen Unterschiede, Leistungskennzahlen und idealen Einsatzszenarien möchten wir Entwicklern und Forschern dabei helfen, das für ihre spezifischen Anforderungen am besten geeignete Modell auszuwählen.

Hintergrund und Ursprünge des Modells

Das Verständnis der Ursprünge dieser Modelle liefert den Kontext für ihre Designphilosophien und die angestrebten Anwendungsfälle.

YOLOv5

Veröffentlicht von Glenn Jocher und dem Team von Ultralytics am 26. Juni 2020 veröffentlicht, YOLOv5 das Feld, indem es ein natives PyTorch Implementierung, die Benutzerfreundlichkeit priorisierte, ohne dabei die Leistung zu beeinträchtigen. Dank seines unglaublich optimierten Ökosystems und seiner zuverlässigen Trainingsdynamik wurde es schnell zum Industriestandard. Sie können den Quellcode im YOLOv5 einsehen oder direkt über die Ultralytics auf das Modell zugreifen.

Erfahren Sie mehr über YOLOv5

YOLOv7

Vorgestellt von Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao vom Institut für Informationswissenschaft der Academia Sinica, Taiwan, am 6. Juli 2022. YOLOv7 stark auf architektonische Innovationen wie Extended Efficient Layer Aggregation Networks (E-ELAN) und ein trainierbares „Bag-of-Freebies”, um die Genauigkeit auf den neuesten Stand der Technik zu bringen. Details finden Sie in ihrer offiziellen Arxiv-Veröffentlichung und im YOLOv7 . Informationen zur nahtlosen Integration finden Sie in der Ultralytics YOLOv7 .

Erfahren Sie mehr über YOLOv7

Nahtloses Experimentieren

Beide Modelle sind vollständig in das Ultralytics Python integriert, sodass Sie zwischen ihnen wechseln können, indem Sie einfach die Modellzeichenfolge in Ihrem Code ändern!

Architektonische Innovationen

Ultralytics YOLOv5

YOLOv5 ein modifiziertes CSPDarknet53-Backbone in Kombination mit einem Path Aggregation Network (PANet)-Neck. Dieses Design ist in hohem Maße für eine schnelle Merkmalsextraktion und Speichereffizienz optimiert. Im Gegensatz zu älteren Architekturen oder schwerfälligen Transformer-Modellen YOLOv5 während des Trainings deutlich weniger CUDA , was größere Batch-Größen auf handelsüblichen GPUs ermöglicht. Darüber hinaus unterstützt das Ultralytics von Haus aus eine Vielzahl von Aufgaben, die über Standard-Bounding-Boxes hinausgehen, darunter Bildsegmentierung und Bildklassifizierung.

YOLOv7

YOLOv7 mehrere strukturelle Neuparametrisierungen und die E-ELAN-Architektur YOLOv7 , die es dem Netzwerk ermöglicht, vielfältigere Merkmale zu lernen, ohne den ursprünglichen Gradientenpfad zu zerstören. Außerdem implementiert es einen Hilfskopf für die Zwischenüberwachung während des Trainings. Diese Weiterentwicklungen führen zwar zu einer hohen mittleren Genauigkeit (mAP), führen jedoch häufig zu komplexen tensor , die den Export in Edge-Formate wie ONNX oder TensorRT etwas schwieriger machen können als bei den optimierten Exporten, die für Ultralytics typisch sind.

Leistungsanalyse

Beim Vergleich dieser Modelle müssen EntwicklermAPval, Inferenzgeschwindigkeit und Rechenkomplexität (FLOPs) gegeneinander abwägen. Die folgende Tabelle zeigt die Leistung beider Architekturen, die anhand des COCO bewertet wurden.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Wichtige Erkenntnisse

  • Genauigkeitsgrenze: YOLOv7x erreicht mit beeindruckenden 53,1mAPval die höchste Gesamtgenauigkeit und ist damit äußerst wettbewerbsfähig für Szenarien, in denen die Maximierung der Erkennungsleistung das vorrangige Ziel ist.
  • Geschwindigkeit und Effizienz: Ultralytics ist ein Wunderwerk der Effizienz und bietet blitzschnelle Inferenzlatenz (1,12 ms auf T4 TensorRT) bei einem geringen Speicherbedarf von nur 2,6 Millionen Parametern. Damit ist es eine unvergleichliche Wahl für Edge-Implementierungen mit hohen Einschränkungen.
  • Leistungsausgewogenheit: Die YOLOv5 bietet eine außergewöhnliche Modellgradientenkurve. YOLOv5l bietet einen fantastischen Mittelweg, liegt zwar in puncto Genauigkeit knapp hinter YOLOv7l zurück, bietet jedoch eine ausgereifte Bereitstellungspipeline.

Der Vorteil des Ultralytics-Ökosystems

Die Architektur eines Modells ist nur die Hälfte der Gleichung; das es umgebende Ökosystem bestimmt seine tatsächliche Realisierbarkeit. Hier kommen Ultralytics voll zur Geltung.

Benutzerfreundlichkeit: Ultralytics eine einheitliche, äußerst intuitive Python . Sie können Modelle mit minimalem Aufwand trainieren, validieren und bereitstellen, unterstützt durch eine umfangreiche offizielle Dokumentation. Gut gepflegtes Ökosystem: Die aktive Entwicklung gewährleistet ständige Updates, Fehlerbehebungen und eine nahtlose Integration mit modernen Tracking-Tools wie Weights & Biases. Trainingseffizienz: Durch die Verwendung optimierter Datenlader und intelligenter Caching-Funktionen reduziert YOLOv5 die Trainingszeiten YOLOv5 . Darüber hinaus beschleunigen gebrauchsfertige, vortrainierte Gewichte das Transferlernen über verschiedene Domänen hinweg.

Code-Beispiel: Optimiertes Training

Mit dem Ultralytics ist die Initiierung eines Trainingslaufs unabhängig von der gewählten Architektur nahezu identisch.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model (can easily swap to "yolov7.pt")
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format for deployment
success = model.export(format="onnx")

Ideale Anwendungsfälle

Wann man YOLOv7 wählen sollte

  • Akademisches Benchmarking: Ideal für Forscher, die neue Techniken mit einer gut dokumentierten Basislinie für 2022 vergleichen müssen.
  • GPU : Bei der Bereitstellung auf leistungsstarker Server-Hardware, wo das Erreichen der absolut höchsten mAP dichten Szenen wichtiger ist als die Einfachheit des Exports.

Wann man YOLOv5 wählen sollte

  • Produktionsbereitstellungen: Ideal für kommerzielle Anwendungen, die hohe Stabilität, unkomplizierte Modellbereitstellungsoptionen und umfassende plattformübergreifende Kompatibilität erfordern.
  • Edge-Geräte: Die kleineren Varianten (YOLOv5n und YOLOv5s) laufen außergewöhnlich gut auf Mobiltelefonen und eingebetteten Systemen.
  • Anforderungen an Multitasking: Wenn Ihr Projekt von der einfachen Erkennung zur Posenschätzung oder Segmentierung unter Verwendung eines einheitlichen Frameworks weiterentwickelt werden muss.

Andere Architekturen erkunden

Auf der Suche nach neueren Versionen? Entdecken Sie Ultralytics YOLOv8 oder Ultralytics YOLO11 für weitere Fortschritte bei der ankerfreien Erkennung und den Multi-Task-Lernfähigkeiten.

Die nächste Generation: Ultralytics

Während YOLOv5 YOLOv7 einen wichtigen Platz in der Geschichte der Bildverarbeitungs-KI YOLOv7 , entwickelt sich die Landschaft ständig weiter. Ultralytics wurde im Januar 2026 veröffentlicht und repräsentiert den absoluten Stand der Technik in der Objekterkennungstechnologie, wobei es alle vorherigen Generationen in allen Metriken übertrifft.

Erfahren Sie mehr über YOLO26

YOLO26 führt mehrere bahnbrechende Funktionen ein:

  • End-to-End-Design NMS: Aufbauend auf Konzepten, die in früheren Versionen entwickelt wurden, ist YOLO26 von Grund auf End-to-End. Dadurch entfällt die Nachbearbeitung mit Non-Maximum Suppression (NMS) vollständig, was Latenzengpässe beseitigt und die Bereitstellungslogik erheblich vereinfacht.
  • MuSGD Optimizer: Inspiriert von Moonshot AI's Kimi K2 vereint dieser revolutionäre Optimierer die Stabilität von SGD dem beschleunigten Momentum von Muon und bringt damit fortschrittliche LLM-Trainingsinnovationen direkt in die Computer Vision.
  • Verbesserte CPU : Durch die strategische Beseitigung des Distribution Focal Loss (DFL) erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit der unangefochtene Champion für den Einsatz in Edge- und Low-Power-IoT-Geräten.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu massiven Verbesserungen bei der Erkennung kleiner Objekte, was für Luftbildaufnahmen und Präzisionsrobotik von entscheidender Bedeutung ist.
  • Aufgabenspezifische Verbesserungen: Mit semantischem Segmentierungsverlust für die Maskenerzeugung, Residual Log-Likelihood Estimation (RLE) für die Positionsverfolgung und speziellem Winkelverlust zur Lösung schwieriger Probleme mit den Grenzen von Oriented Bounding Boxes (OBB).

Fazit

Sowohl YOLOv5 YOLOv7 robuste Lösungen für die Echtzeit-Objekterkennung. YOLOv7 eine gute Wahl für rohe Genauigkeit auf leistungsstarker Hardware, während YOLOv5 als das ultimative entwicklerfreundliche Tool YOLOv5 und eine außergewöhnliche Balance zwischen Geschwindigkeit, Effizienz und einem erstklassigen Ökosystem bietet.

Entwicklern, die ihre Pipelines zukunftssicher machen und die ultimative Kombination aus Geschwindigkeit, Einfachheit und modernster Genauigkeit erzielen möchten, empfehlen wir jedoch dringend die Migration zu Ultralytics . Es vereint die legendäre Benutzerfreundlichkeit der Ultralytics mit bahnbrechenden architektonischen Innovationen.


Kommentare