Zum Inhalt springen

YOLOv6.0 vs. YOLOv7: Ein tiefer Einblick in die industrielle Geschwindigkeit und Genauigkeit

Die Auswahl des optimalen Objekterkennungsmodells ist eine kritische Entscheidung, bei der es auf ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit, Genauigkeit und Berechnungseffizienz ankommt. Dieser technische Vergleich untersucht die Unterschiede zwischen YOLOv6.0, einem auf die Industrie ausgerichteten Framework, und YOLOv7einem Modell, das mit trainierbaren "Bag-of-Freebies" die Grenzen der Genauigkeit erweitern soll. Durch die Analyse ihrer Architekturen, Benchmarks und idealen Anwendungsfälle können Entwickler feststellen, welche Lösung am besten zu ihren spezifischen Einsatzbedingungen passt.

YOLOv6.0: Entwickelt für industrielle Effizienz

YOLOv6.0 stellt eine bedeutende Weiterentwicklung der YOLO dar, die speziell auf industrielle Anwendungen zugeschnitten ist, bei denen Echtzeitgeschwindigkeit und Hardware-Effizienz nicht verhandelbar sind. Diese von Meituan entwickelte Version konzentriert sich auf die Optimierung des Kompromisses zwischen Latenz und Genauigkeit, was sie zu einer hervorragenden Wahl für Edge Computing und Umgebungen mit hohem Durchsatz macht.

Die Autoren: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
Organisation:Meituan
Datum: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics

Architektur und Hauptmerkmale

Die Architektur von YOLOv6.0 basiert auf dem Konzept des Hardware-bewussten Designs. Es verwendet ein reparametrisierbares Backbone (EfficientRep), das es dem Modell ermöglicht, während des Trainings komplexe Strukturen für ein besseres Feature-Learning zu nutzen, während es während der Inferenz in einfachere, schnellere Strukturen kollabiert. Durch diese Technik werden die Kosten für den Speicherzugriff erheblich gesenkt und die Latenzzeit für die Inferenz verbessert.

Zu den wichtigsten architektonischen Innovationen gehören:

  • Bi-direktionale Verkettung (BiC): Dieses Modul verbessert die Lokalisierungsgenauigkeit durch Verbesserung der Merkmalsausbreitung.
  • Ankergestütztes Training (AAT): Eine Strategie, die die Vorteile von ankerbasierten und ankerlosen Detektoren kombiniert, um das Training zu stabilisieren und die Leistung zu steigern.
  • Selbst-Destillation: YOLOv6.0 nutzt Selbstdistillationstechniken, bei denen das Schülermodell aus den Vorhersagen des Lehrermodells lernt und so die Genauigkeit verfeinert, ohne externe große Modelle zu benötigen.

Stärken und Schwächen

Die Hauptstärke von YOLOv6.0 liegt in seiner Inferenzgeschwindigkeit. Wie Benchmarks zeigen, sind die kleineren Varianten (wie YOLOv6.0n) auf GPU außergewöhnlich schnell, was sie ideal für Videoanalyse-Pipelines macht, die hohe Bildraten verarbeiten müssen. Außerdem erleichtert die Unterstützung des Modells für die Modellquantisierung den Einsatz auf ressourcenbeschränkter Hardware.

Frühere Versionen von YOLOv6 waren jedoch in erster Linie auf die Objekterkennung beschränkt und verfügten nicht über die Vielseitigkeit, die in umfassenderen Frameworks zu finden ist, die Segmentierung oder Pose-Schätzung direkt nach der Installation unterstützen. Darüber hinaus ist die Unterstützung durch das Ökosystem nicht so umfangreich wie bei anderen Community-getriebenen Projekten, obwohl sie sehr effizient ist.

Ideale Anwendungsfälle

YOLOv6.0 eignet sich hervorragend für Szenarien wie:

  • Fertigungsstraßen: Wo eine Hochgeschwindigkeits-Fehlererkennung an Förderbändern erforderlich ist.
  • Einzelhandelsanalytik: Für die Verwaltung von Warteschlangen und die Bestandsverfolgung bei begrenzten Rechenressourcen.
  • Eingebettete Systeme: Einsatz auf Geräten wie der NVIDIA Jetson-Serie.

Erfahren Sie mehr über YOLOv6

YOLOv7: Optimierung von trainierbaren Bag-of-Freebies

YOLOv7 verfolgt einen anderen Ansatz und konzentriert sich stark auf architektonische Reformen, um die Genauigkeit zu maximieren, ohne die Inferenzkosten zu erhöhen. Die Autoren haben "trainierbare Bag-of-Freebies"-Optimierungsmethoden eingeführt, die die Leistung des Modells während des Trainings verbessern, aber die Inferenzarchitektur oder die Geschwindigkeit nicht verändern.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Architektur und Hauptmerkmale

Mit YOLOv7 wird das E-ELAN (Extended Efficient Layer Aggregation Network) eingeführt. Diese Architektur ermöglicht es dem Modell, mehr verschiedene Merkmale zu lernen, indem es die kürzesten und längsten Gradientenpfade kontrolliert und so sicherstellt, dass das Netzwerk effektiv konvergiert.

Zu den herausragenden Merkmalen gehören:

  • Modell-Skalierung: Im Gegensatz zu früheren Methoden, die nur die Tiefe oder Breite skalierten, schlägt YOLOv7 eine zusammengesetzte Skalierungsmethode vor, bei der die Ebenen verkettet werden, anstatt sie nur in der Größe zu verändern, wobei die Optimierungseigenschaften des Modells erhalten bleiben.
  • Training mit einem Hilfskopf: Das Modell verwendet während des Trainings einen Hilfskopf, um den Hauptkopf zu unterstützen. Diese tiefe Überwachungstechnik verbessert das Lernen von Zwischenschichten, wird aber während der Inferenz entfernt, um die Geschwindigkeit beizubehalten.
  • Geplante reparametrisierte Faltung: Eine spezielle Anwendung der Neuparametrisierung, die Identitätsverbindungen in bestimmten Schichten vermeidet, um Leistungseinbußen zu vermeiden.

Stärken und Schwächen

YOLOv7 ist für seine hohe Genauigkeit bekannt und erreicht beeindruckende durchschnittliche Präzisionswerte (mAP) im COCO . Es überbrückt effektiv die Lücke zwischen Echtzeit-Zwängen und dem Bedarf an hochpräzisen Erkennungen.

Nachteilig ist, dass die Komplexität der Architektur und die Verwendung von Hilfsköpfen den Trainingsprozess im Vergleich zu einfacheren Architekturen speicherintensiver machen kann. Die Trainingsphase ist zwar während der Inferenz effizient, erfordert aber einen beträchtlichen GPU , insbesondere bei den größeren "E6E"-Varianten.

Ideale Anwendungsfälle

YOLOv7 ist besonders gut geeignet für:

  • Detaillierte Überwachung: Identifizierung von kleinen Objekten oder subtilen Aktionen in komplexen Sicherheitsaufnahmen.
  • Autonomes Fahren: Wo Präzision entscheidend für Sicherheit und Navigation ist.
  • Wissenschaftliche Forschung: Anwendungen, die hohe AP erfordern, wie medizinische Bildgebung oder biologische Untersuchungen.

Erfahren Sie mehr über YOLOv7

Leistungsvergleich: Metriken und Analyse

In der folgenden Tabelle wird die Leistung der YOLOv6.0- und YOLOv7 auf dem COCO gegenübergestellt. Sie verdeutlicht die Kompromisse zwischen Modellgröße, Rechenlast (FLOPs) und Geschwindigkeit.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Interpretation der Benchmarks

YOLOv7x erreicht zwar die höchste Genauigkeit(53,1 % mAP), benötigt aber deutlich mehr Parameter (71,3M) und FLOPs (189,9B). Im Gegensatz dazu ist YOLOv6.0n auf extreme Geschwindigkeit optimiert und erreicht eine Inferenzzeit von 1,17 ms auf einem GPU. Damit ist es etwa 10x schneller als die größte YOLOv7 , wenn auch mit geringerer Genauigkeit.

Die Daten zeigen einen klaren Unterschied: YOLOv6.0 dominiert in Umgebungen mit geringer Latenz, während YOLOv7 überlegen ist, wenn die maximale Erkennungsqualität im Vordergrund steht und Hardware-Ressourcen im Überfluss vorhanden sind.

Der Ultralytics : Mehr als rohe Metriken

YOLOv6 und YOLOv7 bieten zwar starke Funktionen, aber die Landschaft der Computer Vision entwickelt sich schnell weiter. Für Entwickler und Forscher, die eine zukunftssichere, vielseitige und benutzerfreundliche Lösung suchen, Ultralytics YOLO11 und YOLOv8 überzeugende Vorteile, die über reine Benchmarks hinausgehen.

Benutzerfreundlichkeit und Ökosystem

Eines der größten Hindernisse bei der Einführung fortschrittlicher KI-Modelle ist die Komplexität der Implementierung. Ultralytics sind für ihre optimierte Benutzerfreundlichkeit bekannt. Mit einer einfachen Python und einer CLI können Benutzer Modelle in nur wenigen Codezeilen trainieren, validieren und bereitstellen. Dies steht im Gegensatz zu forschungsorientierten Repositories, die oft komplexe Umgebungseinstellungen und Konfigurationsänderungen erfordern.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed/accuracy balance)
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Vielseitigkeit bei verschiedenen Aufgaben

Im Gegensatz zu früheren YOLO , die in erster Linie der Erkennung dienten, sind die Ultralytics von Haus aus multimodal. Ein einziges Framework unterstützt:

Leistungsbilanz und Effizienz

Ultralytics , wie z. B. YOLO11sind so konzipiert, dass sie ein optimales Gleichgewicht zwischen Geschwindigkeit und Genauigkeit bieten. Sie erreichen oft eine höhere mAP als YOLOv7 und behalten dabei die Inferenzgeschwindigkeiten bei, die mit effizienten Architekturen wie YOLOv6 verbunden sind. Darüber hinaus sind Ultralytics auf Trainingseffizienz ausgelegt und benötigen im Vergleich zu transformatorbasierten Modellen (wie RT-DETR) weniger GPU , was die Experimentierzyklen beschleunigt und die Cloud-Rechenkosten reduziert.

Gepflegtes Ökosystem

Die Entscheidung für ein Ultralytics bedeutet, dass Sie sich für ein unterstütztes Ökosystem entscheiden. Dies beinhaltet:

  • Häufige Updates: Regelmäßige Verbesserungen an Architektur und Gewichten.
  • Breite Exportunterstützung: Nahtloser Export nach ONNX, TensorRT, CoreML und TFLite für den Einsatz auf jedem Gerät.
  • Gemeinschaft: Eine große Gemeinschaft von Entwicklern und eine umfangreiche Dokumentation sorgen dafür, dass Hilfe immer verfügbar ist.

Fazit

Sowohl YOLOv6.0 als auch YOLOv7 haben einen bedeutenden Beitrag zum Bereich der Computer Vision geleistet. YOLOv6.0 ist die erste Wahl für industrielle Anwendungen, die ultraschnelle Inferenz- und Quantisierungsunterstützung erfordern. YOLOv7 ist nach wie vor ein starker Konkurrent für Szenarien, in denen die Erkennungsgenauigkeit von größter Bedeutung ist und die Hardware-Einschränkungen flexibel sind.

Für eine ganzheitliche Lösung, die modernste Leistung mit unübertroffener Benutzerfreundlichkeit, Vielseitigkeit und Einsatzflexibilität verbindet, Ultralytics YOLO11 als die beste Wahl für die moderne KI-Entwicklung hervor. Ganz gleich, ob Sie die Lösung am Netzwerkrand einsetzen oder in der Cloud skalieren möchten, das Ultralytics bietet Ihnen die für den Erfolg erforderlichen Tools.

Weitere Informationen finden Sie in unseren Vergleichen zu YOLOX oder in den Funktionen von RT-DETR für die Erkennung von Transformatoren.


Kommentare