Zum Inhalt springen

YOLOv7 vs. YOLOv10: Ein detaillierter technischer Vergleich

Die Auswahl des richtigen Objekterkennungsmodells erfordert ein Gleichgewicht zwischen Genauigkeit, Geschwindigkeit und Bereitstellungsanforderungen. Diese Seite bietet einen detaillierten technischen Vergleich zwischen YOLOv7 und YOLOv10, zwei bedeutenden Modellen in der Landschaft der Echtzeit-Objekterkennung. Wir werden uns mit ihren architektonischen Unterschieden, Leistungskennzahlen und idealen Anwendungsfällen befassen, um Ihnen bei der Auswahl des besten Modells für Ihre Computer-Vision-Projekte zu helfen.

YOLOv7: Hohe Genauigkeit und Geschwindigkeit

YOLOv7, eingeführt im Juli 2022, erlangte schnell Anerkennung für sein beeindruckendes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit und setzte damals neue State-of-the-Art-Benchmarks. Der Fokus lag auf der Optimierung des Trainingsprozesses mithilfe von „trainierbaren Bag-of-Freebies“, um die Genauigkeit zu verbessern, ohne die Inferenzkosten zu erhöhen.

Technische Details:

Architektur und Hauptmerkmale

YOLOv7 führte mehrere architektonische Verbesserungen und Trainingsverfeinerungen ein, um seine Leistung zu erzielen:

  • Extended Efficient Layer Aggregation Networks (E-ELAN): Diese Schlüsselkomponente im Backbone verbessert die Fähigkeit des Netzwerks, vielfältige Merkmale zu erlernen und gleichzeitig den Gradientenpfad zu steuern, was die Konvergenz und die Gesamtgenauigkeit verbessert.
  • Modellskalierung: Es implementierte Compound-Skalierungsmethoden für auf Verkettung basierende Modelle, die eine effektive Anpassung der Modelltiefe und -breite ermöglichen, um verschiedenen Rechenbudgets gerecht zu werden.
  • Trainable Bag-of-Freebies: YOLOv7 nutzte fortgeschrittene Techniken während des Trainings, wie z.B. Label-Zuweisungsstrategien und Batch-Normalisierungsanpassungen, um die Leistung zu steigern, ohne den Overhead während der Inferenz zu erhöhen.
  • Auxiliary Head Coarse-to-fine: Das Modell verwendet während des Trainings Auxiliary Heads, um die Deep Supervision zu verbessern und den Lernprozess des Modells effektiver zu steuern.

Stärken und Schwächen

Stärken

  • Hohe Genauigkeit und Geschwindigkeitsausgleich: YOLOv7 bietet eine starke Kombination aus hohem mAP und schneller Inferenzgeschwindigkeit und eignet sich daher für viele Echtzeitanwendungen.
  • Effizientes Training: Das Modell integriert fortschrittliche Trainingstechniken, die die Leistung verbessern, ohne die Rechenanforderungen während der Inferenz wesentlich zu erhöhen.
  • Gut etabliert: Als ausgereiftes Modell profitiert es von einer größeren Nutzerbasis und mehr Community-Ressourcen im Vergleich zu den neuesten Modellen.

Schwächen

  • NMS-Abhängigkeit: YOLOv7 verwendet Non-Maximum Suppression (NMS) für die Nachbearbeitung, was den Rechenaufwand erhöht und die Inferenzlatenz verlängert.
  • Komplexität: Die Architektur und die Trainingsstrategien können zwar effektiv sein, aber auch komplex sein, um sie vollständig zu verstehen und für kundenspezifische Anwendungen feinabzustimmen.

Anwendungsfälle

YOLOv7 eignet sich gut für anspruchsvolle Anwendungen, bei denen ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit entscheidend ist:

  • Fortschrittliche Überwachung: Ihre hohe Genauigkeit ist wertvoll für die Identifizierung von Objekten oder Bedrohungen in Sicherheitssystemen.
  • Autonome Systeme: Es bietet eine robuste Erkennung für Anwendungen wie selbstfahrende Autos.
  • Industrielle Automatisierung: Das Modell kann für die zuverlässige Fehlererkennung in der Fertigung und für die Qualitätskontrolle verwendet werden.

Erfahren Sie mehr über YOLOv7

YOLOv10: End-to-End-Echtzeit-Erkennung

YOLOv10, das im Mai 2024 von Forschern der Tsinghua-Universität vorgestellt wurde, stellt einen bedeutenden Fortschritt im Bereich der Echtzeit-Objekterkennung dar. Seine wichtigste Neuerung ist die Schaffung einer End-to-End-Lösung durch den Wegfall der Non-Maximum Suppression (NMS), was die Latenz reduziert und die Effizienz der Bereitstellung verbessert.

Technische Details:

Architektur und Hauptmerkmale

YOLOv10 führt mehrere architektonische Innovationen ein, die darauf abzielen, das Verhältnis von Geschwindigkeit und Genauigkeit zu optimieren:

  • NMS-Free Training: Es verwendet konsistente Dual-Zuweisungen während des Trainings, wodurch eine wettbewerbsfähige Leistung ohne den NMS-Postprocessing-Schritt ermöglicht wird. Dies vereinfacht die Deployment-Pipeline und senkt die Inferenzlatenz.
  • Ganzheitliches Design für Effizienz und Genauigkeit: Das Modell optimiert verschiedene Komponenten, wie z. B. den Klassifikationskopf und Downsampling-Schichten, um die Rechenredundanz zu reduzieren und die Leistungsfähigkeit zu verbessern. Dies beinhaltet Techniken wie Rang-geführtes Blockdesign und partielle Selbstaufmerksamkeit (PSA).
  • Anchor-Free Ansatz: Wie andere moderne YOLO-Modelle verwendet es ein Anchor-Free Detektor-Design, das den Detection Head vereinfacht und die Generalisierung verbessert.

Stärken und Schwächen

Stärken

  • Hohe Effizienz: Das NMS-freie Design und andere architektonische Optimierungen führen zu schnellerer Inferenz, geringerer Latenz und reduzierten Rechenkosten.
  • Competitive Accuracy: Es behält eine hohe Genauigkeit bei, während es gleichzeitig die Geschwindigkeit deutlich verbessert und die Modellgröße reduziert.
  • End-to-End-Bereitstellung: Die Entfernung von NMS vereinfacht die Bereitstellungspipeline und erleichtert die Integration in Anwendungen.

Schwächen

  • Relativ neu: Als neueres Modell sind der Community-Support und die Anzahl der realen Beispiele möglicherweise weniger umfangreich als bei etablierten Modellen wie YOLOv7 oder Ultralytics YOLOv8.
  • Optimierung für optimale Leistung: Um die besten Ergebnisse zu erzielen, kann eine sorgfältige Hyperparameter-Optimierung erforderlich sein, die möglicherweise von Ressourcen wie Tipps zum Modelltraining profitiert.

Anwendungsfälle

Der Fokus von YOLOv10 auf Echtzeit-Effizienz macht es ideal für ressourcenbeschränkte Umgebungen:

  • Edge-KI-Anwendungen: Perfekt für den Einsatz auf Geräten wie NVIDIA Jetson oder Raspberry Pi, wo niedrige Latenz entscheidend ist.
  • Robotik: Ermöglicht eine schnellere Wahrnehmung für Navigation und Interaktion, ein wichtiger Aspekt der Rolle der KI in der Robotik.
  • Autonome Drohnen: Seine leichtgewichtige und schnelle Architektur eignet sich für die schnelle Objekterkennung in Drohnen und anderen unbemannten Luftfahrzeugen.

Erfahren Sie mehr über YOLOv10

Direkter Leistungsvergleich

Beim Vergleich von YOLOv7 und YOLOv10 liegt der bedeutendste Unterschied in ihren Designphilosophien. YOLOv7 strebt ein Gleichgewicht zwischen hoher Genauigkeit und Geschwindigkeit an, was es zu einem leistungsstarken Allzweckdetektor macht. Im Gegensatz dazu priorisiert YOLOv10 die Recheneffizienz und niedrige Latenz durch die Eliminierung von NMS, was es zu einer besseren Wahl für Echtzeitanwendungen auf Edge-Geräten macht.

Die folgende Tabelle zeigt, dass YOLOv10-Modelle durchweg eine geringere Latenz erreichen und weniger Parameter und FLOPs als YOLOv7-Modelle bei ähnlichen mAP-Werten benötigen. Beispielsweise erreicht YOLOv10b eine mAP von 52,7 mit nur 6,54 ms Latenz und übertrifft damit YOLOv7l, das eine ähnliche mAP, aber eine höhere Latenz aufweist.

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4

Fazit und Empfehlung

Sowohl YOLOv7 als auch YOLOv10 sind leistungsstarke Modelle, die jedoch unterschiedlichen Bedürfnissen dienen. YOLOv7 ist ein robuster und genauer Detektor, der eine solide Wahl für Anwendungen bleibt, bei denen das Erreichen eines hohen mAP Priorität hat. YOLOv10 ist mit seiner innovativen NMS-freien Architektur der klare Gewinner für Anwendungen, die höchste Effizienz und geringste Latenz erfordern, insbesondere bei End-to-End-Bereitstellungen.

Für Entwickler, die ein modernes, vielseitiges und benutzerfreundliches Framework suchen, sind Modelle aus dem Ultralytics-Ökosystem, wie Ultralytics YOLOv8 und das neueste YOLO11, oft eine überzeugendere Wahl. Diese Modelle bieten:

Andere Modelle entdecken

Wenn Sie an anderen Modellen interessiert sind, sehen Sie sich diese zusätzlichen Vergleiche an:



📅 Vor 1 Jahr erstellt ✏️ Vor 1 Monat aktualisiert

Kommentare