Zum Inhalt springen

YOLOv10 vs. YOLO: Ein detaillierter technischer Vergleich für die Objektdetektion

Die Wahl des optimalen Objekterkennungsmodells ist für Bildverarbeitungsanwendungen von entscheidender Bedeutung, wobei sich die Modelle in Bezug auf Genauigkeit, Geschwindigkeit und Effizienz erheblich unterscheiden. Diese Seite bietet einen detaillierten technischen Vergleich zwischen YOLOv10 und YOLO, zwei fortschrittlichen Modellen im Bereich der Objekterkennung. Wir werden ihre Architekturen, Leistungsbenchmarks und geeigneten Anwendungen untersuchen, um Ihnen bei der Modellauswahl zu helfen.

YOLOv10

YOLOv10 ist die neueste Entwicklung der YOLO , die für ihre Echtzeit-Objekterkennungsfähigkeiten bekannt ist. YOLOv10 wurde von Forschern der Tsinghua University entwickelt und am 23.05.2024 vorgestellt(arXiv preprint arXiv:2405.14458). Es ist auf durchgehende Effizienz und verbesserte Leistung ausgelegt. Die offizielle PyTorch ist auf GitHub verfügbar.

Architektur und Hauptmerkmale

YOLOv10 führt mehrere Neuerungen ein, die sich auf die Straffung der Architektur und die Verbesserung des Gleichgewichts zwischen Geschwindigkeit und Genauigkeit konzentrieren und zu NMS-freiem Training und effizientem Modelldesign führen. Zu den wichtigsten Highlights der Architektur gehören:

  • NMS-freies Training: Verwendet konsistente duale Zuweisungen für das Training ohne Non-Maximum Suppression (NMS) und reduziert so den Nachbearbeitungsaufwand und die Inferenzlatenz.
  • Ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Design: Umfassende Optimierung verschiedener Modellkomponenten zur Minimierung von Rechenredundanz und Verbesserung der Erkennungsmöglichkeiten.
  • Backbone und Netzstruktur: Verfeinerte Merkmalsextraktionsschichten und eine optimierte Netzwerkstruktur für verbesserte Parametereffizienz und schnellere Verarbeitung.

Leistungsmetriken

YOLOv10 bietet modernste Leistung auf verschiedenen Modellskalen und bietet eine Reihe von Optionen für unterschiedliche Berechnungsanforderungen. Zu den Leistungsmetriken für den COCO-Datensatz gehören:

  • mAP: Erzielt eine wettbewerbsfähige durchschnittliche Präzision (mAP) auf dem COCO-Validierungsdatensatz. YOLOv10-S erreicht zum Beispiel 46,7% mAPval50-95.
  • Inferenz-Geschwindigkeit: Bietet beeindruckende Inferenzgeschwindigkeiten: YOLOv10-N erreicht 1,56ms Inferenzzeit auf T4 TensorRT10.
  • Modellgröße: Erhältlich in mehreren Größen (N, S, M, B, L, X) mit einer Modellgröße von 2,3M für YOLOv10-N bis 56,9M für YOLOv10-X.

Stärken und Schwächen

Stärken:

  • Leistung in Echtzeit: Optimiert für Geschwindigkeit und Effizienz, ideal für Echtzeitanwendungen.
  • Hohe Genauigkeit: Erzielt modernste Genauigkeit, insbesondere bei größeren Modellvarianten wie YOLOv10-X.
  • End-to-End-Effizienz: Das NMS-freie Design reduziert die Latenzzeit und vereinfacht die Bereitstellung.
  • Vielseitigkeit: Geeignet für verschiedene Objekterkennungsaufgaben und anpassbar an verschiedene Hardwareplattformen, einschließlich Edge-Geräte wie Raspberry Pi und NVIDIA Jetson.
  • Benutzerfreundlichkeit: Die Integration mit demPython Ultralytics vereinfacht die Schulungs-, Validierungs- und Bereitstellungsabläufe.

Schwachstellen:

  • Aufstrebendes Modell: Da es sich um ein neues Modell handelt, sind die Unterstützung durch die Gemeinschaft und die vortrainierten Gewichte in breiteren Ökosystemen im Vergleich zu etablierteren Modellen möglicherweise noch in der Entwicklung.
  • Kompromiss: Kleinere Modelle haben Vorrang vor Geschwindigkeit, möglicherweise auf Kosten einer gewissen Genauigkeit im Vergleich zu größeren Varianten oder komplexeren Modellen.

Anwendungsfälle

YOLOv10 eignet sich hervorragend für Anwendungen, die eine schnelle und genaue Objekterkennung erfordern, wie z. B.:

Erfahren Sie mehr über YOLOv10

DAMO-YOLO

YOLO, entwickelt von der Alibaba Group, ist ein leistungsstarkes Objekterkennungsmodell, das 2022 vorgestellt wurde(arXiv preprint arXiv:2211.15444v2). Es ist so konzipiert, dass es schnell und genau ist und mehrere fortschrittliche Techniken zur effizienten Objekterkennung enthält. Die offizielle Implementierung und Dokumentation sind auf GitHub verfügbar.

Architektur und Hauptmerkmale

YOLO integriert mehrere innovative Komponenten, um ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu erreichen:

  • NAS-Backbone: Nutzt die neuronale Architektursuche (NAS), um effiziente Backbone-Netzwerke zu entwerfen, die für Objekterkennungsaufgaben optimiert sind.
  • Effizientes RepGFPN: Einsatz eines Reparameterized Gradient Feature Pyramid Network (RepGFPN) zur effizienten Merkmalsfusion und mehrskaligen Merkmalsdarstellung.
  • ZeroHead: Ein leichtgewichtiger Erkennungskopf, der entwickelt wurde, um den Rechenaufwand zu minimieren und gleichzeitig die Erkennungsgenauigkeit beizubehalten.
  • AlignedOTA: Verwendet Aligned Optimal Transport Assignment (AlignedOTA) für eine verbesserte Label-Zuweisung während des Trainings, wodurch die Erkennungsleistung verbessert wird.
  • Destillationsverbesserung: Enthält Techniken zur Wissensdestillation, um die Modellleistung weiter zu steigern.

Leistungsmetriken

Die YOLO Modelle gibt es in verschiedenen Größen (Tiny, Small, Medium, Large), um den unterschiedlichen Leistungsanforderungen gerecht zu werden. Zu den wichtigsten Leistungsindikatoren gehören:

  • mAP: Erzielt hohe mAP-Werte bei Benchmark-Datensätzen wie COCO. YOLO zum Beispiel erreicht 50,8 % mAPval50-95.
  • Inferenz-Geschwindigkeit: Bietet schnelle Inferenzgeschwindigkeiten und ist damit für Echtzeitanwendungen geeignet. YOLO erreicht 2,32ms Inferenzzeit auf T4 TensorRT10.
  • Modellgröße: Die Modellgrößen variieren und bieten Flexibilität für verschiedene Einsatzszenarien. Sie reichen von 8,5 Mio. Parametern für YOLO bis zu 42,1 Mio. für YOLO.

Stärken und Schwächen

Stärken:

  • Hohe Genauigkeit: Erzielt eine hervorragende Erkennungsgenauigkeit durch architektonische Innovationen und fortschrittliche Trainingstechniken.
  • Schnelle Inferenz: Auf Geschwindigkeit ausgelegt, mit einer effizienten Inferenzleistung, die für Echtzeitsysteme geeignet ist.
  • Effizientes Design: NAS-Backbones und leichtgewichtige Köpfe optimieren die Berechnungseffizienz.
  • Umfassendes Feature-Set: Integriert mehrere fortschrittliche Techniken wie RepGFPN und AlignedOTA für robuste Leistung.

Schwachstellen:

  • Komplexität: Die Integration von NAS und mehreren fortschrittlichen Komponenten kann zu einer komplexen Anpassung und Änderung führen.
  • Ressourcenbedarf: Größere YOLO können im Vergleich zu extrem leichtgewichtigen Alternativen erhebliche Rechenressourcen erfordern.

Anwendungsfälle

YOLO eignet sich hervorragend für Anwendungen, die eine hohe Genauigkeit und Geschwindigkeit bei der Objekterkennung erfordern, wie z. B.:

Erfahren Sie mehr über YOLO

Modell Größe
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Die Benutzer könnten auch daran interessiert sein, YOLOv10 und YOLO mit anderen Modellen der Ultralytics YOLO und darüber hinaus zu vergleichen:

📅 Erstellt vor 1 Jahr ✏️ Aktualisiert vor 1 Monat

Kommentare