Zum Inhalt springen

YOLOv10 vs. YOLOv7: Fortschrittliche Architektur der Echtzeit-Objekterkennung

Die Entwicklung der YOLO (You Only Look Once) hat die Grenzen der Computer Vision immer weiter verschoben, indem sie Geschwindigkeit und Genauigkeit für Echtzeitanwendungen in Einklang brachte. Dieser Vergleich befasst sich mit den architektonischen Veränderungen und Leistungsunterschieden zwischen YOLOv10einem hochmodernen Modell, das von Forschern der Tsinghua-Universität entwickelt wurde, und YOLOv7, einem sehr einflussreichen Modell, das von der Academia Sinica entwickelt wurde. Obwohl beide Modelle einen bedeutenden Beitrag im Bereich der Objekterkennung geleistet haben, verwenden sie unterschiedliche Strategien, um ihre Leistungsziele zu erreichen.

Entwicklung von Modellarchitekturen

Der Übergang von YOLOv7 zu YOLOv10 markiert einen Paradigmenwechsel in der Art und Weise, wie neuronale Netze Nachbearbeitung und Merkmalsintegration handhaben.

YOLOv10: Die NMS Revolution

YOLOv10veröffentlicht am 23. Mai 2024 von Ao Wang, Hui Chen und anderen von der Tsinghua Universität, stellt eine bahnbrechende NMS Trainingsstrategie vor. Traditionell verlassen sich Objektdetektoren auf Non-Maximum Suppression (NMS), um doppelte Bounding Boxes herauszufiltern, was zu einem Engpass bei der Inferenzlatenz führen kann.

YOLOv10 nutzt konsistente duale Zuordnungen für NMS Training, wodurch das Modell einzigartige Objektinstanzen direkt vorhersagen kann. In Kombination mit einem ganzheitlichen, auf Effizienz und Genauigkeit ausgerichteten Modelldesign werden verschiedene Komponenten optimiert, darunter der leichtgewichtige Klassifizierungskopf und das räumlich-kanalentkoppelte Downsampling, um Rechenredundanz zu reduzieren.

Erfahren Sie mehr über YOLOv10

YOLOv7: Optimiert für trainierbare Bag-of-Freebies

YOLOv7das am 6. Juli 2022 von Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao von der Academia Sinica veröffentlicht wurde, konzentriert sich auf die Optimierung des Trainingsprozesses ohne Erhöhung der Inferenzkosten. Es wurde das Extended Efficient Layer Aggregation Network (E-ELAN) eingeführt, das die Lernfähigkeit des Netzes durch die Kontrolle des Gradientenpfads verbessert.

YOLOv7 nutzt in hohem Maße "Bag-of-Freebies"-Methoden, die die Genauigkeit während des Trainings verbessern, ohne die Geschwindigkeit der Schlussfolgerungen zu beeinträchtigen, sowie Modellskalierungstechniken, die Parameter effizient zusammensetzen. YOLOv7 ist zwar hocheffektiv, aber aufgrund seiner Abhängigkeit von der traditionellen NMS ist die End-to-End-Latenz oft höher als bei den neueren NMS Architekturen.

Erfahren Sie mehr über YOLOv7

Technischer Leistungsvergleich

Bei der Bewertung dieser Modelle zeigen sich deutliche Muster hinsichtlich der Effizienz und der reinen Erkennungsleistung. YOLOv10 bietet im Allgemeinen eine überlegene Effizienz und erreicht eine ähnliche oder bessere mAP (Mean Average Precision) mit deutlich weniger Parametern und schnelleren Inferenzzeiten im Vergleich zu YOLOv7.

Die nachstehende Tabelle gibt einen Überblick über die wichtigsten Metriken des COCO .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Einblick in die Effizienz

Die Daten zeigen einen entscheidenden Vorteil für YOLOv10 in ressourcenbeschränkten Umgebungen. YOLOv10m erreicht eine nahezu identische Genauigkeit (51,3 % mAP) wie YOLOv7l (51,4 % mAP), aber mit weniger als der Hälfte der Parameter (15,4 Mio. vs. 36,9 Mio.) und deutlich weniger FLOPs (59,1B vs. 104,7B).

Latenzzeit und Durchsatz

Durch den Wegfall des NMS in YOLOv10 wird die Latenzvarianz, die häufig in überfüllten Szenen zu beobachten ist, drastisch reduziert. Bei Anwendungen wie autonomen Fahrzeugen oder Drohnenüberwachung, wo jede Millisekunde zählt, bietet die vorhersehbare Inferenzzeit von YOLOv10 einen sicherheitskritischen Vorteil. YOLOv7 bleibt beim Durchsatz auf High-End-GPUs wettbewerbsfähig, benötigt aber mehr Speicher und Rechenleistung, um vergleichbare Ergebnisse zu erzielen.

Anwendungsfälle und Anwendungen

Die Unterschiede in der Architektur bestimmen die idealen Einsatzszenarien für jedes Modell.

Ideale Szenarien für YOLOv10

  • Edge AI: Aufgrund der geringen Anzahl von Parametern und FLOPs ist YOLOv10 perfekt für Geräte wie den Raspberry Pi oder NVIDIA Jetson geeignet.
  • Videoanalyse in Echtzeit: Die hohe Inferenzgeschwindigkeit unterstützt die Verarbeitung mit hohen FPS für Verkehrsmanagement und Einzelhandelsanalysen.
  • Robotik: Geringere Latenzzeiten führen zu schnelleren Reaktionszeiten bei der Navigation und Manipulation von Robotern.

Ideale Szenarien für YOLOv7

  • Ältere Systeme: Projekte, die bereits in die YOLOv7 integriert sind, können diese als stabil genug erachten, um sie ohne sofortiges Refactoring zu pflegen.
  • Allzweck-Erkennung: Für serverseitige Implementierungen, bei denen VRAM im Überfluss vorhanden ist, bieten die größeren Modelle von YOLOv7 immer noch robuste Erkennungsfunktionen, obwohl sie weniger effizient sind als neuere Alternativen wie YOLO11.

Der Ultralytics

Beide Modelle sind zwar leistungsstark, aber die Nutzung des Ultralytics bietet Entwicklern und Forschern deutliche Vorteile. Das Ultralytics standardisiert die Schnittstelle für Training, Validierung und Einsatz, was den Wechsel zwischen den Modellen und den Leistungsvergleich erheblich erleichtert.

Benutzerfreundlichkeit und Trainingseffizienz

Eines der Haupthindernisse beim Deep Learning ist die Komplexität der Trainingspipelines. Ultralytics , einschließlich YOLOv10 und YOLO11verwenden eine optimierte Python , die die Datenerweiterung, die Abstimmung der Hyperparameter und den Export automatisch durchführt.

  • Einfache API: Trainieren Sie ein Modell in wenigen Codezeilen.
  • Speichereffizienz: Ultralytics führen oft zu einem geringeren CUDA während des Trainings im Vergleich zu Rohimplementierungen.
  • Vorgefertigte Gewichte: Zugang zu qualitativ hochwertigen vortrainierten Modellen auf ImageNet und COCO beschleunigt das Transfer-Lernen.

Vielseitigkeit bei verschiedenen Aufgaben

Moderne Ultralytics gehen über eine einfache Bounding-Box-Erkennung hinaus. Sie unterstützen Instance-Segmentierung, Pose Estimation, Oriented Object Detection (OBB) und Klassifizierung innerhalb desselben Rahmens. Diese Vielseitigkeit ist ein entscheidender Vorteil gegenüber älteren Standalone-Repositories.

Code-Beispiel: Ausführen von YOLOv10 mit Ultralytics

Das folgende Beispiel zeigt, wie einfach es ist, die Ultralytics API zu verwenden, um ein vorab trainiertes YOLOv10 zu laden und die Inferenz auszuführen. Diese Benutzerfreundlichkeit steht im Gegensatz zur eher manuellen Einrichtung, die bei älteren Architekturen wie YOLOv7 oft erforderlich ist.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Fazit und Empfehlung

Für neue Projekte, YOLOv10 oder das noch fortschrittlichere YOLO11 sind die empfohlene Wahl. Die NMS Architektur von YOLOv10 bietet ein hervorragendes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit und ist damit für moderne Edge-Computing-Anforderungen bestens geeignet. Sie behebt die Latenzengpässe früherer Generationen und reduziert gleichzeitig die Rechenleistung.

Obwohl YOLOv7 ein respektierter Meilenstein in der Geschichte der Computer Vision ist, ist seine Architektur nach heutigen Maßstäben weniger effizient. Entwickler, die nach der besten Leistung, langfristiger Wartung und einfacher Bereitstellung suchen, finden im Ultralytics mit seinenkontinuierlichen Updates und der breiten Tool-Unterstützung die produktivste Umgebung für die Entwicklung von KI-Lösungen.

Mehr erforschen


Kommentare