YOLOv10 vs. YOLOv7: Ein detaillierter technischer Vergleich
Die Wahl des richtigen Objekterkennungsmodells ist entscheidend für Computer-Vision-Projekte und beeinflusst Leistung, Geschwindigkeit und Ressourcennutzung. Diese Seite bietet einen technischen Vergleich zwischen YOLOv10 und YOLOv7, zwei bedeutenden Modellen der You Only Look Once (YOLO)-Familie, um Ihnen bei der Auswahl des besten Modells für Ihre Bedürfnisse zu helfen. Wir werden uns mit ihren Architekturen, Leistungskennzahlen und idealen Anwendungsfällen befassen.
YOLOv10
YOLOv10, vorgestellt im Mai 2024 von Forschern der Tsinghua University, stellt einen bedeutenden Fortschritt in der Echtzeit-Objekterkennung dar. Seine primäre Innovation ist das Erreichen einer End-to-End-Objekterkennung durch den Wegfall der Notwendigkeit von Non-Maximum Suppression (NMS) während der Inferenz. Dieser Durchbruch reduziert den Rechenaufwand und senkt die Inferenzlatenz, wodurch die Bereitstellung effizienter wird.
Technische Details:
- Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation: Tsinghua University
- Datum: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Doku: https://docs.ultralytics.com/models/yolov10/
Architektur und Hauptmerkmale
YOLOv10 führt mehrere architektonische Innovationen ein, die darauf abzielen, das Verhältnis von Geschwindigkeit und Genauigkeit zu optimieren:
- NMS-Free Training: Durch die Verwendung konsistenter Dual-Zuweisungen für die Labelzuweisung vermeidet YOLOv10 redundante Vorhersagen und macht den NMS-Postprocessing-Schritt überflüssig. Dies vereinfacht die Deployment-Pipeline und macht das Modell wirklich End-to-End.
- Ganzheitliches Design für Effizienz und Genauigkeit: Die Modellarchitektur wurde ganzheitlich auf Effizienz und Leistung optimiert. Dies beinhaltet die Einführung eines schlanken Klassifikationskopfes und die Verwendung von räumlich-kanalentkoppeltem Downsampling, um die Rechenredundanz zu reduzieren und gleichzeitig die Modellfähigkeiten zu verbessern.
- Anchor-Free Ansatz: Wie andere moderne YOLO-Modelle verwendet es ein Anchor-Free Detektor-Design, das den Erkennungskopf vereinfacht und die Verallgemeinerung verbessert.
- Nahtlose Ultralytics-Integration: YOLOv10 ist vollständig in das Ultralytics-Ökosystem integriert und profitiert von einer optimierten Benutzererfahrung mit einer einfachen Python API und leistungsstarken CLI-Befehlen. Dies macht das Training, die Validierung und die Bereitstellung außergewöhnlich einfach.
Stärken
- Modernste Effizienz: Das NMS-freie Design und die architektonischen Optimierungen führen zu schnelleren Inferenzgeschwindigkeiten und einer deutlich geringeren Latenz, was für Echtzeitanwendungen entscheidend ist.
- Competitive Accuracy: YOLOv10 behält eine hohe Genauigkeit bei und reduziert gleichzeitig die Modellgröße und die Rechenkosten im Vergleich zu seinen Vorgängern drastisch.
- Simplified Deployment: Der Wegfall von NMS schafft eine echte End-to-End-Detektionspipeline, die die Bereitstellung erleichtert, insbesondere auf Edge-Geräten.
- Exzellente Skalierbarkeit: Bietet eine Reihe von Modellen von Nano (N) bis Extra-Large (X) und erfüllt damit unterschiedliche Leistungsanforderungen, von ressourcenbeschränkter Edge-Hardware bis hin zu leistungsstarken Cloud-Servern.
Schwächen
- Neueres Modell: Da es sich um eine neue Version handelt, ist die Unterstützung durch die Community und die Anzahl der Integrationen von Drittanbietern möglicherweise weniger umfangreich als bei etablierteren Modellen wie YOLOv7 oder Ultralytics YOLOv8.
Erfahren Sie mehr über YOLOv10
YOLOv7
YOLOv7, veröffentlicht im Juli 2022, setzte mit seinem bemerkenswerten Gleichgewicht zwischen Geschwindigkeit und Genauigkeit schnell einen neuen Standard für die Objektdetektion. Es wurde von Forschern am Institute of Information Science, Academia Sinica, entwickelt und führte mehrere architektonische Verbesserungen und Trainingsstrategien ein, die als „trainierbare Bag-of-Freebies“ bekannt sind, um die Leistung zu steigern, ohne die Inferenzkosten zu erhöhen.
Technische Details:
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation: Institute of Information Science, Academia Sinica, Taiwan
- Datum: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Doku: https://docs.ultralytics.com/models/yolov7/
Architektur und Hauptmerkmale
Die Architektur von YOLOv7 umfasst mehrere wichtige Verbesserungen, die zum Zeitpunkt ihrer Veröffentlichung die Grenzen der Echtzeit-Objektdetektion verschoben haben:
- Extended Efficient Layer Aggregation Networks (E-ELAN): Diese fortschrittliche Netzwerkstruktur verbessert die Fähigkeit des Modells, vielfältige Merkmale zu erlernen und gleichzeitig einen effizienten Gradientenfluss aufrechtzuerhalten, was zu einer besseren Genauigkeit und schnelleren Konvergenz führt.
- Modellskalierung für Konkatenierungsbasierte Modelle: YOLOv7 führte Compound-Skalierungsmethoden ein, die die Modelltiefe und -breite intelligent anpassen, um die Leistung über verschiedene Rechenbudgets hinweg zu optimieren.
- Trainable Bag-of-Freebies: Nutzt fortgeschrittene Trainingstechniken, wie z.B. die Verwendung eines Auxiliary Head mit Coarse-to-Fine Guidance, um die Genauigkeit zu verbessern, ohne den Overhead während der Inferenz zu erhöhen.
Stärken
- Hohe mAP: Bietet eine ausgezeichnete Objekterkennungsgenauigkeit, was es zu einer guten Wahl für Anwendungen macht, bei denen Präzision von größter Bedeutung ist.
- Schnelle Inferenz: Bietet konkurrenzfähige Inferenzgeschwindigkeiten, die für viele Echtzeitaufgaben geeignet sind, insbesondere auf GPU-Hardware.
- Gut etabliert: Da YOLOv7 schon länger verfügbar ist, profitiert es von einer größeren Community-Basis, mehr Tutorials und einer breiteren Akzeptanz in verschiedenen Projekten.
Schwächen
- NMS-Abhängigkeit: Im Gegensatz zu YOLOv10 ist YOLOv7 auf den NMS-Nachbearbeitungsschritt angewiesen, was die gesamte Inferenzlatenz erhöht und die Deployment-Pipeline verkompliziert.
- Weniger effizient: Im Vergleich zu YOLOv10 haben YOLOv7-Modelle im Allgemeinen mehr Parameter und höhere FLOPs für ein ähnliches Genauigkeitsniveau, was sie weniger effizient macht.
Leistungsvergleich: YOLOv10 vs YOLOv7
Beim Vergleich der Leistung zeigt YOLOv10 einen deutlichen Vorteil in Bezug auf die Effizienz. Der direkteste Vergleich besteht zwischen YOLOv10-M und YOLOv7-L. Wie in der folgenden Tabelle dargestellt, erreicht YOLOv10-M eine nahezu identische mAPval von 51,3 % im Vergleich zu 51,4 % von YOLOv7-L. YOLOv10-M ist jedoch deutlich effizienter: Es ist schneller (5,48 ms vs. 6,84 ms auf TensorRT), hat weniger als die Hälfte der Parameter (15,4 Millionen vs. 36,9 Millionen) und benötigt weitaus weniger Rechenressourcen (59,1 Milliarden FLOPs vs. 104,7 Milliarden FLOPs). Dies unterstreicht das überlegene architektonische Design von YOLOv10, das eine vergleichbare Genauigkeit mit viel höherer Effizienz liefert.
Modell | Größe (Pixel) |
mAPval 50-95 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4 TensorRT10 (ms) |
Parameter (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Fazit
Sowohl YOLOv10 als auch YOLOv7 sind leistungsstarke Objekterkennungsmodelle, aber YOLOv10 stellt den nächsten Schritt in der Echtzeit-Erkennungseffizienz dar. Seine NMS-freie Architektur bietet eine echte End-to-End-Lösung, die schneller, schlanker und einfacher zu implementieren ist, ohne die Genauigkeit zu beeinträchtigen. Für neue Projekte, insbesondere solche, die auf Edge AI abzielen oder minimale Latenz erfordern, ist YOLOv10 die empfohlene Wahl.
Obwohl YOLOv7 immer noch ein fähiges Modell ist, machen seine Abhängigkeit von NMS und seine weniger effiziente Architektur es zu einer besseren Wahl für Legacy-Projekte oder Szenarien, in denen seine umfangreichen Community-Ressourcen eine vorrangige Rolle spielen. Für Entwickler, die die beste Leistung, Benutzerfreundlichkeit und ein umfassendes Ökosystem suchen, bieten Ultralytics-Modelle wie YOLOv10 eine überlegene Erfahrung. Die Integration mit Ultralytics HUB vereinfacht das Training und die Bereitstellung zusätzlich und macht fortschrittliche Computer Vision zugänglicher denn je.
Andere Modelle entdecken
Für weitere Erkundungen sollten Sie diese anderen hochmodernen Modelle in der Ultralytics-Dokumentation in Betracht ziehen:
- Ultralytics YOLOv8: Ein äußerst vielseitiges Modell, das sich in verschiedenen Vision-Aufgaben auszeichnet, darunter Erkennung, Segmentierung und Pose-Schätzung.
- YOLOv9: Führt Innovationen wie Programmable Gradient Information (PGI) ein, um den Informationsverlust in tiefen Netzen zu beheben.
- YOLO11: Das neueste offizielle Ultralytics-Modell, das hochmoderne Leistung, Multi-Task-Unterstützung und beispiellose Benutzerfreundlichkeit bietet.