YOLOv7 YOLOv10: Vergleich der Architekturen für die Echtzeit-Erkennung
Die Entwicklung von Objekterkennungsmodellen ist geprägt von einem ständigen Streben nach höherer Genauigkeit und geringerer Latenz. Zwei wichtige Meilensteine auf diesem Weg sind YOLOv7, das Mitte 2022 veröffentlicht wurde, und YOLOv10, das Mitte 2024 eingeführt wurde. Beide Architekturen waren zum Zeitpunkt ihrer Veröffentlichung auf dem neuesten Stand der Technik, vertreten jedoch grundlegend unterschiedliche Designphilosophien. YOLOv7 auf die Optimierung des Trainingsprozesses durch einen „Bag-of-Freebies”, während YOLOv10 einen End-to-End-Ansatz YOLOv10 , der die Notwendigkeit einer Nicht-Maximal-Unterdrückung (NMS) beseitigt.
Dieser Leitfaden enthält einen detaillierten technischen Vergleich, der Forschern und Ingenieuren dabei helfen soll, das richtige Tool für ihre Computer-Vision-Projekte auszuwählen. Wir analysieren Architektur, Leistungskennzahlen und Bereitstellungsworkflows und zeigen, warum moderne Iterationen wie YOLOv10– und das neuere YOLO26– oft die bevorzugte Wahl für skalierbare KI-Lösungen sind.
Modellleistungsvergleich
Die folgende Tabelle zeigt die Leistungsunterschiede zwischen den beiden Modellen. YOLOv10 bietet im Vergleich zu YOLOv7 YOLOv10 eine geringere Latenz und eine höhere Effizienz (weniger Parameter und FLOPs), insbesondere bei den kleineren Modellvarianten.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv7: Das Kraftpaket unter den Bag-of-Freebies
Veröffentlicht im Juli 2022, YOLOv7 wurde entwickelt, um den Trainingsprozess zu optimieren, ohne die Inferenzkosten zu erhöhen. Die Autoren führten ein Konzept namens „trainable bag-of-freebies” ein, das sich auf Optimierungsmethoden bezieht, die die Genauigkeit während des Trainings verbessern, aber während der Inferenz verworfen werden, wodurch das Modell schnell bleibt.
Wichtige technische Details:
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation: Institut für Informationswissenschaft, Academia Sinica, Taiwan
- Datum: 2022-07-06
- Links:ArXiv-Artikel | GitHub-Repository
YOLOv7 das Extended Efficient Layer Aggregation Network (E-ELAN)YOLOv7 . Diese Architektur ermöglicht es dem Modell, vielfältigere Merkmale zu lernen, indem es die kürzesten und längsten Gradientenpfade effektiv steuert. Darüber hinaus wurden Modellskalierungstechniken eingesetzt, die Architekturattribute (wie Tiefe und Breite) gleichzeitig modifizieren und so eine optimale Leistung über verschiedene Größen hinweg gewährleisten. Trotz seiner hohen Leistung beim COCO YOLOv7 in erster Linie ein ankerbasierter Detektor, was die Hyperparameter-Optimierung im Vergleich zu modernen ankerfreien Alternativen manchmal erschweren kann.
YOLOv10: Echtzeit-End-to-End-Objekterkennung
Im Mai 2024 von Forschern der Tsinghua-Universität veröffentlicht, YOLOv10 einen bedeutenden Wandel in der YOLO ein, indem es NMS Training einführte.
Wichtige technische Details:
- Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation:Tsinghua University
- Datum: 2024-05-23
- Links:ArXiv-Artikel | GitHub-Repository
YOLOv10 einen seit langem bestehenden Engpass bei der Echtzeiterkennung: die Abhängigkeit von Non-Maximum Suppression (NMS) für die Nachbearbeitung. Durch die Verwendung konsistenter doppelter Zuweisungen YOLOv10 ein End-to-End-Training, wodurch das Modell direkt endgültige Vorhersagen ausgeben kann. Der Wegfall von NMS reduziert die Inferenzlatenz NMS und vereinfacht die Bereitstellungspipelines, insbesondere auf Edge-Geräten, wo der Aufwand für die Nachbearbeitung hoch ist. Darüber hinaus optimiert das ganzheitliche, auf Effizienz und Genauigkeit ausgerichtete Modelldesign verschiedene Komponenten, wie z. B. den leichtgewichtigen Klassifizierungskopf und die räumlich-kanalgetrennte Downsampling-Funktion, um Rechenredundanzen zu reduzieren.
Erfahren Sie mehr über YOLOv10
Kritischer Vergleich: Architektur und Benutzerfreundlichkeit
Obwohl beide Modelle leistungsstark sind, bestimmen ihre Unterschiede in der Architektur ihre idealen Anwendungsfälle.
NMS vs. ankerbasiert
Der entscheidende Unterschied liegt in den Anforderungen an die Nachbearbeitung. YOLOv7 NMS überlappende Begrenzungsrahmen zu filtern. NMS ist zwar effektiv, NMS jedoch eine Latenz, die mit der Anzahl der erkannten Objekte skaliert, wodurch die Vorhersagezeit variabel wird. Im Gegensatz dazu bietet das End-to-End-Design YOLOv10 deterministische Inferenzzeiten, was für sicherheitskritische Echtzeitanwendungen wie autonome Fahrzeuge von entscheidender Bedeutung ist.
Effizienz und Ressourcennutzung
YOLOv10 überragende Effizienz YOLOv10 . Wie aus der Vergleichstabelle hervorgeht, erreicht YOLOv10b eine mit YOLOv7 vergleichbare Genauigkeit, jedoch mit rund 65 % weniger Parametern. Diese drastische Reduzierung der Modellgröße führt zu einem geringeren Speicherverbrauch, wodurch sich YOLOv10 für Umgebungen mit begrenzten Speicherressourcen wie mobile Apps oder IoT-Geräte eignet.
Speichereffizienz
Für Entwickler, die Edge-Geräte anvisieren, YOLOv10 die reduzierte Parameteranzahl von YOLOv10 einen deutlich geringeren RAM-Verbrauch während der Inferenz. Dies ermöglicht die Ausführung größerer Batch-Größen oder Multitasking zusammen mit anderen KI-Modellen auf derselben Hardware.
Training und Ökosystem
Das Ökosystem rund um ein Modell bestimmt dessen Praxistauglichkeit für Entwickler. Hier kommt die Ultralytics zum Tragen. Beide Modelle sind über dasPython zugänglich, das die Benutzererfahrung vereinheitlicht.
- Benutzerfreundlichkeit: Sie können zwischen den Modellen wechseln, indem Sie eine einzige Zeichenfolge ändern (z. B.
model = YOLO("yolov10n.pt")), oder Auto-Modus mit angegebener Auslastungsfraktion ( - Einheitliche Modi: Ultralytics Befehle für Training, Validierung und Export in Formate wie ONNX, TensorRT und CoreML.
- Trainingseffizienz: Ultralytics sind im Vergleich zu rohen PyTorch für eine geringere CUDA optimiert, was größere Batch-Größen auf Verbraucher-GPUs ermöglicht.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 model (swappable with YOLOv7)
model = YOLO("yolov10n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
Die Zukunft: YOLO26
YOLOv7 YOLOv10 zwar hervorragend, aber die Entwicklung in diesem Bereich schreitet schnell voran. Das neu veröffentlichte YOLO26 (Januar 2026) baut auf der NMS Grundlage von YOLOv10 auf, führt YOLOv10 weitere Innovationen für noch mehr Geschwindigkeit und Genauigkeit ein.
- End-to-End NMS: Wie YOLOv10 ist auch YOLO26 von Haus aus End-to-End-fähig und gewährleistet eine deterministische Latenz.
- MuSGD-Optimierer: Inspiriert vom LLM-Training sorgt dieser hybride Optimierer für stabiles Training und schnellere Konvergenz.
- Edge-Optimierung: Durch die Entfernung von Distribution Focal Loss (DFL) ist YOLO26 auf CPU bis zu 43 % schneller und damit die beste Wahl für Edge-Computing.
- Vielseitigkeit: YOLO26 unterstützt alle Aufgaben, einschließlich OBB, Posenschätzung und Segmentierung.
Fazit
Die Wahl zwischen YOLOv7 YOLOv10 von Ihren spezifischen Einschränkungen YOLOv10 .
- Wählen Sie YOLOv7, wenn Sie ältere Systeme warten, die für dessen spezifische Architektur optimiert sind, oder wenn Sie die spezifischen „Bag-of-Freebies”-Funktionen für Forschungszwecke benötigen.
- Wählen Sie YOLOv10 für neue Bereitstellungen, die eine geringe Latenz und hohe Effizienz erfordern. Dank seines NMS Designs und der reduzierten Parameteranzahl eignet es sich ideal für Echtzeit-Edge-Anwendungen.
Für ein optimales Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit empfehlen wir jedoch einen Blick auf das neueste YOLO26. Unterstützt durch die robuste Ultralytics bietet es die zukunftssicherste Lösung für die Entwicklung von Computer Vision.