YOLOv7 YOLOv10: Die Entwicklung der Echtzeit-Objekterkennung
Der Bereich der Bildverarbeitung hat in den letzten Jahren bemerkenswerte Fortschritte gemacht, wobei die YOLO You Only Look Once) bei der Echtzeit-Objekterkennung eine Vorreiterrolle einnimmt. Die Auswahl der richtigen Architektur für Ihre Bildverarbeitungsprojekte erfordert ein tiefgreifendes Verständnis der verfügbaren Optionen. In diesem umfassenden technischen Vergleich werden wir die wichtigsten Unterschiede zwischen zwei wegweisenden Architekturen untersuchen: YOLOv7 und YOLOv10.
Einführung in die Modelle
Beide Modelle stellen bedeutende Meilensteine in der Geschichte der künstlichen Intelligenz dar, verfolgen jedoch grundlegend unterschiedliche Ansätze zur Lösung der Herausforderungen der Objekterkennung.
YOLOv7: Der Pionier der Bag-of-Freebies-Methode
YOLOv7 wurde am 6. Juli 2022 von den Forschern Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao vom Institut für Informationswissenschaft der Academia Sinica veröffentlicht und YOLOv7 einem Paradigmenwechsel in der Optimierung neuronaler Netze. Die ursprüngliche Forschung, die in ihrer wissenschaftlichen Arbeit detailliert beschrieben und in ihrem offiziellen GitHub-Repository veröffentlicht wurde, konzentrierte sich stark auf die Neuparametrisierung der Architektur und einen trainierbaren „Bag-of-Freebies”.
YOLOv7 ein erweitertes effizientes Schichtaggregationsnetzwerk (E-ELAN), um das Netzwerk beim Erlernen verschiedener Merkmale anzuleiten, ohne den ursprünglichen Gradientenpfad zu zerstören. Dies macht es zu einer robusten Wahl für akademische Forschungsbenchmarks und Systeme, die stark auf standardmäßige High-End-GPUs angewiesen sind.
YOLOv10: Echtzeit-End-to-End-Erkennung
YOLOv10 von Ao Wang und seinem Team an der Tsinghua-Universität entwickelt und am 23. Mai 2024 veröffentlicht. Wie in der Arxiv-Veröffentlichung und im GitHub-Repository der Tsinghua-Universität ausführlich beschrieben, beseitigt dieses Modell einen seit langem bestehenden Engpass bei der Objekterkennung: die Nicht-Maximalunterdrückung (NMS).
YOLOv10 konsistente doppelte Zuweisungen für NMS Training YOLOv10 und veränderte damit die Nachbearbeitungspipeline grundlegend. Durch den Einsatz einer ganzheitlichen, auf Effizienz und Genauigkeit ausgerichteten Modelldesignstrategie YOLOv10 die Rechenredundanz. Das Ergebnis ist eine Architektur, die speziell auf Edge-Geräte zugeschnitten ist, die eine extrem niedrige Latenz erfordern.
Erfahren Sie mehr über YOLOv10
NMS Architektur
Durch die Entfernung der Nicht-Maximalunterdrückung (NMS) in YOLOv10 das gesamte Modell als ein einziger Berechnungsgraph exportiert werden. Dies vereinfacht die Bereitstellung mithilfe von Laufzeitumgebungen wie TensorRT oder OpenVINO.
Leistung und Metriken im Vergleich
Bei der Analyse der Modellleistung ist es entscheidend, die Kompromisse zwischen Präzision, Geschwindigkeit und Rechenaufwand zu bewerten. Die folgende Tabelle zeigt, wie sich die verschiedenen Größen dieser Modelle im Vergleich zueinander schlagen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Analyse der Kompromisse
Die oben genannten Kennzahlen zeigen eine deutliche Generationskluft. Während YOLOv7x einen sehr starkenmAPval von 53,1 % liefert, benötigt es 71,3 Millionen Parameter und 189,9 Milliarden FLOPs. Im Gegensatz dazu übertrifft YOLOv10l diese Genauigkeit (53,3 % mAP) und benötigt dabei weniger als die Hälfte der Parameter (29,5 Millionen) und deutlich weniger FLOPs (120,3 Milliarden). Darüber hinaus bietet das hochoptimierte YOLOv10n eine erstaunliche Inferenzgeschwindigkeit von 1,56 ms und eignet sich damit ideal für Echtzeit-Videoanalysen und mobile Anwendungen.
Anwendungsfälle in der Praxis
Die architektonischen Unterschiede zwischen diesen Modellen bestimmen ihre optimalen Anwendungsfälle.
Wann sollte YOLOv7 verwendet werden?
Aufgrund seiner reichhaltigen Merkmalsdarstellung YOLOv7 für hochkomplexe Umgebungen. Anwendungsfälle wie die Überwachung des Verkehrsflusses in dicht besiedelten städtischen Gebieten, die Analyse von Satellitenbildern oder die Identifizierung von Fehlern in der Automatisierung der Schwerindustrie profitieren von seiner robusten strukturellen Neuparametrisierung. Es wird auch in Legacy-Umgebungen stark bevorzugt, die bereits tief in bestimmte PyTorch .12-Pipelines integriert sind.
Wann sollte YOLOv10 verwendet werden?
Das NMS, leichtgewichtige Design von YOLOv10 in eingeschränkten Umgebungen. Es wird besonders für Edge-Computing-Geräte wie NVIDIA Nano oder Raspberry Pi empfohlen. Dank seiner geringen Latenz eignet es sich perfekt für schnelllebige Anwendungen wie Sportanalysen, autonome Drohnennavigation und Hochgeschwindigkeits-Robotersortierung auf Förderbändern.
Der Vorteil des Ultralytics-Ökosystems
Beide Modelle haben starke akademische Wurzeln, doch ihr wahres Potenzial entfalten sie erst, wenn sie innerhalb der einheitlichen Ultralytics eingesetzt werden. Die Entwicklung von Computer-Vision-Modellen von Grund auf ist bekanntermaßen schwierig, aber das Ultralytics bietet Machine-Learning-Ingenieuren eine unvergleichliche Erfahrung.
- Benutzerfreundlichkeit: Die Ultralytics Python bietet eine einheitliche Schnittstelle. Mit nur wenigen Zeilen Code können Sie Modelle trainieren, validieren und exportieren, ohne sich mit den komplexen Abhängigkeiten typischer akademischer Repositorys herumschlagen zu müssen.
- Gut gepflegtes Ökosystem: Ultralytics , dass der zugrunde liegende Code aktiv weiterentwickelt wird. Benutzer profitieren von nahtlosen Integrationen mit beliebten ML-Tools wie Weights & Biases für die Protokollierung oder Hugging Face für schnelle Web-Demos.
- Speicheranforderungen: Transformer-basierte Objektdetektoren verbrauchen während des Trainings oft enorme Mengen an CUDA . Im Gegensatz dazu benötigen Ultralytics YOLO weitaus weniger Speicher, was viel größere Batch-Größen auf handelsüblicher Hardware ermöglicht.
- Vielseitigkeit: Die Ultralytics ist nicht auf Standard-Begrenzungsrahmen beschränkt. Sie unterstützt nahtlos Posenschätzung, Instanzsegmentierung und orientierte Begrenzungsrahmen über alle unterstützten Modellfamilien hinweg, wie z. B. YOLO11 und YOLOv8.
Beispiel für ein optimiertes Training
Die Ausführung einer Trainingspipeline mit Ultralytics bemerkenswert einfach. Unabhängig davon, ob Sie die historische Robustheit von YOLOv7 die NMS Geschwindigkeit von YOLOv10 nutzen, bleibt die Syntax konsistent:
from ultralytics import YOLO
# Load the preferred model (e.g., YOLOv10 Nano)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an inference prediction on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# Export to an edge-friendly format like ONNX
model.export(format="onnx")
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv7 YOLOv10 von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen YOLOv10 .
Wann man YOLOv7 wählen sollte
YOLOv7 eine gute Wahl für:
- Akademisches Benchmarking: Reproduktion der neuesten Ergebnisse aus dem Jahr 2022 oder Untersuchung der Auswirkungen von E-ELAN und trainierbaren Bag-of-Freebies-Techniken.
- Reparametrisierungsforschung: Untersuchung geplanter reparametrisierter Faltungen und Strategien zur Skalierung zusammengesetzter Modelle.
- Bestehende benutzerdefinierte Pipelines: Projekte mit stark angepassten Pipelines, die auf der spezifischen Architektur YOLOv7 basieren und nicht ohne Weiteres umgestaltet werden können.
Wann man YOLOv10 wählen sollte
YOLOv10 empfohlen für:
- NMS Echtzeit-Erkennung: Anwendungen, die von einer durchgängigen Erkennung ohne Non-Maximum Suppression profitieren und die Komplexität der Bereitstellung reduzieren.
- Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellskalen hinweg erfordern.
- Anwendungen mit konsistenter Latenz: Einsatzszenarien, in denen vorhersehbare Inferenzzeiten entscheidend sind, wie beispielsweise Robotik oder autonome Systeme.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Die Zukunft: Vorstellung von YOLO26
YOLOv7 YOLOv10 zwar beeindruckende Meilensteine, doch die Grenzen der KI werden ständig erweitert. Ultralytics wurde im Januar 2026 veröffentlicht und ist der unangefochtene neue Standard für Effizienz und Genauigkeit in allen Edge- und Cloud-Bereitstellungsszenarien.
Wenn Sie heute ein neues Computer-Vision-Projekt starten, ist YOLO26 die empfohlene Architektur. Sie baut auf dem Erbe ihrer Vorgänger auf und enthält mehrere bahnbrechende Innovationen:
- End-to-End-Design NMS: Inspiriert von YOLOv10 verzichtet YOLO26 von Haus aus auf NMS und gewährleistet so eine extrem niedrige Latenzzeit für deterministische Echtzeit-Robotik.
- Bis zu 43 % schnellere CPU : Durch die strategische Entfernung des Distribution Focal Loss (DFL)-Moduls beschleunigt YOLO26 die Ausführung aufGPU erheblich und wird so zu einem Kraftpaket für IoT-Geräte.
- MuSGD-Optimierer: Inspiriert von den jüngsten Innovationen im Bereich des Trainings großer Sprachmodelle, integriert YOLO26 eine Mischung aus SGD Muon, wodurch die Trainingspfade stabilisiert und eine schnellere Konvergenz gewährleistet werden.
- ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte und überwinden damit eine historische Schwäche älterer YOLO .
- Unübertroffene Vielseitigkeit: YOLO26 bietet native, aufgabenspezifische Optimierungen wie die Residual Log-Likelihood Estimation (RLE) für die Positionsverfolgung und spezielle Winkelverluste für die präzise OBB-Erkennung in Luftbildern.
Für Ingenieure, die das optimale Gleichgewicht zwischen Geschwindigkeit, Genauigkeit und einfacher Implementierung suchen, bietet der Wechsel von älteren Modellen zu YOLO26 einen unmittelbaren und messbaren Wettbewerbsvorteil.