YOLOv10 YOLOv7: Die Entwicklung der Echtzeit-Objekterkennung
Die rasante Entwicklung der Bildverarbeitung in den letzten Jahren hat zu immer effizienteren Architekturen für Echtzeitanwendungen geführt. Vergleich zwischen YOLOv10 und YOLOv7 zeigt eine entscheidende Übergangsphase in dieser Entwicklung. Während YOLOv7 hochwirksame Trainingsstrategien und eine Skalierung der Architektur YOLOv7 , YOLOv10 die Bereitstellung, indem es die langjährige Abhängigkeit von Non-Maximum Suppression (NMS) beseitigte.
Beide Modelle haben bei ihrer jeweiligen Veröffentlichung die Grenzen der Objekterkennung erweitert, doch das moderne Ultralytics und die Einführung von Modellen der nächsten Generation wie YOLO26 bieten den heutigen KI-Anwendern weitaus überlegene Arbeitsabläufe.
Modellprofile und Herkunft
Das Verständnis der Ursprünge dieser Modelle liefert wertvolle Informationen über ihre architektonischen Gestaltungsentscheidungen und die akademische Forschung, die ihnen zugrunde liegt.
YOLOv10
- Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation: Tsinghua University
- Datum: 23.05.2024
- Arxiv: YOLOv10: Echtzeit-End-to-End-Objekterkennung
- GitHub: THU-MIG/yolov10
- Dokumente: Ultralytics YOLOv10
Erfahren Sie mehr über YOLOv10
YOLOv7
- Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
- Organisation: Institut für Informationswissenschaft, Academia Sinica, Taiwan
- Datum: 06.07.2022
- Arxiv: YOLOv7: Trainierbare Bag-of-Freebies setzt neue Maßstäbe
- GitHub: WongKinYiu/yolov7
- Dokumente: Ultralytics YOLOv7
Architektonische Innovationen
Der YOLOv7
YOLOv7 wurde 2022 veröffentlicht und YOLOv7 stark auf die Optimierung von Gradientenpfaden. Es führte das Extended Efficient Layer Aggregation Network (E-ELAN) ein, das es dem Modell ermöglichte, vielfältigere Merkmale zu lernen, ohne den ursprünglichen Gradientenpfad zu zerstören. Darüber hinaus implementierten die Autoren eine „trainable bag-of-freebies”-Methodik, bei der während des Trainings Reparametrisierungstechniken zum Einsatz kamen, die während der Inferenz weggefiltert werden konnten, um schnelle Ausführungsgeschwindigkeiten aufrechtzuerhalten. Trotz dieser beeindruckenden Optimierungen war YOLOv7 NMS der Nachbearbeitung YOLOv7 stark auf NMS angewiesen, was zu variablen Latenzzeiten bei der Analyse dichter Szenen führte.
YOLOv10
YOLOv10 den NMS direkt YOLOv10 . Durch die Einführung konsistenter doppelter Zuweisungen während des Trainings ermöglichte das Team der Tsinghua-Universität eine NMS End-to-End-Erkennung. Dieser Dual-Head-Ansatz verwendet einen Zweig mit Eins-zu-Viele-Zuweisungen für reichhaltige Überwachungssignale während des Trainings und einen weiteren Zweig mit Eins-zu-Eins-Zuweisungen für NMS Inferenz. Diese architektonische Veränderung gewährleistet eine konsistente, extrem niedrige Inferenzlatenz, die für die Hochgeschwindigkeits-Videoanalyse geeignet ist. Darüber hinaus YOLOv10 ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign, das die in früheren Generationen vorhandene Rechenredundanz beseitigt.
Auswirkungen der Nachbearbeitung
Das Entfernen NMS beschleunigt nicht nur die Inferenz, sondern vereinfacht auch die Bereitstellung auf Edge-KI-Hardware erheblich, wie z. B. KI-Beschleunigern und NPUs, bei denen benutzerdefinierte NMS bekanntermaßen schwer zu kompilieren sind.
Leistungsvergleich
Beim Vergleich der Rohdaten des MS COCO wird der Generationsunterschied deutlich. YOLOv10 einen wesentlich günstigeren Kompromiss zwischen Parametern, Rechenanforderungen und Genauigkeit.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Wie oben zu sehen ist, liefert YOLOv10x einen überlegenen mAP 54,4 % im Vergleich zu YOLOv7x mit 53,1 %, während es etwa 20 % weniger Parameter verwendet. Darüber hinaus bieten die leichtgewichtigen YOLOv10 (Nano und Small) außergewöhnliche TensorRT , was sie für den mobilen Einsatz sehr attraktiv macht.
Der Vorteil des Ultralytics-Ökosystems
Das Studium von Architekturpapieren ist zwar aufschlussreich, doch die moderne Entwicklung im Bereich Computer Vision stützt sich auf robuste, gut gepflegte Frameworks. Die Auswahl eines Ultralytics Modells bietet Entwicklern, die schnell vom Prototyp zur Produktion übergehen möchten, einen enormen Vorteil.
Optimierte Entwicklung
Sowohl YOLOv10 YOLOv7 über dasPython Ultralytics zugänglich. Dies bietet eine beispiellose Benutzerfreundlichkeit, da Tausende von Zeilen Boilerplate-Code durch eine einfache, intuitive API ersetzt werden. Darüber hinaus benötigenYOLO während des Trainings deutlich weniger CUDA als schwerfällige Transformer-Architekturen, was die Verwendung größerer Batch-Größen auf handelsüblicher Hardware ermöglicht.
Unübertroffene Vielseitigkeit
Während ältere Repositorys sich oft ausschließlich auf die Erkennung von Begrenzungsrahmen konzentrieren, unterstützt das integrierte Ultralytics nahtlos eine Vielzahl von Aufgaben. Unabhängig davon, ob Sie Instanzsegmentierung, Posenschätzung oder OBB -Erkennung (Oriented Bounding Box) durchführen, bleibt der Arbeitsablauf identisch.
Code-Beispiel: Konsistente Trainings-Workflows
Der folgende Codeausschnitt veranschaulicht den nahtlosen Trainingsprozess, der automatisch die Datenvergrößerung und die Lernratenplanung übernimmt:
from ultralytics import YOLO
# Load the desired model (YOLOv10, YOLOv7, or the recommended YOLO26)
model = YOLO("yolo26n.pt")
# Train the model effortlessly on your dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Export to ONNX format for rapid deployment
model.export(format="onnx")
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv10 YOLOv7 von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen YOLOv7 .
Wann man YOLOv10 wählen sollte
YOLOv10 eine gute Wahl für:
- NMS Echtzeit-Erkennung: Anwendungen, die von einer durchgängigen Erkennung ohne Non-Maximum Suppression profitieren und die Komplexität der Bereitstellung reduzieren.
- Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellskalen hinweg erfordern.
- Anwendungen mit konsistenter Latenz: Einsatzszenarien, in denen vorhersehbare Inferenzzeiten entscheidend sind, wie beispielsweise Robotik oder autonome Systeme.
Wann man YOLOv7 wählen sollte
YOLOv7 empfohlen für:
- Akademisches Benchmarking: Reproduktion der neuesten Ergebnisse aus dem Jahr 2022 oder Untersuchung der Auswirkungen von E-ELAN und trainierbaren Bag-of-Freebies-Techniken.
- Reparametrisierungsforschung: Untersuchung geplanter reparametrisierter Faltungen und Strategien zur Skalierung zusammengesetzter Modelle.
- Bestehende benutzerdefinierte Pipelines: Projekte mit stark angepassten Pipelines, die auf der spezifischen Architektur YOLOv7 basieren und nicht ohne Weiteres umgestaltet werden können.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Der neue Standard: Vorstellung von YOLO26
Während YOLOv10 im Jahr 2024 einen enormen Fortschritt YOLOv10 , entwickelt sich die Computer-Vision-Landschaft unglaublich schnell weiter. Für alle neuen Entwicklungen empfehlen wir dringend das Modell der neuesten Generation: Ultralytics . Es wurde im Januar 2026 veröffentlicht und stellt den absoluten Höhepunkt der Echtzeit-Vision-KI dar, wobei es sowohl YOLOv7 YOLOv10 deutlich übertrifft.
YOLO26 bietet beispiellose Innovationen, die speziell für moderne Bereitstellungsumgebungen entwickelt wurden:
- End-to-End-Design NMS: Aufbauend auf den Grundlagen von YOLOv10 eliminiert YOLO26 nativ NMS und ermöglicht so einfachere Bereitstellungspipelines und konsistente Hochgeschwindigkeits-Inferenz.
- Bis zu 43 % schnellere CPU : Stark optimiert für Edge-Computing und Geräte ohne dedizierte GPUs, wodurch erhebliche Einsparungen bei den Hardwarekosten erzielt werden.
- DFL-Entfernung: Der Distribution Focal Loss wurde vollständig entfernt, was die Exportlogik radikal vereinfacht und die Kompatibilität mit Edge-Geräten und Mikrocontrollern mit geringem Stromverbrauch erheblich verbessert.
- MuSGD Optimizer: Inspiriert von Moonshot AI's Kimi K2 bringt diese Mischung aus SGD Muon Innovationen im Bereich des Trainings großer Sprachmodelle (LLM) direkt in die Computer Vision und sorgt so für eine unglaublich stabile Trainingsdynamik und schnellere Konvergenz.
- ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen sorgen für deutliche Verbesserungen bei der Erkennung kleiner Objekte, einem Bereich, der seit jeher eine Herausforderung darstellt und für Drohnen, Robotik und die Überwachung von Smart Cities von entscheidender Bedeutung ist.
- Aufgabenspezifische Verbesserungen: YOLO26 ist nicht nur ein Detektor. Es umfasst einen speziellen semantischen Segmentierungsverlust, Residual Log-Likelihood Estimation (RLE) für ultrapräzises Posentracking und spezielle Winkelverlustalgorithmen zur Beseitigung von OBB-Grenzproblemen.
Verwalten von Datensätzen und Schulungen
Entdecken Sie die Ultralytics für ein optimales Erlebnis bei der Verwaltung Ihrer Datensätze, dem Training von YOLO26 und der Bereitstellung von Modellen in der Cloud. Sie bietet eine No-Code-Schnittstelle, die das Python perfekt ergänzt.
Anwendungsfälle in der Praxis
Die Auswahl der richtigen Architektur hängt stark von Ihren Hardware- und Anwendungsbeschränkungen ab.
Wann man YOLOv7 verwenden sollte
YOLOv7 eine zuverlässige Wahl für die Aufrechterhaltung älterer Pipelines, die bereits tief in seine spezifischen tensor integriert sind, oder für die Replikation akademischer Benchmarks aus den Jahren 2022 und 2023. Es liefert hervorragende Leistungen auf High-End-Server-GPUs.
Wann sollte YOLOv10 verwendet werden?
YOLOv10 in Szenarien, die eine strenge, unveränderliche Latenz erfordern. Da es NMS ist, eignet es sich hervorragend für die Zählung von Menschenmengen mit hoher Dichte oder die Erkennung von Fertigungsfehlern, bei denen die Anzahl der Objekte stark schwankt, die Verarbeitungszeit pro Bild jedoch konstant bleiben muss.
Wann YOLO26 verwenden
YOLO26 ist die erste Wahl für jedes Greenfield-Projekt. Von der Bereitstellung hochentwickelter Sicherheitsalarmsysteme auf einem einfachen Raspberry Pi bis hin zum Betrieb umfangreicher cloudbasierter Videoanalysen – dank seiner überragenden CPU und fortschrittlichen Erkennung kleiner Objekte ist es älteren Generationen weit überlegen.
Für Entwickler, die sich für alternative moderne Architekturen interessieren, bieten wir auch umfassende Unterstützung für transformatorbasierte Detektoren wie RT-DETR und bewährte Geräte der vorherigen Generation wie Ultralytics YOLO11.