Zum Inhalt springen

YOLOv10 YOLOv7: Die Entwicklung der Echtzeit-Objekterkennung

Die rasante Entwicklung der Bildverarbeitung in den letzten Jahren hat zu immer effizienteren Architekturen für Echtzeitanwendungen geführt. Vergleich zwischen YOLOv10 und YOLOv7 zeigt eine entscheidende Übergangsphase in dieser Entwicklung. Während YOLOv7 hochwirksame Trainingsstrategien und eine Skalierung der Architektur YOLOv7 , YOLOv10 die Bereitstellung, indem es die langjährige Abhängigkeit von Non-Maximum Suppression (NMS) beseitigte.

Beide Modelle haben bei ihrer jeweiligen Veröffentlichung die Grenzen der Objekterkennung verschoben, doch das moderne Ultralytics-Ökosystem und die Einführung von Modellen der nächsten Generation wie YOLO26 bieten weitaus überlegenere Workflows für die heutigen KI-Praktiker.

Modellprofile und Herkunft

Das Verständnis der Ursprünge dieser Modelle liefert wertvolle Informationen über ihre architektonischen Gestaltungsentscheidungen und die akademische Forschung, die ihnen zugrunde liegt.

YOLOv10

Erfahren Sie mehr über YOLOv10

YOLOv7

Erfahren Sie mehr über YOLOv7

Architektonische Innovationen

Der YOLOv7

YOLOv7 wurde 2022 veröffentlicht und YOLOv7 stark auf die Optimierung von Gradientenpfaden. Es führte das Extended Efficient Layer Aggregation Network (E-ELAN) ein, das es dem Modell ermöglichte, vielfältigere Merkmale zu lernen, ohne den ursprünglichen Gradientenpfad zu zerstören. Darüber hinaus implementierten die Autoren eine „trainable bag-of-freebies”-Methodik, bei der während des Trainings Reparametrisierungstechniken zum Einsatz kamen, die während der Inferenz weggefiltert werden konnten, um schnelle Ausführungsgeschwindigkeiten aufrechtzuerhalten. Trotz dieser beeindruckenden Optimierungen war YOLOv7 NMS der Nachbearbeitung YOLOv7 stark auf NMS angewiesen, was zu variablen Latenzzeiten bei der Analyse dichter Szenen führte.

YOLOv10

YOLOv10 den NMS direkt YOLOv10 . Durch die Einführung konsistenter doppelter Zuweisungen während des Trainings ermöglichte das Team der Tsinghua-Universität eine NMS End-to-End-Erkennung. Dieser Dual-Head-Ansatz verwendet einen Zweig mit Eins-zu-Viele-Zuweisungen für reichhaltige Überwachungssignale während des Trainings und einen weiteren Zweig mit Eins-zu-Eins-Zuweisungen für NMS Inferenz. Diese architektonische Veränderung gewährleistet eine konsistente, extrem niedrige Inferenzlatenz, die für die Hochgeschwindigkeits-Videoanalyse geeignet ist. Darüber hinaus YOLOv10 ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign, das die in früheren Generationen vorhandene Rechenredundanz beseitigt.

Auswirkungen der Nachbearbeitung

Das Entfernen NMS beschleunigt nicht nur die Inferenz, sondern vereinfacht auch die Bereitstellung auf Edge-KI-Hardware erheblich, wie z. B. KI-Beschleunigern und NPUs, bei denen benutzerdefinierte NMS bekanntermaßen schwer zu kompilieren sind.

Leistungsvergleich

Beim Vergleich der Rohdaten des MS COCO wird der Generationsunterschied deutlich. YOLOv10 einen wesentlich günstigeren Kompromiss zwischen Parametern, Rechenanforderungen und Genauigkeit.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Wie oben gezeigt, liefert YOLOv10x einen überlegenen mAP von 54,4 % im Vergleich zu YOLOv7x's 53,1 %, wobei es etwa 20 % weniger Parameter verwendet. Darüber hinaus bieten die leichtgewichtigen YOLOv10-Modelle (Nano und Small) außergewöhnliche TensorRT-Bereitstellungsgeschwindigkeiten, was sie für den mobilen Einsatz äußerst attraktiv macht.

Der Vorteil des Ultralytics-Ökosystems

Das Studium von Architekturpapieren ist zwar aufschlussreich, doch die moderne Entwicklung im Bereich Computer Vision stützt sich auf robuste, gut gepflegte Frameworks. Die Auswahl eines Ultralytics Modells bietet Entwicklern, die schnell vom Prototyp zur Produktion übergehen möchten, einen enormen Vorteil.

Optimierte Entwicklung

Sowohl YOLOv10 als auch YOLOv7 sind über das Standard-Ultralytics Python-Paket zugänglich. Dies bietet eine unvergleichliche Benutzerfreundlichkeit, indem Tausende von Zeilen Boilerplate-Code durch eine einfache, intuitive API ersetzt werden. Darüber hinaus benötigen Ultralytics YOLO-Modelle während des Trainings deutlich weniger CUDA-Speicher im Vergleich zu schweren Transformer-Architekturen, was die Verwendung größerer Batch-Größen auf Consumer-Hardware ermöglicht.

Unübertroffene Vielseitigkeit

Während ältere Repositorys sich oft ausschließlich auf die Erkennung von Begrenzungsrahmen konzentrieren, unterstützt das integrierte Ultralytics nahtlos eine Vielzahl von Aufgaben. Unabhängig davon, ob Sie Instanzsegmentierung, Posenschätzung oder OBB -Erkennung (Oriented Bounding Box) durchführen, bleibt der Arbeitsablauf identisch.

Codebeispiel: Konsistente Trainings-Workflows

Der folgende Codeausschnitt veranschaulicht den nahtlosen Trainingsprozess, der automatisch die Datenvergrößerung und die Lernratenplanung übernimmt:

from ultralytics import YOLO

# Load the desired model (YOLOv10, YOLOv7, or the recommended YOLO26)
model = YOLO("yolo26n.pt")

# Train the model effortlessly on your dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Export to ONNX format for rapid deployment
model.export(format="onnx")

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOv10 und YOLOv7 hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.

Wann man YOLOv10 wählen sollte

YOLOv10 eine gute Wahl für:

  • NMS-freie Echtzeit-detect: Anwendungen, die von einer End-to-End-detect ohne Non-Maximum Suppression profitieren und die Bereitstellungskomplexität reduzieren.
  • Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und detect-Genauigkeit über verschiedene Modellskalen hinweg erfordern.
  • Anwendungen mit konsistenter Latenz: Bereitstellungsszenarien, in denen vorhersehbare Inferenzzeiten kritisch sind, wie z. B. Robotik oder autonome Systeme.

Wann man YOLOv7 wählen sollte

YOLOv7 empfohlen für:

  • Akademisches Benchmarking: Reproduktion von State-of-the-Art-Ergebnissen aus dem Jahr 2022 oder Untersuchung der Auswirkungen von E-ELAN und trainierbaren Bag-of-Freebies-Techniken.
  • Reparameterisierungsforschung: Untersuchung geplanter reparameterisierter Faltungen und zusammengesetzter Modellskalierungsstrategien.
  • Bestehende benutzerdefinierte Pipelines: Projekte mit stark angepassten Pipelines, die um die spezifische Architektur von YOLOv7 herum aufgebaut sind und nicht einfach refaktoriert werden können.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
  • Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.

Der neue Standard: Vorstellung von YOLO26

Während YOLOv10 im Jahr 2024 einen enormen Fortschritt YOLOv10 , entwickelt sich die Computer-Vision-Landschaft unglaublich schnell weiter. Für alle neuen Entwicklungen empfehlen wir dringend das Modell der neuesten Generation: Ultralytics . Es wurde im Januar 2026 veröffentlicht und stellt den absoluten Höhepunkt der Echtzeit-Vision-KI dar, wobei es sowohl YOLOv7 YOLOv10 deutlich übertrifft.

Erfahren Sie mehr über YOLO26

YOLO26 bietet beispiellose Innovationen, die speziell für moderne Bereitstellungsumgebungen entwickelt wurden:

  • End-to-End NMS-freies Design: Aufbauend auf der von YOLOv10 gelegten Grundlage eliminiert YOLO26 nativ die NMS-Nachbearbeitung für einfachere Bereitstellungspipelines und konsistente Hochgeschwindigkeitsinferenzen.
  • Bis zu 43 % schnellere CPU-Inferenz: Stark optimiert für Edge Computing und Geräte ohne dedizierte GPUs, was enorme Einsparungen bei den Hardwarekosten ermöglicht.
  • DFL-Entfernung: Der Distribution Focal Loss wurde vollständig entfernt, was die Exportlogik radikal vereinfacht und die Kompatibilität mit stromsparenden Edge-Geräten und Mikrocontrollern erheblich verbessert.
  • MuSGD-Optimierer: Inspiriert von Moonshot AIs Kimi K2, bringt dieser Hybrid aus SGD und Muon Large Language Model (LLM)-Trainingsinnovationen direkt in die Computer Vision, was zu einer unglaublich stabilen Trainingsdynamik und schnelleren Konvergenz führt.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen liefern bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, ein historisch herausfordernder Bereich, der für Drohnen, Robotik und Smart-City-Überwachung entscheidend ist.
  • Task-Specific Improvements: YOLO26 ist nicht nur ein Detektor. Es umfasst spezialisierte semantische segment loss, Residual Log-Likelihood Estimation (RLE) für ultrapräzises Pose track und spezialisierte Winkelfunktionsalgorithmen zur Eliminierung von OBB Grenzproblemen.

Verwalten von Datensätzen und Schulungen

Entdecken Sie die Ultralytics für ein optimales Erlebnis bei der Verwaltung Ihrer Datensätze, dem Training von YOLO26 und der Bereitstellung von Modellen in der Cloud. Sie bietet eine No-Code-Schnittstelle, die das Python perfekt ergänzt.

Anwendungsfälle in der Praxis

Die Auswahl der richtigen Architektur hängt stark von Ihren Hardware- und Anwendungsbeschränkungen ab.

Wann man YOLOv7 verwenden sollte

YOLOv7 eine zuverlässige Wahl für die Aufrechterhaltung älterer Pipelines, die bereits tief in seine spezifischen tensor integriert sind, oder für die Replikation akademischer Benchmarks aus den Jahren 2022 und 2023. Es liefert hervorragende Leistungen auf High-End-Server-GPUs.

Wann sollte YOLOv10 verwendet werden?

YOLOv10 in Szenarien, die eine strenge, unveränderliche Latenz erfordern. Da es NMS ist, eignet es sich hervorragend für die Zählung von Menschenmengen mit hoher Dichte oder die Erkennung von Fertigungsfehlern, bei denen die Anzahl der Objekte stark schwankt, die Verarbeitungszeit pro Bild jedoch konstant bleiben muss.

Wann YOLO26 verwenden

YOLO26 ist die erste Wahl für jedes Greenfield-Projekt. Von der Bereitstellung hochentwickelter Sicherheitsalarmsysteme auf einem einfachen Raspberry Pi bis hin zum Betrieb umfangreicher cloudbasierter Videoanalysen – dank seiner überragenden CPU und fortschrittlichen Erkennung kleiner Objekte ist es älteren Generationen weit überlegen.

Für Entwickler, die sich für alternative moderne Architekturen interessieren, bieten wir auch umfassende Unterstützung für transformatorbasierte Detektoren wie RT-DETR und bewährte Geräte der vorherigen Generation wie Ultralytics YOLO11.


Kommentare