Zum Inhalt springen

YOLOv9 YOLO10: Ein technischer Einblick in die Entwicklung der Objekterkennung

Die Landschaft der Echtzeit-Objekterkennung hat sich rasant weiterentwickelt, und im Jahr 2024 wurden zwei bedeutende Architekturen veröffentlicht: YOLOv9 und YOLOv10. Beide Modelle zielen darauf ab, die Grenzen der Genauigkeit und Effizienz zu erweitern, erreichen dies jedoch durch grundlegend unterschiedliche Architekturphilosophien. YOLOv9 auf die Maximierung der Informationsspeicherung tief im Netzwerk, während YOLOv10 die Bereitstellungspipeline YOLOv10 , indem es die Notwendigkeit der Nicht-Maximalunterdrückung (NMS) beseitigt.

Dieser Leitfaden enthält einen umfassenden technischen Vergleich, der Forschern und Ingenieuren dabei hilft, das richtige Tool für ihre spezifischen Computer-Vision-Anwendungen auszuwählen.

YOLOv9: Programmierbare Gradienteninformation

YOLOv9 wurde im Februar 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao (dem Team hinter YOLOv4 und YOLOv7) veröffentlicht und YOLOv9 dem Problem des „Informationsengpasses”, das tiefen neuronalen Netzen innewohnt. Während die Daten aufeinanderfolgende Schichten durchlaufen, gehen häufig Eingabedaten verloren, wodurch die Fähigkeit des Modells, bestimmte Merkmale zu lernen, beeinträchtigt wird.

Um dem entgegenzuwirken, YOLOv9 PGI (Programmable Gradient Information) und die GELAN-Architektur (Generalized Efficient Layer Aggregation Network) YOLOv9 . PGI bietet einen zusätzlichen Überwachungszweig, der sicherstellt, dass der Hauptzweig während des Trainings wichtige Informationen behält, während GELAN die Parameternutzung für eine bessere Gradientenpfadplanung optimiert.

Erfahren Sie mehr über YOLOv9

YOLOv10: Echtzeit-End-to-End-Erkennung

YOLOv10 wurde kurz darauf im Mai 2024 von Forschern der Tsinghua-Universität veröffentlicht und YOLOv10 einen bedeutenden Wandel im YOLO . In der Vergangenheit stützten sich YOLO auf NMS , um überlappende Begrenzungsrahmen zu filtern. YOLOv10 eine konsistente Doppelzuweisungsstrategie während des Trainings YOLOv10 – mit einer Eins-zu-Viele-Zuweisung für eine umfassende Überwachung und einer Eins-zu-Eins-Zuweisung für die Inferenz –, wodurch das Modell von Haus aus NMS wird.

Diese architektonische Änderung reduziert die Inferenzlatenz und vereinfacht die Bereitstellungspipelines, was sie besonders attraktiv für Edge-Computing macht, wo CPU kostbar sind.

Erfahren Sie mehr über YOLOv10

Leistungsvergleich

Beim Vergleich dieser beiden Architekturen betrachten wir die Kompromisse zwischen der reinen Erkennungsfähigkeit (mAP) und der Inferenz-Effizienz (Latenz und FLOPs).

Metrikanalyse

Die folgende Tabelle zeigt die Leistungskennzahlen für den COCO . Während YOLOv9e bei komplexen Aufgaben eine überlegene Genauigkeit aufweist, bieten YOLOv10 aufgrund der Beseitigung des NMS im Allgemeinen eine geringere Latenz.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Wichtige Erkenntnisse

  1. Latenz vs. Genauigkeit: YOLOv10n erreicht einen höheren mAP 39,5 %) als YOLOv9t (38,3 %) und läuft dabei deutlich schneller auf GPU (1,56 ms gegenüber 2,3 ms). Dadurch eignet sich die v10-Architektur besonders gut für den Einsatz in kleinem Maßstab.
  2. Höchste Präzision: In Forschungsszenarien, in denen jeder Prozentpunkt Genauigkeit zählt, bleibt YOLOv9e mit 55,6 % mAP ein Kraftpaket, das seine programmierbaren Gradienteninformationen nutzt, um subtile Merkmale zu extrahieren, die andere Modelle möglicherweise übersehen.
  3. Effizienz: YOLOv10 durch seine FLOPs-Effizienz YOLOv10 . YOLOv10 benötigt nur 21,6 G FLOPs im Vergleich zu 26,4 G bei YOLOv9, was zu einem geringeren Stromverbrauch bei batteriebetriebenen Geräten führt.

Hardware-Überlegungen

Wenn Sie auf CPUs (wie Intel ) oder spezialisierter Edge-Hardware (Raspberry Pi, Jetson) bereitstellen, führt das NMS Design YOLOv10 in der Regel zu einer reibungsloseren Pipeline, da es die nicht deterministische Verarbeitungszeit der Nachbearbeitungsschritte eliminiert.

Training und Ökosystem

Einer der größten Vorteile der Verwendung Ultralytics ist das einheitliche Ökosystem. Unabhängig davon, ob Sie sich für YOLOv9 YOLOv10 entscheiden, bleiben die Workflows für Training, Validierung und Export identisch. Diese Konsistenz reduziert die Lernkurve für Entwickler erheblich.

Der Ultralytics Vorteil

  • Benutzerfreundlichkeit: Eine einfache Python ermöglicht es Ihnen, Architekturen durch Ändern einer einzigen Zeichenfolge auszutauschen (z. B. von yolov9c.pt zu yolov10m.pt), oder Auto-Modus mit angegebener Auslastungsfraktion (
  • Gut gepflegtes Ökosystem: Ultralytics regelmäßige Updates und gewährleistet so die Kompatibilität mit den neuesten PyTorch -Versionen und CUDA gewährleistet.
  • Speicheranforderungen: Im Gegensatz zu vielen transformatorbasierten Modellen, die unter Speicherüberlastung leiden, sind Ultralytics für GPU optimiert. Dies ermöglicht größere Batch-Größen auf handelsüblicher Hardware.

Trainingsbeispiel

Das Training beider Modelle anhand eines benutzerdefinierten Datensatzes ist unkompliziert. Das Framework übernimmt automatisch die Datenvergrößerung, das Caching und die Protokollierung von Metriken.

from ultralytics import YOLO

# Load a model (Swap "yolov10n.pt" for "yolov9c.pt" to switch architectures)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
model.val()

# Export to ONNX for deployment
model.export(format="onnx")

Ideale Anwendungsfälle

Wann man YOLOv9 wählen sollte

YOLOv9 die bevorzugte Wahl für Szenarien, die eine hohe Merkmalsgenauigkeit erfordern. Seine GELAN-Architektur ist robust gegenüber Informationsverlusten und eignet sich daher ideal für:

  • Medizinische Bildgebung: Erkennung kleiner Tumore oder Anomalien, bei denen das Fehlen eines Merkmals entscheidend ist. Lesen Sie unseren Leitfaden zu KI im Gesundheitswesen.
  • Erkennung kleiner Objekte: Szenarien mit Luftbildern oder Fernüberwachung, in denen Objekte nur sehr wenige Pixel einnehmen.
  • Forschungsgrundlagen: Beim Benchmarking mit modernsten Architekturen aus dem Frühjahr 2024.

Wann man YOLOv10 wählen sollte

YOLOv10 im Hinblick auf Geschwindigkeit und einfache Bereitstellung entwickelt. Durch den Wegfall von NMS es ein starker Anwärter für:

  • Edge Computing: Läuft auf Geräten wie dem Raspberry Pi oder Mobiltelefonen, bei denen CPU durch die Nachbearbeitung zu Engpässen führt.
  • Echtzeit-Robotik: Anwendungen, die konsistente Rückkopplungsschleifen mit geringer Latenz erfordern, wie beispielsweise die autonome Navigation.
  • Komplexe Pipelines: Systeme, bei denen die Ausgabe des Detektors in Tracking-Algorithmen eingespeist wird; die NMS Ausgabe vereinfacht die Logik für nachgelagerte Aufgaben.

Ausblick: Die Leistungsfähigkeit von YOLO26

YOLOv9 YOLOv10 zwar hervorragende Modelle, doch die KI-Branche entwickelt sich rasant weiter. Für neue Projekte, die 2026 starten, empfehlen wir dringend, YOLO26 zu evaluieren.

YOLO26 wurde im Januar 2026 veröffentlicht und baut auf dem NMS Durchbruch von YOLOv10 auf, führt YOLOv10 bedeutende architektonische Verbesserungen ein:

  1. End-to-End NMS: Wie v10 ist auch YOLO26 von Haus aus End-to-End, jedoch mit weiteren Optimierungen des Erkennungskopfes für noch höhere Genauigkeit.
  2. MuSGD-Optimierer: Als Hybrid aus SGD Muon (inspiriert durch LLM-Training) bringt dieser Optimierer die Trainingsstabilität großer Sprachmodelle in die Computer Vision und sorgt so für eine schnellere Konvergenz.
  3. DFL-Entfernung: Durch die Entfernung von Distribution Focal Loss vereinfacht YOLO26 den Exportgraphen, wodurch die Bereitstellung auf Geräten mit eingeschränkter NPU-Leistung erheblich vereinfacht wird.
  4. ProgLoss + STAL: Neue Verlustfunktionen, die speziell auf die Verbesserung der Erkennung kleiner Objekte abgestimmt sind und eine häufige Schwäche von Echtzeitdetektoren beheben.
  5. Leistung: YOLO26 wurde speziell für Edge-Computing optimiert und bietet im Vergleich zu früheren Generationen CPU um bis zu 43 % schnellere CPU .

Erfahren Sie mehr über YOLO26

Darüber hinaus ist YOLO26 nicht nur ein Detektor, sondern umfasst auch spezielle Verbesserungen für die Posenschätzung (unter Verwendung von RLE), die Instanzsegmentierung und OBB- Aufgaben (Oriented Bounding Box), was es zum vielseitigsten Werkzeug im Ultralytics macht.

Fazit

Sowohl YOLOv9 YOLOv10 bedeutende Fortschritte im Bereich der Bildverarbeitung YOLOv10 . YOLOv9 , dass tiefe Netzwerke ohne Informationsverlust effizienter gestaltet werden können, während YOLOv10 , dass die jahrzehntelange Abhängigkeit von NMS überwunden werden NMS .

Für Entwickler hängt die Wahl heute weitgehend von Ihren Einsatzbedingungen ab. Wenn Sie höchste Genauigkeit bei schwierigen Daten benötigen, ist YOLOv9e eine gute Wahl. Wenn Latenz und einfache Implementierung im Vordergrund stehen, YOLOv10 hervorragend YOLOv10 . Für die beste Balance zwischen Geschwindigkeit, Genauigkeit und zukunftssicheren Funktionen ist YOLO26 jedoch die derzeitige Empfehlung für Nutzer Ultralytics .


Kommentare