Zum Inhalt springen

YOLOv10 . YOLOv9: Fortschritte bei der Echtzeit-Objekterkennung

Das Jahr 2024 war geprägt von rasanten Innovationen im Bereich der Objekterkennung, mit der Veröffentlichung von zwei bedeutenden Architekturen: YOLOv10 und YOLOv9. Beide Modelle zielen darauf ab, die Grenzen von Geschwindigkeit und Genauigkeit zu erweitern, erreichen dies jedoch durch grundlegend unterschiedliche Architekturphilosophien.

YOLOv10 darauf, die durch die Nachbearbeitung verursachte Inferenzlatenz durch ein NMS Design zu beseitigen, während YOLOv9 die Informationserhaltung in tiefen Netzwerken unter Verwendung von Programmable Gradient Information (PGI) YOLOv9

Leistungsvergleich

Die folgende Tabelle bietet einen detaillierten Überblick über den Vergleich dieser Modelle anhand von Standard-Benchmarks. Die Daten verdeutlichen die Kompromisse zwischen Parametereffizienz, Inferenzgeschwindigkeit und Erkennungsgenauigkeit (mAP).

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv10: Der End-to-End-Pionier

YOLOv10, entwickelt von Forschern der Tsinghua-Universität, stellt eine Verlagerung hin zur End-to-End-Verarbeitung dar. Es wurde am 23. Mai 2024 von Ao Wang, Hui Chen und Kollegen veröffentlicht und befasst sich mit dem Engpass der Nicht-Maximalunterdrückung (NMS).

Erfahren Sie mehr über YOLOv10

Wesentliche Architekturmerkmale

  • NMS Training: Durch die Verwendung konsistenter doppelter Zuweisungen YOLOv10 NMS der Inferenz überflüssig. Dies reduziert die Latenz und vereinfacht die Bereitstellungspipelines, insbesondere für Edge-Computing-Anwendungen.
  • Ganzheitliches Effizienzdesign: Die Architektur optimiert verschiedene Komponenten, um den Rechenaufwand (FLOPs) zu reduzieren und gleichzeitig eine hohe Leistungsfähigkeit aufrechtzuerhalten.
  • Verbesserte Latenz: Wie in der Tabelle dargestellt, bieten YOLOv10 im Vergleich zu ihren YOLOv9 bei ähnlicher Genauigkeit in der Regel kürzere Inferenzzeiten.

Technische Details finden Sie im YOLOv10 -Artikel.

YOLOv9: Beherrschung des Informationsflusses

YOLOv9, veröffentlicht am 21. Februar 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao von der Academia Sinica, konzentriert sich auf das theoretische Problem des Informationsverlusts in tiefen neuronalen Netzen.

Erfahren Sie mehr über YOLOv9

Wesentliche Architekturmerkmale

  • GELAN-Architektur: Das Generalized Efficient Layer Aggregation Network kombiniert die Stärken von CSPNet und ELAN, um die Parameterauslastung zu maximieren.
  • Programmierbare Gradienteninformationen (PGI): Dieser zusätzliche Überwachungsmechanismus stellt sicher, dass tiefe Schichten wichtige Informationen für eine genaue Erkennung beibehalten, wodurch das Modell für Aufgaben, die eine hohe Präzision erfordern, äußerst effektiv ist.
  • Hohe Genauigkeit: Das YOLOv9e-Modell erreicht einen beeindruckendenmAP-Wert von 55,6 % und übertrifft damit viele zeitgenössische Modelle in Bezug auf die reine Erkennungsgenauigkeit.

Weitere Informationen finden Sie im YOLOv9 -Artikel.

Training und Benutzerfreundlichkeit

Beide Modelle sind vollständig in das Ultralytics integriert und bieten Entwicklern eine einheitliche und nahtlose Erfahrung. Unabhängig davon, ob Sie YOLOv10 YOLOv9 verwenden, abstrahiert die Python die Komplexität von Trainingspipelines, Datenvergrößerung und Protokollierung.

Code-Beispiel

Das Training eines Modells anhand eines benutzerdefinierten Datensatzes oder eines Standard-Benchmarks wie COCO8 unkompliziert. Das Framework gleicht die Unterschiede in der Architektur automatisch aus.

from ultralytics import YOLO

# Load a model (Choose YOLOv10 or YOLOv9)
model = YOLO("yolov10n.pt")  # or "yolov9c.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Speichereffizienz

Ultralytics YOLO sind für eine optimale GPU ausgelegt. Im Vergleich zu transformatorbasierten Architekturen oder älteren Erkennungsmodellen ermöglichen sie größere Batch-Größen auf handelsüblicher Hardware und machen so modernste KI einem breiteren Publikum zugänglich.

Ideale Anwendungsfälle

Die Wahl zwischen YOLOv10 YOLOv9 hängt YOLOv9 von den spezifischen Einschränkungen Ihrer Einsatzumgebung ab.

Wann man YOLOv10 wählen sollte

  • Geringe Latenzzeiten: Wenn Ihre Anwendung auf Mobilgeräten oder eingebetteten Systemen läuft, bei denen jede Millisekunde zählt, YOLOv10 das NMS Design von YOLOv10 einen erheblichen Vorteil.
  • Einfache Bereitstellung: Durch den Wegfall von Nachbearbeitungsschritten wird der Export in Formate wie ONNX oder TensorRTund verringert das Risiko von Inkompatibilitäten zwischen den Operatoren.
  • Echtzeitvideo: Ideal für das Verkehrsmanagement oder Hochgeschwindigkeits-Fertigungslinien, bei denen der Durchsatz entscheidend ist.

Wann man YOLOv9 wählen sollte

  • Maximale Genauigkeit: Für Forschungsanwendungen oder Szenarien, in denen Präzision von größter Bedeutung ist (z. B. medizinische Bildanalyse), liefert die PGI-optimierte Architektur von YOLOv9e hervorragende Ergebnisse.
  • Erkennung kleiner Objekte: Dank der umfassenden Beibehaltung von Merkmalen durch GELAN eignet sich YOLOv9 gut für die Erkennung kleiner oder verdeckter Objekte in Luftbildern.
  • Komplexe Szenen: In Umgebungen mit hoher visueller Unübersichtlichkeit helfen die programmierbaren Gradienteninformationen dem Modell, relevante Merkmale effektiver zu unterscheiden.

Die Zukunft ist da: YOLO26

YOLOv9 YOLOv10 zwar leistungsstarke Tools, doch der Bereich der Bildverarbeitung entwickelt sich rasant weiter. Ultralytics hat Ultralytics YOLO26 veröffentlicht, ein Modell, das die besten Funktionen der Vorgängergenerationen vereint und gleichzeitig bahnbrechende Optimierungen bietet.

Erfahren Sie mehr über YOLO26

YOLO26 ist die empfohlene Wahl für neue Projekte und bietet eine hervorragende Balance zwischen Geschwindigkeit, Genauigkeit und Vielseitigkeit.

Warum auf YOLO26 upgraden?

  • End-to-End NMS: Wie YOLOv10 ist auch YOLO26 von Haus aus End-to-End. Es macht NMS überflüssig und sorgt so für schnellere Inferenz und vereinfachte Bereitstellungspipelines.
  • MuSGD-Optimierer: Inspiriert von Innovationen im Bereich des Trainings großer Sprachmodelle (LLM) (insbesondere Moonshot AI's Kimi K2) nutzt YOLO26 eine Mischung aus SGD dem Muon-Optimierer. Dies führt zu einem deutlich stabileren Training und einer schnelleren Konvergenz.
  • DFL-Entfernung: Durch die Entfernung von Distribution Focal Loss optimiert YOLO26 die Modellarchitektur, wodurch es exportfreundlicher und mit einer größeren Bandbreite an Edge-/Low-Power-Geräten kompatibel wird.
  • Leistungssprung: Durch Optimierungen, die speziell auf CPU ausgerichtet sind, werden Geschwindigkeiten erzielt, die bis zu 43 % schneller sind als bei früheren Generationen, was das Gerät zu einem Kraftpaket für Edge-KI macht.
  • Vielseitigkeit der Aufgaben: Im Gegensatz zu den auf die Erkennung fokussierten Versionen v9 und v10 enthält YOLO26 spezielle Verbesserungen für alle Aufgaben:
    • Segmentierung: Neuer semantischer Segmentierungsverlust und Multi-Scale-Proto.
    • Pose: Residual Log-Likelihood Estimation (RLE) für hochpräzise Schlüsselpunkte.
    • OBB: Spezieller Winkelverlust zur Behandlung von Grenzproblemen bei Oriented Bounding Box -Aufgaben.

Optimierter Arbeitsablauf mit Ultralytics

Entwickler können die Ultralytics (ehemals HUB) nutzen, um den gesamten Lebenszyklus ihrer YOLO26-Modelle zu verwalten. Von der Annotation von Datensätzen über das Training in der Cloud bis hin zur Bereitstellung auf Edge-Geräten bietet die Plattform eine einheitliche Schnittstelle, die die Markteinführungszeit verkürzt.

Fazit

Beide YOLOv10 und YOLOv9 stellen bedeutende Meilensteine in der Geschichte der Objekterkennung dar. YOLOv10 , dass NMS Architekturen eine Leistung auf dem neuesten Stand der Technik erzielen können, während YOLOv9 die Bedeutung des Gradienteninformationsflusses in tiefen Netzwerken YOLOv9 .

Für Entwickler, die nach der robustesten, vielseitigsten und zukunftssichersten Lösung suchen, ist YOLO26 jedoch die erste Wahl. Durch die Kombination eines NMS Designs mit dem revolutionären MuSGD-Optimierer und umfassender Aufgabenunterstützung bietet YOLO26 die beste Leistungsbalance für moderne Computer-Vision-Anwendungen.

  • YOLO11 – Der robuste Vorgänger von YOLO26, bekannt für seine Stabilität.
  • YOLOv8 – Ein vielseitiger Klassiker, der in der Industrie weit verbreitet ist.
  • RT-DETR – Ein transformatorbasierter Echtzeitdetektor.

Kommentare