YOLOv9 YOLOv7: Ein technischer Einblick in die moderne Objekterkennung

Die Entwicklung der Echtzeit-Objekterkennung wurde durch das kontinuierliche Bestreben vorangetrieben, ein Gleichgewicht zwischen Recheneffizienz und hoher Genauigkeit zu finden. Zwei wegweisende Architekturen auf diesem Weg sind YOLOv9 YOLOv7, die beide von Forschern des Instituts für Informationswissenschaft der Academia Sinica in Taiwan entwickelt wurden. Während YOLOv7 revolutionäre trainierbare Bag-of-Freebies YOLOv7 , YOLOv9 das neuere YOLOv9 die Engpässe beim Deep Learning direkt YOLOv9 .

Dieser umfassende technische Vergleich untersucht die architektonischen Unterschiede, Leistungskennzahlen und idealen Einsatzszenarien für beide Modelle und hilft ML-Ingenieuren und Forschern dabei, das richtige Tool für ihre Computer-Vision-Pipelines auszuwählen.

Leistung und Metriken im Vergleich

Beim Vergleich dieser Modelle sind die reine Leistung und Effizienz entscheidende Faktoren. Die folgende Tabelle enthält Angaben zur mittleren durchschnittlichen Genauigkeit (mAP) und zu den Rechenanforderungen für Standard COCO .

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Leistungsbalance

Beachten Sie, dass YOLOv9c bei deutlich weniger Parametern (25,3 Millionen gegenüber 71,3 Millionen) und FLOPs ungefähr die gleiche Genauigkeit (53,0 mAP) wie YOLOv7x (53,1 mAP) erreicht. Dies verdeutlicht die Verbesserungen hinsichtlich der Leistungsbalance in modernen Architekturen.

YOLOv9: Lösung des Informationsengpasses

YOLOv9 wurde Anfang 2024 eingeführt und hat die Art und Weise, wie tiefe neuronale Netze Daten über ihre Schichten hinweg speichern, YOLOv9 verändert.

Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica
Datum: 21. Februar 2024
Ressourcen:Arxiv-Papier | GitHub-Repository

Architekturinnovationen

YOLOv9 das Generalized Efficient Layer Aggregation Network (GELAN) und Programmable Gradient Information (PGI) YOLOv9 . GELAN kombiniert die Stärken von CSPNet und ELAN, um die Parametereffizienz und die Rechenkosten zu optimieren und so eine hohe Präzision bei einer geringeren Parameteranzahl zu gewährleisten. PGI ist ein zusätzliches Überwachungsframework, das Datenverluste in tiefen Netzwerken verhindern soll und zuverlässige Gradienten für die Aktualisierung der Gewichte während des Trainingsprozesses generiert.

Stärken und Einschränkungen

Die größte Stärke von YOLOv9 seine Fähigkeit, subtile Merkmale ohne großen Rechenaufwand zu extrahieren, wodurch es sich hervorragend für Aufgaben eignet, die eine hohe Merkmalsgenauigkeit erfordern, wie beispielsweise die Analyse medizinischer Bilder. Allerdings kann die komplexe PGI-Struktur während des Trainings für Anfänger die Anpassung der Architektur im Vergleich zu einheitlicheren Frameworks erschweren.

Erfahren Sie mehr über YOLOv9

YOLOv7: Der Pionier der Bag-of-Freebies-Methode

YOLOv7 wurde 2022 veröffentlicht und YOLOv7 neue Maßstäbe für die Möglichkeiten von Verbraucherhardware, indem es strukturelle Innovationen einführte, die die Echtzeit-Inferenzgeschwindigkeiten erheblich steigerten.

Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica
Datum: 6. Juli 2022
Ressourcen:Arxiv-Papier | GitHub-Repository

Architekturinnovationen

Der wichtigste Beitrag YOLOv7 ist das Extended Efficient Layer Aggregation Network (E-ELAN). Diese Architektur ermöglicht es dem Modell, kontinuierlich vielfältigere Merkmale zu lernen. Darüber hinaus YOLOv7 „trainable bag-of-freebies“ – Techniken wie geplante reparametrisierte Faltungen und dynamische Labelzuweisung. Diese Methoden verbessern die Genauigkeit des Modells während des Trainings, ohne die Inferenzkosten während der Bereitstellung zu erhöhen.

Stärken und Einschränkungen

YOLOv7 für die Echtzeit-Edge-Verarbeitung hochoptimiert und bleibt ein fester Bestandteil in Legacy-Systemen und älteren CUDA . Seine größte Einschränkung ist derzeit die im Vergleich zu neueren Modellen größere Parametergröße. Wie in der Leistungstabelle dargestellt, erfordert das Erreichen einer Spitzenpräzision das schwergewichtige YOLOv7x-Modell, das wesentlich mehr GPU benötigt als vergleichbare moderne Architekturen.

Erfahren Sie mehr über YOLOv7

Ultralytics von Ultralytics : Optimierte Bereitstellung

Während die ursprünglichen Forschungsrepositorien für YOLOv9 YOLOv7 eine hervorragende akademische Grundlage YOLOv7 , kann die Bereitstellung dieser Modelle in Produktionsumgebungen komplex sein. Die Integration über die ultralytics Das Paket bietet unvergleichliche Vorteile. Benutzerfreundlichkeit.

Durch die Nutzung der integrierten Ultralytics Platform profitieren Entwickler von einem gut gepflegten Ökosystem, das eine intuitive Python API, aktiven Community-Support und robustes Experiment-Tracking bietet.

Zukunftssicherheit mit YOLO26

Wenn Sie ein neues Computer-Vision-Projekt starten, empfehlen wir Ihnen dringend, sich mit dem neu veröffentlichten YOLO26 anstelle von YOLOv9 YOLOv7 zu verwenden. YOLO26 wurde als neuer Stand der Technik veröffentlicht und bietet bahnbrechende Fortschritte:

End-to-End NMS-freies Design: Eliminiert die Non-Maximum Suppression Nachbearbeitung, wodurch die Bereitstellungskomplexität und Latenz drastisch reduziert werden.
Bis zu 43 % schnellere CPU-Inferenz: Optimiert für Edge-Computing-Umgebungen, was einen reibungslosen Betrieb Ihrer Anwendung auch ohne dedizierte GPUs gewährleistet.
MuSGD-Optimierer: Ein Hybrid-Optimierer, inspiriert vom LLM-Training, der eine hochstabile Konvergenz liefert und die Trainingszeit reduziert.
DFL-Entfernung: Vereinfachter Modell-Export durch Entfernung des Distribution Focal Loss, wodurch die Kompatibilität mit stromsparenden Mobilgeräten verbessert wird.
ProgLoss + STAL: Verbessert die Leistung bei der detect von kleinen Objekten drastisch, was es zur ersten Wahl für Luftbildaufnahmen und Überwachung macht.

Weitere beliebte Alternativen innerhalb des Ökosystems sind Ultralytics YOLOv8 und YOLO11, die beide eine enorme Vielseitigkeit bei Aufgaben wie Instanzsegmentierung und Posenschätzung bieten.

Implementierungsbeispiel

Das Trainieren und Exportieren dieser Architekturen ist dank der einheitlichen API unglaublich einfach. Der folgende Code veranschaulicht die optimierte Trainingseffizienz der Ultralytics .

from ultralytics import YOLO

# Initialize YOLOv9 or the recommended YOLO26 model
model = YOLO("yolov9c.pt")  # Swap with "yolo26n.pt" for faster edge performance

# Train on a custom dataset with built-in data augmentation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Speicheranforderungen

Beim Training auf handelsüblicher Hardware ist die Speichereffizienz von entscheidender Bedeutung. Ultralytics von YOLOv9 YOLO26 sind stark optimiert, um VRAM-Spitzen zu reduzieren, im Gegensatz zu transformatorbasierten Modellen (wie RT-DETR), die während des Trainings häufig unter starker Speicherüberlastung leiden.

Anwendungen in der Praxis und ideale Anwendungsfälle

Die Wahl zwischen diesen Architekturen läuft oft auf die spezifischen Einschränkungen Ihrer Produktionsumgebung hinaus.

Wann YOLOv9 verwenden: YOLOv9 zeichnet sich in Umgebungen aus, in denen die Beibehaltung kleinster Details erforderlich ist. Seine robuste Merkmalsextraktion macht es ideal für Einzelhandelsanalysen, um dicht gepackte Produkte in Regalen zu zählen, oder für landwirtschaftliche Anwendungen, bei denen die Identifizierung von Pflanzenkrankheiten im Frühstadium auf kleinen Blättern entscheidend ist.

Wann YOLOv7 verwenden: YOLOv7 bleibt ein starker Kandidat für ältere Bereitstellungspipelines. Wenn Sie in ältere Hardwaresysteme (wie bestimmte Generationen des Google Coral Edge TPU) integrieren, kann die unkomplizierte CNN-Architektur von YOLOv7 einfacher zu kompilieren sein als die komplexeren Gradientenverzweigungen neuerer Modelle.

Wann YOLO26 verwenden (Empfohlen): Für jede moderne Bereitstellung – von autonomen Drohnen bis zum Smart-City-Verkehrsmanagement – ist YOLO26 die überlegene Wahl. Seine NMS-freie Architektur garantiert deterministische Inferenzzeiten, was für sicherheitskritische Robotik unerlässlich ist, während seine hohe Präzision sowohl YOLOv9 als auch YOLOv7 durchweg übertrifft.

YOLOv9 YOLOv7: Ein technischer Einblick in die moderne Objekterkennung

Leistung und Metriken im Vergleich

YOLOv9: Lösung des Informationsengpasses

Architekturinnovationen

Stärken und Einschränkungen

YOLOv7: Der Pionier der Bag-of-Freebies-Methode

Architekturinnovationen

Stärken und Einschränkungen

Ultralytics von Ultralytics : Optimierte Bereitstellung

Zukunftssicherheit mit YOLO26

Implementierungsbeispiel

Anwendungen in der Praxis und ideale Anwendungsfälle

Kommentare