YOLOv5 . YOLOv9: Ein ausführlicher technischer Vergleich
Die Bereiche Computer Vision und Echtzeit-Objekterkennung haben in den letzten Jahren bemerkenswerte Fortschritte gemacht. Die Wahl zwischen bewährten, praxiserprobten Modellen und neueren Forschungsarchitekturen ist eine häufige Herausforderung für Machine-Learning-Ingenieure. Dieser Leitfaden bietet einen umfassenden technischen Vergleich zwischen zwei sehr einflussreichen Modellen der YOLO : YOLOv5 und YOLOv9.
Unabhängig davon, ob Sie auf eingeschränkten Edge-Geräten bereitstellen, sich mit der Extraktion hochpräziser Merkmale befassen oder komplexe Pipelines zur Objekterkennung entwickeln – es ist entscheidend, die architektonischen Nuancen, Leistungskennzahlen und Unterschiede im Ökosystem dieser Modelle zu verstehen.
Modellübersichten
Bevor wir uns mit den architektonischen Vergleichen befassen, ist es hilfreich, die Ursprünge und Hauptziele der einzelnen Modelle zu verstehen.
Ultralytics YOLOv5
Entwickelt von Glenn Jocher und veröffentlicht von Ultralytics am 26. Juni 2020 veröffentlicht, YOLOv5 einen Paradigmenwechsel in der Art und Weise, wie Entwickler mit Bildverarbeitungsmodellen interagierten. Durch die vollständige Übernahme von PyTorch vollständig zu integrieren, YOLOv5 die komplexen Kompilierungsschritte früherer Darknet-basierter Modelle durch eine intuitive, Python Benutzererfahrung.
- Autor: Glenn Jocher
- Organisation:Ultralytics
- Datum: 2020-06-26
- GitHub:YOLOv5 Repository
- Dokumente:YOLOv5 übersicht
YOLOv5 bekannt für seine Benutzerfreundlichkeit und stabile Leistung in verschiedenen Hardwareumgebungen. Es unterstützt nicht nur die Erkennung, sondern auch die Bildklassifizierung und Instanzsegmentierung.
YOLOv9
YOLOv9 wurde von Chien-Yao Wang und Hong-Yuan Mark Liao vom Institut für Informationswissenschaft der Academia Sinica in Taiwan vorgestellt und YOLOv9 stark auf Architekturtheorie, um Probleme mit Informationsengpässen in tiefen neuronalen Netzen zu mindern.
- Autoren: Chien-Yao Wang und Hong-Yuan Mark Liao
- Organisation: Institute of Information Science, Academia Sinica, Taiwan
- Datum: 2024-02-21
- Arxiv:2402.13616
- GitHub:YOLOv9 Repository
- Dokumentation:YOLOv9 Dokumentation
Der Kern von YOLOv9 auf zwei wichtigen theoretischen Innovationen: Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN). Diese Konzepte helfen dem Modell, wichtige räumliche Merkmale über tiefe Netzwerkschichten hinweg beizubehalten.
Machen Sie Ihre Bereitstellungen zukunftssicher
YOLOv5 YOLOv9 zwar leistungsstark, aber das neu veröffentlichte YOLO26 bietet die ultimative Balance zwischen Geschwindigkeit und Präzision. Mit einem durchgängigen NMS Design und CPU um bis zu 43 % schnelleren CPU ist YOLO26 besonders für moderne Edge-Computing- und Produktionsumgebungen zu empfehlen.
Architektonische und technische Unterschiede
Um die Strategien für die Modellbereitstellung zu optimieren, ist es unerlässlich zu verstehen, welche Kräfte hinter diesen Vision-Modellen wirken.
Merkmalsextraktion und Informationserhaltung
YOLOv5 ein Cross Stage Partial Network (CSPNet)-Backbone, das den Rechenaufwand effektiv reduziert und gleichzeitig einen genauen Gradientenfluss während der Rückpropagation gewährleistet. Dieses Design ist für herkömmliche GPU hochoptimiert und sorgt im Vergleich zu leistungsstarken Transformer-Alternativen für einen geringeren Speicherbedarf während des Trainings.
YOLOv9 GELAN YOLOv9 , eine generische Architektur, die die CSPNet-Prinzipien erweitert. In Verbindung mit PGI – einem reversiblen Hilfszweig –YOLOv9 , dass tiefe Schichten nicht die semantischen Daten verlieren, die für präzise Zielfunktionen erforderlich sind. Dadurch YOLOv9 eine hohe Genauigkeit, insbesondere bei kleineren Objekten, obwohl die komplexe Hilfsverzweigung manchmal die Export-Pipelines zu stark eingeschränkter Edge-Hardware komplizieren kann.
Speicheranforderungen und Trainingseffizienz
In Bezug auf die Trainingseffizienz YOLOv5 unglaublich robust. Das gut gepflegte Ultralytics sorgt dafür, dass YOLOv5 deutlich weniger CUDA verbrauchen, sodass Forscher die Batch-Größen auf handelsüblichen GPUs maximieren können. Während YOLOv9 eine ausgezeichnete Parametereffizienz (hohe Genauigkeit im Verhältnis zu seiner Größe) YOLOv9 , kann sein Trainingsprozess ressourcenintensiver sein, wenn keine optimierten Frameworks verwendet werden. Glücklicherweise bringt die Integration von YOLOv9 die Ultralytics es näher an die Parität mit dem optimierten Ressourcenmanagement YOLOv5.
Leistung und Kennzahlen
Um diese Architekturen objektiv zu bewerten, vergleichen wir ihre Leistung anhand von Standarddatensätzen wie COCO. Nachstehend finden Sie eine detaillierte Aufschlüsselung von Metriken wie mAP Mean Average Precision), Inferenzgeschwindigkeit und Parameteranzahl.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Wie die Tabelle zeigt, YOLOv9 bei gleichwertigen Stufen eine höhere Rohgenauigkeit, was seine neuere Architektur widerspiegelt. YOLOv5n behält jedoch eine unglaublich niedrige TensorRT von 1,12 ms bei, was seine anhaltende Stärke für schnelle, lokalisierte Edge-Computing-Anwendungen unterstreicht.
Schulungsmethoden und Benutzerfreundlichkeit
Der wahre Vorteil der Nutzung von Computer Vision liegt heute in der Zugänglichkeit der Toolchain.
Der Ultralytics Vorteil
Obwohl Original-Forschungsrepositorien für Modelle wie YOLOv9 grundlegend YOLOv9 , sind sie oft mit komplexen Abhängigkeitsmatrizen und Boilerplate-Skripten verbunden. Die Ultralytics Python abstrahiert diese Komplexität vollständig. Mit dem Ultralytics können Sie sowohl YOLOv5 YOLOv9 einer identischen, einheitlichen Syntax trainieren, bewerten und exportieren.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")
Dieser Single-API-Ansatz bietet eine immense Vielseitigkeit und unterstützt je nach gewähltem Modell nicht nur die Erkennung, sondern auch die Posenschätzung und orientierte Begrenzungsrahmen (OBB). Darüber hinaus ermöglicht er eine robuste Integration mit Tools wie Comet und Weights & Biases direkt in den Trainingszyklus integriert.
Ideale Anwendungsfälle und reale Anwendungen
Die Wahl zwischen diesen Architekturen hängt weitgehend von den Einschränkungen Ihrer Hardware und der von Ihrem Anwendungsbereich geforderten Präzision ab.
Wann man YOLOv5 wählen sollte
YOLOv5 ein kampferprobter Veteran, der sich in Einsätzen auszeichnet, bei denen Stabilität, geringer Speicherbedarf und extreme Exportkompatibilität im Vordergrund stehen.
- Mobile Bereitstellungen: Exportieren von YOLOv5 TFLite oder CoreML die Inferenz auf älteren Smartphones ist unglaublich nahtlos.
- Legacy Edge-Hardware: Bei Geräten wie dem Raspberry Pi oder NVIDIA Nanos der ersten Generation YOLOv5 die einfachen Faltungen von YOLOv5 konsistente Bildraten bei Anwendungen wie intelligenten Parkplatzmanagementsystemen.
- Rapid Prototyping: Die umfangreiche Verfügbarkeit von Community-Tutorials, benutzerdefinierten vortrainierten Gewichten und die Kompatibilität mit riesigen Datensätzen machen es zum schnellsten Weg, um einen Proof-of-Concept zu validieren.
Wann man YOLOv9 wählen sollte
YOLOv9 ideal für Szenarien, in denen die Erfassung komplexer Details und die Minimierung von Falsch-Negativen von entscheidender Bedeutung sind, auch wenn dies einen etwas höheren Rechenaufwand erfordert.
- Luft- und Satellitenbilder: Das PGI-Framework ist besonders gut geeignet, um die Genauigkeit kleiner Objekte zu gewährleisten, wodurch sich YOLOv9 für die landwirtschaftliche Überwachung per Drohne eignet.
- Medizinische Bilddiagnostik: Bei der Erkennung kleinster Anomalien oder Läsionen in hochauflösenden Scans bietet der präzise Gradientenfluss von GELAN einen entscheidenden Vorteil bei der Wiedererkennung.
- High-End-Einzelhandelsanalyse: Die Verfolgung sich überschneidender Produkte in dicht bestückten Regalen profitiert erheblich von den überlegenen Funktionen zur Merkmalserhaltung YOLOv9.
Erweitern Sie Ihren Horizont
Der Vergleich YOLOv5 YOLOv9 zwar einen klaren Überblick über die Entwicklung der Architekturen von 2020 bis 2024, doch der Bereich der KI entwickelt sich schneller denn je. Entwicklern, die nach der absoluten Leistungsgrenze suchen, wird dringend empfohlen, sich mit den neuesten YOLO26-Modellen auseinanderzusetzen. Durch den Ersatz der traditionellen Non-Maximum Suppression durch ein natives NMS und die Verwendung des fortschrittlichen MuSGD-Optimierers schließt YOLO26 die Lücke zwischen der Genauigkeit auf Forschungsniveau und der Geschwindigkeit auf Produktionsniveau. Mit DFL Removal (Distribution Focal Loss entfernt für vereinfachten Export und bessere Kompatibilität mit Edge-/Low-Power-Geräten) erreicht YOLO26 CPU um bis zu 43 % schnellere CPU und ist damit ideal für Edge-Computing geeignet. Darüber hinaus bietet ProgLoss + STAL verbesserte Verlustfunktionen mit bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für IoT, Robotik und Luftbildaufnahmen von entscheidender Bedeutung ist.
Vielleicht interessiert es Sie auch, diese Architekturen mit anderen hochmodernen Modellen wie RT-DETR oder dem leistungsstarken YOLO11. Durch die Verwendung des einheitlichen Ultralytics bleibt Ihre Entwicklungspipeline unabhängig von der Wahl des Modells übersichtlich, effizient und skalierbar.