YOLOv5 .YOLO: Ein technischer Einblick in die Entwicklung der Objekterkennung
In der sich rasant entwickelnden Welt der Computervision ist die Wahl des richtigen Objekterkennungsmodells entscheidend für den Erfolg eines Projekts. Dieser Leitfaden vergleicht YOLOv5, das legendäre Repository, das KI zugänglich gemacht hat, und YOLO, eine forschungsorientierte Architektur des TinyVision-Teams von Alibaba. Beide Modelle zielen auf hohe Effizienz ab, gehen das Problem jedoch mit unterschiedlichen Philosophien in Bezug auf Architektur, Benutzerfreundlichkeit und Einsatzbereitschaft an.
Modellübersicht und Ursprünge
YOLOv5
Veröffentlicht Mitte 2020 von Ultralyticsveröffentlicht, YOLOv5 nicht nur aufgrund seiner Architektur, sondern auch aufgrund seiner Technik zum Industriestandard. Es legte den Schwerpunkt auf Benutzerfreundlichkeit, robuste Trainingspipelines und nahtlose Exportierbarkeit. Es ist nach wie vor eines der weltweit am häufigsten eingesetzten Vision-KI-Modelle.
- Autoren: Glenn Jocher
- Organisation:Ultralytics
- Datum: 2020-06-26
- GitHub:ultralytics/yolov5
DAMO-YOLO
YOLO Distillation-Augmented MOdel) wurde Ende 2022 von der Alibaba Group vorgeschlagen und integriert modernste Technologien wie Neural Architecture Search (NAS), effizientes Reparameterized Generalized-FPN (RepGFPN) und eine starke Abhängigkeit von Destillation, um die Leistung zu steigern.
- Autoren: Xianzhe Xu, Yiqi Jiang, et al.
- Organisation: Alibaba Group
- Datum: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Technischer Architekturvergleich
Die architektonischen Unterschiede zwischen diesen beiden Modellen verdeutlichen den Wandel von heuristischen „Bag-of-Freebies“-Designs hin zu automatisierten, suchbasierten Architekturen.
YOLOv5: Der CSP-Darknet-Standard
YOLOv5 ein modifiziertes CSP-Darknet53-Backbone, das mit einem Path Aggregation Network (PANet) verbunden ist. Seine Hauptstärke liegt in seinem modularen Aufbau und den während des Trainings angewendeten „Bag-of-Freebies“, wie beispielsweise Mosaic Augmentation und genetischer Algorithmus-Hyperparameter-Evolution.
- Backbone: CSP-Darknet
- Hals: PANet mit CSP-Blöcken
- Kopf: YOLOv3-ähnlicher, ankerbasierter gekoppelter Kopf
YOLO: NAS und Destillation
YOLO von herkömmlichen manuellen DesignsYOLO , indem es Neural Architecture Search (NAS) einsetzt, um die optimale Backbone-Struktur (MAE-NAS) zu finden.
- Backbone: MAE-NAS (suchbasiert)
- Neck: RepGFPN (Reparameterized Generalized FPN) ermöglicht eine effiziente Merkmalsfusion.
- Kopf: ZeroHead (Dual-Task-Projektionsschichten) kombiniert mit AlignedOTA für die Labelzuweisung.
- Destillation: Eine Kernkomponente, bei der ein größeres „Lehrer“-Modell das Training des kleineren „Schüler“-Modells steuert, was die Trainingspipeline komplexer macht, aber die endgültige Genauigkeit verbessert.
Komplexität der Destillation
Die Destillation verbessert zwar die Genauigkeit vonYOLO, erschwert jedoch den Trainingsablauf im Vergleich zu YOLOv5 erheblich. Benutzer müssen häufig zuerst ein Lehrer-Modell trainieren oder herunterladen, was die Einstiegshürde für benutzerdefinierte Datensätze erhöht.
Leistungsmetriken
Die folgende Tabelle vergleicht die Leistung verschiedener Modellskalen im COCO -Datensatz COCO . WährendYOLO bei akademischen Metriken starke ErgebnisseYOLO , YOLOv5 in Bezug auf Durchsatz und Einsatzvielfalt wettbewerbsfähig.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analyse der Ergebnisse
- Effizienz: YOLOv5n (Nano) bleibt der König der leichtgewichtigen Inferenz mit deutlich geringerer Parameteranzahl (2,6 Mio. gegenüber 8,5 Mio.) und FLOPs im Vergleich zuYOLO, wodurch es für extreme Randfälle auf Standard-CPUs weitaus besser geeignet ist.
- Genauigkeit:YOLO seine Destillationspipeline, um eine höhere Genauigkeit zu erzielen. mAP aus ähnlichen Parameterzahlen herauszuholen, insbesondere im kleinen und mittleren Bereich.
- Inferenzgeschwindigkeit: YOLOv5 bietet YOLOv5 CPU schnellere CPU über ONNX , da es über einfachere Architekturblöcke verfügt, die in Standardbibliotheken hochgradig optimiert sind.
Training und Usability
Dies ist das Hauptunterscheidungsmerkmal für Entwickler. Das Ultralytics legt Wert auf eine „Zero-to-Hero”-Erfahrung, während Forschungsrepositorien oft umfangreiche Konfigurationen erfordern.
YOLOv5: Optimierte Benutzererfahrung
YOLOv5 eine benutzerfreundliche Befehlszeilenschnittstelle und Python YOLOv5 , die zum Industriestandard wurden. Das Training mit einem benutzerdefinierten Datensatz erfordert nur minimale Einstellungen.
import torch
# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt
YOLO: Komplexität der Forschung
Das TrainingYOLO erfordertYOLO ein komplexeres Konfigurationssystem. Aufgrund der Abhängigkeit von einem Destillationsplan müssen Benutzer während der Trainingsphase häufig zwei Modelle (Lehrer und Schüler) verwalten, wasden GPU-Speicherbedarf und den Konfigurationsaufwand erhöht.
Ultralytics von Ultralytics : Ökosystem und Vielseitigkeit
WährendYOLO ein leistungsstarker reiner ObjektdetektorYOLO , bietet das Ultralytics eine breitere Palette an Funktionen, die moderne KI-Projekte erfordern.
- Vielseitigkeit: Über einfache Begrenzungsrahmen hinaus Ultralytics Instanzsegmentierung, Posenschätzung, Klassifizierung und OBB -Erkennung (Oriented Bounding Box).YOLO in erster Linie auf die Standarderkennung.
- Bereitstellung: Ultralytics lassen sich nahtlos in Formate wie TensorRT, CoreML, TFLite und OpenVINO .
- Community-Support: Mit Millionen von Nutzern bietet die Ultralytics umfangreiche Ressourcen, Tutorials und Integrationen von Drittanbietern, die Forschungsrepositorien nicht bieten können.
Die nächste Generation: YOLO26
Für Entwickler, die von der Effizienz NAS-basierter Modelle beeindruckt sind, aber die Benutzerfreundlichkeit von YOLOv5 benötigen, ist YOLO26 der empfohlene Nachfolger. Es wurde 2026 veröffentlicht und vereint das Beste aus beiden Welten.
- End-to-End NMS: Wie aktuelle akademische Durchbrüche verzichtet auch YOLO26 auf Non-Maximum Suppression (NMS) und vereinfacht so die Bereitstellungspipelines.
- MuSGD-Optimierer: Inspiriert durch LLM-Training sorgt dieser hybride Optimierer für eine stabile Konvergenz.
- Edge-optimiert: YOLO26 ist auf CPUs bis zu 43 % schneller und damit die bessere Wahl für Edge-Computing als YOLOv5 YOLO.
Fazit
YOLO ist ein hervorragender Beitrag zum Forschungsgebiet der Computervision und demonstriert die Leistungsfähigkeit der neuronalen Architektursuche und -destillation. Es ist eine gute Wahl für Forscher, die sich mit fortschrittlichen Methoden der Architektursuche befassen oder unter bestimmten Hardwarebeschränkungen, bei denen die Komplexität des Trainings kein Engpass darstellt, maximale Genauigkeit erzielen möchten.
YOLOv5und sein moderner Nachfolger YOLO26 sind nach wie vor die bevorzugte Wahl für praktisch alle Produktionsanwendungen. Die Kombination aus geringem Speicherbedarf, umfassender Aufgabenunterstützung (Segmentierung, Pose, OBB) und der robusten Ultralytics sorgt dafür, dass Projekte mit minimalen Reibungsverlusten vom Prototyp zur Produktion gelangen.
Für diejenigen, die absolute Spitzenleistung und Funktionen benötigen, empfehlen wir dringend, sich mit YOLO26 zu befassen, das die von Forschern geschätzte End-to-End-Effizienz mit der für Ultralytics Benutzerfreundlichkeit verbindet.
Weiterführende Informationen
- Entdecken Sie die neueste YOLO26 -Dokumentation.
- Schauen Sie sich das YOLOv5 -Repository an.
- Erfahren Sie mehr über die Grundlagen der Echtzeit-Objekterkennung.
- Vergleichen Sie andere Modelle wie RT-DETR für transformatorbasierte Lösungen.