Zum Inhalt springen

YOLOv5 .YOLO: Ein technischer Einblick in die Entwicklung der Objekterkennung

In der sich rasant entwickelnden Welt der Computervision ist die Wahl des richtigen Objekterkennungsmodells entscheidend für den Erfolg eines Projekts. Dieser Leitfaden vergleicht YOLOv5, das legendäre Repository, das KI zugänglich gemacht hat, und YOLO, eine forschungsorientierte Architektur des TinyVision-Teams von Alibaba. Beide Modelle zielen auf hohe Effizienz ab, gehen das Problem jedoch mit unterschiedlichen Philosophien in Bezug auf Architektur, Benutzerfreundlichkeit und Einsatzbereitschaft an.

Modellübersicht und Ursprünge

YOLOv5

Veröffentlicht Mitte 2020 von Ultralyticsveröffentlicht, YOLOv5 nicht nur aufgrund seiner Architektur, sondern auch aufgrund seiner Technik zum Industriestandard. Es legte den Schwerpunkt auf Benutzerfreundlichkeit, robuste Trainingspipelines und nahtlose Exportierbarkeit. Es ist nach wie vor eines der weltweit am häufigsten eingesetzten Vision-KI-Modelle.

Erfahren Sie mehr über YOLOv5

DAMO-YOLO

YOLO Distillation-Augmented MOdel) wurde Ende 2022 von der Alibaba Group vorgeschlagen und integriert modernste Technologien wie Neural Architecture Search (NAS), effizientes Reparameterized Generalized-FPN (RepGFPN) und eine starke Abhängigkeit von Destillation, um die Leistung zu steigern.

Technischer Architekturvergleich

Die architektonischen Unterschiede zwischen diesen beiden Modellen verdeutlichen den Wandel von heuristischen „Bag-of-Freebies“-Designs hin zu automatisierten, suchbasierten Architekturen.

YOLOv5: Der CSP-Darknet-Standard

YOLOv5 ein modifiziertes CSP-Darknet53-Backbone, das mit einem Path Aggregation Network (PANet) verbunden ist. Seine Hauptstärke liegt in seinem modularen Aufbau und den während des Trainings angewendeten „Bag-of-Freebies“, wie beispielsweise Mosaic Augmentation und genetischer Algorithmus-Hyperparameter-Evolution.

  • Backbone: CSP-Darknet
  • Hals: PANet mit CSP-Blöcken
  • Kopf: YOLOv3-ähnlicher, ankerbasierter gekoppelter Kopf

YOLO: NAS und Destillation

YOLO von herkömmlichen manuellen DesignsYOLO , indem es Neural Architecture Search (NAS) einsetzt, um die optimale Backbone-Struktur (MAE-NAS) zu finden.

  • Backbone: MAE-NAS (suchbasiert)
  • Neck: RepGFPN (Reparameterized Generalized FPN) ermöglicht eine effiziente Merkmalsfusion.
  • Kopf: ZeroHead (Dual-Task-Projektionsschichten) kombiniert mit AlignedOTA für die Labelzuweisung.
  • Destillation: Eine Kernkomponente, bei der ein größeres „Lehrer“-Modell das Training des kleineren „Schüler“-Modells steuert, was die Trainingspipeline komplexer macht, aber die endgültige Genauigkeit verbessert.

Komplexität der Destillation

Die Destillation verbessert zwar die Genauigkeit vonYOLO, erschwert jedoch den Trainingsablauf im Vergleich zu YOLOv5 erheblich. Benutzer müssen häufig zuerst ein Lehrer-Modell trainieren oder herunterladen, was die Einstiegshürde für benutzerdefinierte Datensätze erhöht.

Leistungsmetriken

Die folgende Tabelle vergleicht die Leistung verschiedener Modellskalen im COCO -Datensatz COCO . WährendYOLO bei akademischen Metriken starke ErgebnisseYOLO , YOLOv5 in Bezug auf Durchsatz und Einsatzvielfalt wettbewerbsfähig.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analyse der Ergebnisse

  • Effizienz: YOLOv5n (Nano) bleibt der König der leichtgewichtigen Inferenz mit deutlich geringerer Parameteranzahl (2,6 Mio. gegenüber 8,5 Mio.) und FLOPs im Vergleich zuYOLO, wodurch es für extreme Randfälle auf Standard-CPUs weitaus besser geeignet ist.
  • Genauigkeit:YOLO seine Destillationspipeline, um eine höhere Genauigkeit zu erzielen. mAP aus ähnlichen Parameterzahlen herauszuholen, insbesondere im kleinen und mittleren Bereich.
  • Inferenzgeschwindigkeit: YOLOv5 bietet YOLOv5 CPU schnellere CPU über ONNX , da es über einfachere Architekturblöcke verfügt, die in Standardbibliotheken hochgradig optimiert sind.

Training und Usability

Dies ist das Hauptunterscheidungsmerkmal für Entwickler. Das Ultralytics legt Wert auf eine „Zero-to-Hero”-Erfahrung, während Forschungsrepositorien oft umfangreiche Konfigurationen erfordern.

YOLOv5: Optimierte Benutzererfahrung

YOLOv5 eine benutzerfreundliche Befehlszeilenschnittstelle und Python YOLOv5 , die zum Industriestandard wurden. Das Training mit einem benutzerdefinierten Datensatz erfordert nur minimale Einstellungen.

import torch

# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt

YOLO: Komplexität der Forschung

Das TrainingYOLO erfordertYOLO ein komplexeres Konfigurationssystem. Aufgrund der Abhängigkeit von einem Destillationsplan müssen Benutzer während der Trainingsphase häufig zwei Modelle (Lehrer und Schüler) verwalten, wasden GPU-Speicherbedarf und den Konfigurationsaufwand erhöht.

Ultralytics von Ultralytics : Ökosystem und Vielseitigkeit

WährendYOLO ein leistungsstarker reiner ObjektdetektorYOLO , bietet das Ultralytics eine breitere Palette an Funktionen, die moderne KI-Projekte erfordern.

  1. Vielseitigkeit: Über einfache Begrenzungsrahmen hinaus Ultralytics Instanzsegmentierung, Posenschätzung, Klassifizierung und OBB -Erkennung (Oriented Bounding Box).YOLO in erster Linie auf die Standarderkennung.
  2. Bereitstellung: Ultralytics lassen sich nahtlos in Formate wie TensorRT, CoreML, TFLite und OpenVINO .
  3. Community-Support: Mit Millionen von Nutzern bietet die Ultralytics umfangreiche Ressourcen, Tutorials und Integrationen von Drittanbietern, die Forschungsrepositorien nicht bieten können.

Die nächste Generation: YOLO26

Für Entwickler, die von der Effizienz NAS-basierter Modelle beeindruckt sind, aber die Benutzerfreundlichkeit von YOLOv5 benötigen, ist YOLO26 der empfohlene Nachfolger. Es wurde 2026 veröffentlicht und vereint das Beste aus beiden Welten.

  • End-to-End NMS: Wie aktuelle akademische Durchbrüche verzichtet auch YOLO26 auf Non-Maximum Suppression (NMS) und vereinfacht so die Bereitstellungspipelines.
  • MuSGD-Optimierer: Inspiriert durch LLM-Training sorgt dieser hybride Optimierer für eine stabile Konvergenz.
  • Edge-optimiert: YOLO26 ist auf CPUs bis zu 43 % schneller und damit die bessere Wahl für Edge-Computing als YOLOv5 YOLO.

Erfahren Sie mehr über YOLO26

Fazit

YOLO ist ein hervorragender Beitrag zum Forschungsgebiet der Computervision und demonstriert die Leistungsfähigkeit der neuronalen Architektursuche und -destillation. Es ist eine gute Wahl für Forscher, die sich mit fortschrittlichen Methoden der Architektursuche befassen oder unter bestimmten Hardwarebeschränkungen, bei denen die Komplexität des Trainings kein Engpass darstellt, maximale Genauigkeit erzielen möchten.

YOLOv5und sein moderner Nachfolger YOLO26 sind nach wie vor die bevorzugte Wahl für praktisch alle Produktionsanwendungen. Die Kombination aus geringem Speicherbedarf, umfassender Aufgabenunterstützung (Segmentierung, Pose, OBB) und der robusten Ultralytics sorgt dafür, dass Projekte mit minimalen Reibungsverlusten vom Prototyp zur Produktion gelangen.

Für diejenigen, die absolute Spitzenleistung und Funktionen benötigen, empfehlen wir dringend, sich mit YOLO26 zu befassen, das die von Forschern geschätzte End-to-End-Effizienz mit der für Ultralytics Benutzerfreundlichkeit verbindet.

Weiterführende Informationen


Kommentare