Zum Inhalt springen

YOLO . YOLOv5: Ein tiefer Einblick in die Echtzeit-Objekterkennung

Die Entwicklung der Computervision ist geprägt von kontinuierlichen Innovationen im Bereich der Echtzeit-Objekterkennung. Heute stehen Entwickler und Forscher bei der Konzeption von Vision-Pipelines vor einer Vielzahl von architektonischen Entscheidungen. Dieser umfassende technische Vergleich untersucht die Nuancen zwischen YOLO und Ultralytics YOLOv5und beleuchtet deren jeweilige Architekturen, Trainingsmethoden, Leistungskennzahlen und ideale Einsatzszenarien.

Einführung inYOLO

YOLO wurde von der Alibaba Group veröffentlicht undYOLO mehrere neuartige TechnikenYOLO , die darauf abzielen, die Grenzen der Erkennungsgeschwindigkeit und -genauigkeit zu erweitern.

Erfahren Sie mehr über DAMO-YOLO

Architektonische Innovationen

YOLO auf einer neuronalen Architektursuche (Neural Architecture Search, NAS). Die Autoren verwendeten MAE-NAS, um automatisch Backbones zu entwerfen, die Latenz und Genauigkeit in Einklang bringen. Das Modell führt ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network) ein, das die Merkmalsfusion über verschiedene Skalen hinweg verbessert. Darüber hinausYOLO ein „ZeroHead”-Design, das komplexe Multi-Branch-Vorhersageköpfe zugunsten einer einfacheren, effizienteren Struktur entfernt, die sich bei der Inferenz stark auf die Reparametrisierung stützt.

Um das Training zu verbessern, verwendet das Modell AlignedOTA für die Label-Zuweisung und einen intensiven Destillationsverbesserungsprozess, bei dem ein größeres „Lehrer”-Modell das kleinere „Schüler”-Modell anleitet, um eine höhere Genauigkeit zu erreichen.

Einführung in Ultralytics YOLOv5

Ultralytics YOLOv5 eine der weltweit am häufigsten eingesetzten Bildverarbeitungsarchitekturen und bekannt für ihre Stabilität, Benutzerfreundlichkeit und ihr umfangreiches Einsatzumfeld.

Erfahren Sie mehr über YOLOv5

Der Ökosystemstandard

YOLOv5 den Industriestandard für Benutzerfreundlichkeit YOLOv5 . Nativ in PyTorchintegriert, nutzt es ein hochoptimiertes CSPNet-Backbone und einen PANet-Neck für eine robuste Merkmalsaggregation. Obwohl es dem Trend zu ankerfreien Modellen vorausging, gewährleistet sein hochentwickelter ankerbasierter Ansatz in Verbindung mit automatischem Ankerlernen eine hervorragende Leistung ab dem ersten Einsatz.

Die wahre Stärke von YOLOv5 in seinem gut gepflegten Ökosystem. Es lässt sich nahtlos in Tracking-Tools wie Comet und Weights & Biasesund unterstützt den Export mit einem Klick in Formate wie ONNX, TensorRTund CoreML.

Erste Schritte mit YOLOv5

YOLOv5 unglaublich einfach mit benutzerdefinierten Datensätzen trainieren. Die optimierte API reduziert die Reibungsverluste vom Prototyp bis zur Produktion und macht es zu einem Favoriten unter agilen Entwicklerteams.

Leistung und Metriken im Vergleich

Beim Vergleich dieser Modelle ist es entscheidend, das Gleichgewicht zwischen der mittleren durchschnittlichen Präzision (mAP), der Inferenzgeschwindigkeit und der Parameteranzahl zu betrachten.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Analyse der Kompromisse

YOLO beeindruckende mAP für seine Parametergrößen und profitiert dabei stark von seiner Destillations-Trainingsphase. Dies geht jedoch zu Lasten der Trainingseffizienz. Der mehrstufige Destillationsprozess erfordert zunächst das Training eines umfangreichen Lehrer-Modells, was den erforderlichen GPU und VRAM-Speicherplatz erheblich erhöht.

Umgekehrt YOLOv5 bietet hervorragende Speicheranforderungen. Ultralytics YOLO sind dafür bekannt, dass sie sowohl während des Trainings als auch während der Inferenz weniger Speicher benötigen als komplexe Destillations-Pipelines oder Transformer-basierte Modelle wie RT-DETR. Dadurch kann YOLOv5 effizient auf handelsüblicher Hardware oder in zugänglichen Cloud-Umgebungen wie Google trainiert YOLOv5 .

Praktische Anwendungen und Vielseitigkeit

Die Wahl der richtigen Architektur hängt oft von der Bereitstellungsumgebung ab.

Wo DAMO-YOLO seine Stärken ausspielt

YOLO ausschließlich ein Objekterkennungsmodell. Es eignet sich hervorragend für die akademische Forschung, insbesondere für Teams, die sich mit Neural Architecture Search befassen oder die in der Veröffentlichung beschriebenen Rep-Parametrisierungstechniken reproduzieren möchten. Wenn ein Projekt über umfangreiche Rechenressourcen für die Durchführung der Destillations-Trainingsphase verfügt und sich ausschließlich darauf konzentriert, den letzten Rest an Genauigkeit für 2D-Begrenzungsrahmen herauszuholen,YOLO ein starker Anwärter.

Der Ultralytics Vorteil

Für die reale Produktion sind Ultralytics aufgrund ihrer Benutzerfreundlichkeit und Vielseitigkeit die erste Wahl. Während YOLOv5 ein Standard für die Erkennung und Bildklassifizierung YOLOv5 , ermöglicht das umfassendere Ultralytics Entwicklern einen mühelosen Wechsel zwischen verschiedenen Aufgaben.

Beispielsweise unterstützen neuere Versionen der Ultralytics nativ Instanzsegmentierung, Posenschätzung und OBB-Erkennung (Oriented Bounding Box). Diese Multitasking-Fähigkeit stellt sicher, dass Teams eine einzige, einheitliche Python für komplexe Pipelines nutzen können, beispielsweise für die Kombination von automatischer Kennzeichenerkennung mit Fahrzeugsegmentierung.

Anwendungsfälle und Empfehlungen

Die Wahl zwischenYOLO YOLOv5 von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen YOLOv5 .

Wann DAMO-YOLO wählen?

YOLO eine gute Wahl für:

  • Hochdurchsatz-Videoanalyse: Verarbeitung von Videostreams mit hoher Bildfrequenz aufGPU festenGPU , wobei der Durchsatz von Batch 1 die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU auf dedizierter Hardware, wie z. B. Echtzeit-Qualitätskontrollen an Fertigungslinien.
  • Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen der automatisierten Architektursuche (MAE-NAS) und effizienter reparametrisierter Backbones auf die Erkennungsleistung.

Wann man YOLOv5 wählen sollte

YOLOv5 empfohlen für:

  • Bewährte Produktionssysteme: Bestehende Implementierungen, bei denen track langjährige track , die umfangreiche Dokumentation und die massive Unterstützung durch die Community YOLOv5 geschätzt werden.
  • Ressourcenbeschränktes Training: Umgebungen mit begrenzten GPU , in denen die effiziente Training-Pipeline und der geringere Speicherbedarf YOLOv5 von Vorteil sind.
  • Umfassende Unterstützung von Exportformaten: Projekte, die eine Bereitstellung in vielen Formaten erfordern, einschließlich ONNX, TensorRT, CoreMLund TFLite.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Die Zukunft: Umzug nach YOLO26

YOLOv5 zwar legendär undYOLO interessante akademische Erkenntnisse, doch die Technik hat sich weiterentwickelt. Ultralytics wurde im Januar 2026 veröffentlicht und stellt einen enormen Fortschritt für die Vision-Community dar.

Erfahren Sie mehr über YOLO26

YOLO26 behebt die traditionellen Engpässe bei der Edge-Bereitstellung und der Instabilität des Trainings:

  • End-to-End-Design NMS: YOLO26 macht die Nachbearbeitung mit Non-Maximum Suppression überflüssig. Diese bahnbrechende Neuerung vereinfacht die Einsatzlogik und reduziert die Latenzschwankungen drastisch, wodurch sich das System ideal für Hochgeschwindigkeitsrobotik und autonome Systeme eignet.
  • MuSGD-Optimierer: Inspiriert von Innovationen im Bereich des LLM-Trainings (wie Moonshot AI's Kimi K2) nutzt YOLO26 den MuSGD-Optimierer (eine Mischung aus SGD Muon). Dies gewährleistet äußerst stabile Trainingsläufe und eine deutlich schnellere Konvergenz.
  • Bis zu 43 % schnellere CPU : Durch die strategische Entfernung des Distribution Focal Loss (DFL) erreicht YOLO26 im Vergleich zu seinen Vorgängern wie YOLO11 und YOLOv8.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für die Analyse von Drohnenbildern und IoT-Sensor-Feeds von entscheidender Bedeutung ist.

Code-Beispiel: Einfachheit in Aktion

Ultralytics können Sie Modelle mit nur wenigen Zeilen Code trainieren und bereitstellen. Unabhängig davon, ob Sie YOLOv5 verwenden YOLOv5 auf das empfohlene YOLO26 upgraden, bleibt die Benutzeroberfläche konsistent und intuitiv.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Fazit

SowohlYOLO YOLOv5 einen bedeutenden Beitrag zur Entwicklung der Computer Vision geleistet.YOLO die Leistungsfähigkeit der neuronalen Architektursuche und -destillation und ist damit für Forscher ein interessantes Studienobjekt. Allerdings YOLOv5 bleibt aufgrund seiner Leistungsbalance, geringen Speicheranforderungen und unübertroffenen Benutzerfreundlichkeit ein praktisches Kraftpaket.

Entwicklern, die heute neue Projekte starten, wird empfohlen, die Ultralytics zu nutzen und YOLO26 einzusetzen. Es kombiniert das beliebte benutzerfreundliche Ökosystem von YOLOv5 bahnbrechenden architektonischen Fortschritten und gewährleistet so höchste Genauigkeit und blitzschnelle Inferenz für Cloud- und Edge-KI-Anwendungen. Entwickler sollten auch andere effiziente Modelle wie YOLOv6 oder YOLOX in Betracht ziehen.


Kommentare