YOLOv5 .YOLO: Ein umfassender technischer Vergleich
Die Landschaft der Echtzeit-Computervision entwickelt sich ständig weiter, wobei Forscher und Ingenieure nach dem perfekten Gleichgewicht zwischen Genauigkeit, Geschwindigkeit und Benutzerfreundlichkeit streben. Zwei herausragende Modelle, die diese Entwicklung geprägt haben, sind Ultralytics YOLOv5 und Alibabas YOLO.
Dieser Leitfaden enthält eine detaillierte technische Analyse ihrer Architekturen, Leistungskennzahlen und Trainingsmethoden, um Ihnen bei der Auswahl des richtigen Modells für Ihre nächste Bereitstellung zu helfen.
Modellhintergründe
Bevor wir uns mit den technischen Feinheiten befassen, ist es wichtig, die Ursprünge und grundlegenden Designphilosophien hinter jedem dieser einflussreichen Vision-Modelle zu verstehen.
Ultralytics YOLOv5
YOLOv5 wurde von Glenn Jocher und dem Team von Ultralytics entwickelt und YOLOv5 seit seiner Veröffentlichung zum Industriestandard entwickelt. Es basiert nativ auf dem PyTorch basiert und legt den Schwerpunkt auf eine optimierte Entwicklererfahrung und robuste Bereitstellungsfunktionen, die sofort einsatzbereit sind.
- Autor: Glenn Jocher
- Organisation:Ultralytics
- Datum: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Dokumentation:Ultralytics YOLOv5 Dokumentation
DAMO-YOLO
YOLO wurde von Forschern der Alibaba Group entwickelt undYOLO stark auf Neural Architecture Search (NAS) und fortschrittliche Destillationstechniken. Es erweitert die theoretischen Grenzen der hardwarespezifischen Leistung und eignet sich besonders für Forschungs- und Edge-Umgebungen, die eine extreme Feinabstimmung erfordern.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation:Alibaba Group
- Datum: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Erfahren Sie mehr über DAMO-YOLO
Architektonische Innovationen
Beide Modelle nutzen einzigartige Strukturkonzepte, um ihre Echtzeitleistung zu erzielen, obwohl sich ihre Ansätze erheblich unterscheiden.
YOLOv5: Stabilität und Vielseitigkeit
YOLOv5 ein modifiziertes CSP-Backbone (Cross Stage Partial) in Kombination mit einem PANet-Neck (Path Aggregation Network). Diese Struktur ist äußerst effizient und minimiert CUDA Speicherverbrauch sowohl während des Trainings als auch während der Inferenz.
Eine der größten Stärken YOLOv5 ist seine Vielseitigkeit bei verschiedenen Aufgaben. Über die Vorhersage von Begrenzungsrahmen hinaus bietet es spezielle Architekturen für die Bildsegmentierung und Bildklassifizierung, sodass Entwickler ihre Vision-Pipelines auf der Grundlage eines einzigen, einheitlichen Frameworks standardisieren können.
YOLO: Automatisierte Architektursuche
Die zentrale InnovationYOLO ist sein MAE-NAS-Backbone. Mithilfe einer multiobjektiven evolutionären Suche entdeckte das Alibaba-Team Backbones, die Erkennungsgenauigkeit und Inferenzgeschwindigkeit dynamisch ausbalancieren.
Darüber hinaus verfügt es über den Efficient RepGFPN- Hals für eine verbesserte Merkmalsfusion – sehr vorteilhaft für komplexe Skalenvariationen, wie sie häufig bei der Analyse von Satellitenbildern auftreten. Sein ZeroHead-Design vereinfacht die letzten Vorhersageschichten, um die Latenz zu reduzieren, obwohl diese komplexe Strukturerzeugung die Architektur starr und für benutzerdefinierte Anwendungen schwieriger zu modifizieren machen kann.
Speicheranforderungen
Transformer-basierte Architekturen haben oft mit einem hohen VRAM-Verbrauch zu kämpfen. Sowohl YOLOv5 YOLO effiziente Convolutional-Designs, um den Speicherbedarf gering zu halten, aber Ultralytics sind speziell für Consumer-GPUs optimiert, wodurch sie für unabhängige Forscher und Startups weitaus zugänglicher sind.
Leistung und Kennzahlen
Die Bewertung von Echtzeit-Objektdetektoren erfordert die Betrachtung einer Matrix aus mAP Mean Average Precision), Inferenzgeschwindigkeit und Modellgrößenparametern.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
WährendYOLO bei bestimmten Parameterwerten sehr wettbewerbsfähige mAP YOLO , zeigt YOLOv5 außergewöhnliche TensorRT Geschwindigkeiten und unglaublich niedrige Parameterzahlen für seine Nano- und Small-Konfigurationen. Diese Leistungsbalance gewährleistet, dass YOLOv5 in verschiedenen Edge-Bereitstellungsszenarien effizient YOLOv5 .
Trainingseffizienz und Ökosystem
Die theoretische Genauigkeit eines Modells ist nur so gut wie seine praktische Umsetzbarkeit. Hier unterscheiden sich die Modelle erheblich voneinander.
Die Komplexität der Destillation
YOLO stark auf eine mehrstufige Trainingsmethodik. Es implementiert eine als AlignedOTA bekannte Technik zur Wissensdestillation zwischen Lehrer und Schüler. Diese Technik holt zwar die maximale Leistung aus dem Schülermodell heraus, erfordert jedoch zunächst das Training eines umfangreichen Lehrermodells. Dies erhöht den Rechenaufwand, die Energiekosten und den Hardwarebedarf erheblich und stellt für agile ML-Teams einen Engpass dar.
Ultralytics von Ultralytics : Benutzerfreundlichkeit
Umgekehrt ist das Ultralytics weltweit bekannt für seine intuitiven APIs und seine Trainingseffizienz. Dank aktiver Weiterentwicklung und einer riesigen Open-Source-Community können Entwickler Modelle nahtlos trainieren, validieren und bereitstellen.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")
Ultralytics bietet Ultralytics integrierte Unterstützung für die Nachverfolgung von Experimenten über Tools wie Weights & Biases Comet und sorgt so für einen reibungslosen Arbeitsablauf.
Anwendungsfälle in der Praxis
- YOLOv5 zeichnet sich in schnelllebigen Produktionsumgebungen aus. Dank seiner einfachen Exportierbarkeit ist es die erste Wahl für intelligente Einzelhandelsanalysen, die schnelle Erkennung von Fertigungsfehlern und die Integration in mobile Anwendungen über CoreML.
- YOLO eignet sich hervorragend für strenge akademische Benchmarking-Tests und Szenarien, in denen umfangreiche Rechenressourcen zur Verfügung stehen, um lange, destillierte Trainingsläufe durchzuführen, die darauf abzielen, geringfügige mAP für bestimmte, festgelegte Hardwareziele herauszuholen.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv5 YOLO von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und ÖkosystempräferenzenYOLO .
Wann man YOLOv5 wählen sollte
YOLOv5 eine gute Wahl für:
- Bewährte Produktionssysteme: Bestehende Implementierungen, bei denen track langjährige track , die umfangreiche Dokumentation und die massive Unterstützung durch die Community YOLOv5 geschätzt werden.
- Ressourcenbeschränktes Training: Umgebungen mit begrenzten GPU , in denen die effiziente Training-Pipeline und der geringere Speicherbedarf YOLOv5 von Vorteil sind.
- Umfassende Unterstützung von Exportformaten: Projekte, die eine Bereitstellung in vielen Formaten erfordern, einschließlich ONNX, TensorRT, CoreMLund TFLite.
Wann DAMO-YOLO wählen?
YOLO empfohlen für:
- Hochdurchsatz-Videoanalyse: Verarbeitung von Videostreams mit hoher Bildfrequenz aufGPU festenGPU , wobei der Durchsatz von Batch 1 die primäre Metrik ist.
- Industrielle Fertigungslinien: Szenarien mit strengen GPU auf dedizierter Hardware, wie z. B. Echtzeit-Qualitätskontrollen an Fertigungslinien.
- Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen der automatisierten Architektursuche (MAE-NAS) und effizienter reparametrisierter Backbones auf die Erkennungsleistung.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Die nächste Evolutionsstufe: YOLO26
Wenn Sie ein neues Projekt starten, ist es sehr empfehlenswert, den Blick in die Zukunft zu richten. Ultralytics baut auf der unglaublichen Grundlage von YOLOv5 auf und enthält revolutionäre Weiterentwicklungen, die den Stand der Technik im Bereich der visuellen KI neu definieren.
Warum auf YOLO26 upgraden?
YOLO26 wurde mit großem Erfolg veröffentlicht und ist von Grund auf durchgängig. Es verfügt über ein durchgängiges NMS Design, das die Nachbearbeitung mit Non-Maximum Suppression vollständig überflüssig macht und so eine wesentlich schnellere und einfachere Bereitstellung ermöglicht.
Zu den wichtigsten Neuerungen in YOLO26 gehören:
- MuSGD Optimizer: Inspiriert von Innovationen im Bereich des LLM-Trainings sorgt diese Mischung aus SGD Muon für ein äußerst stabiles Training und eine schnelle Konvergenz.
- Bis zu 43 % schnellere CPU : Stark für Edge-Computing optimiert, wodurch es sich perfekt für IoT-Geräte eignet, die ohne dedizierte GPUs betrieben werden.
- ProgLoss + STAL: Fortschrittliche Verlustfunktionen, die die Erkennung kleiner Objekte drastisch verbessern, was für Luftaufnahmen mit Drohnen und Robotik von entscheidender Bedeutung ist.
- Aufgabenspezifische Verbesserungen: Von spezialisiertem Winkelverlust für Oriented Bounding Boxes (OBB) bis hin zur Residual Log-Likelihood Estimation (RLE) für eine genaue Posenschätzung – YOLO26 bewältigt komplexe Domänen mit Leichtigkeit.
Fazit
Sowohl YOLOv5 YOLO ihren Platz in der Geschichte der Objekterkennung gefestigt.YOLO eine faszinierende Studie im Bereich der neuronalen Architektursuche und -destillation. Für Unternehmen, die Wert auf ein gut gepflegtes Ökosystem, Benutzerfreundlichkeit und einen schnellen Weg zur Produktion legen, sind Ultralytics jedoch nach wie vor unübertroffen.
Wir empfehlen Ihnen dringend, die Ultralytics zu nutzen, um Modelle der nächsten Generation wie YOLO26 zu annotieren, zu trainieren und einzusetzen, damit Ihre Computer-Vision-Pipeline zukunftssicher, schnell und äußerst präzise ist.
Weiterführende Informationen
- Entdecken Sie den transformatorbasierten RT-DETR für hochpräzise Anwendungen.
- Erfahren Sie mehr über die vorherige Generation YOLO11 Modell.
- Entdecken Sie, wie Sie Bereitstellungen mit OpenVINO.