YOLOv5 .YOLO: Ein umfassender technischer Vergleich
Die Landschaft der Echtzeit-Computervision entwickelt sich ständig weiter, wobei Forscher und Ingenieure nach dem perfekten Gleichgewicht zwischen Genauigkeit, Geschwindigkeit und Benutzerfreundlichkeit streben. Zwei herausragende Modelle, die diese Entwicklung geprägt haben, sind Ultralytics YOLOv5 und Alibabas YOLO.
Dieser Leitfaden enthält eine detaillierte technische Analyse ihrer Architekturen, Leistungskennzahlen und Trainingsmethoden, um Ihnen bei der Auswahl des richtigen Modells für Ihre nächste Bereitstellung zu helfen.
Modellhintergründe
Bevor man sich mit den technischen Nuancen befasst, ist es wichtig, die Ursprünge und primären Designphilosophien hinter jedem dieser einflussreichen Vision-Modelle zu verstehen.
Ultralytics YOLOv5
Entwickelt von Glenn Jocher und dem Team bei Ultralytics, hat sich YOLOv5 seit seiner Veröffentlichung zu einem Industriestandard entwickelt. Nativ auf dem PyTorch-Framework aufgebaut, priorisierte es von Anfang an eine optimierte Entwicklererfahrung und robuste Bereitstellungsfunktionen.
- Autor: Glenn Jocher
- Organisation:Ultralytics
- Datum: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Dokumentation:Ultralytics YOLOv5 Dokumentation
DAMO-YOLO
Von Forschern der Alibaba Group entwickelt, konzentriert sich DAMO-YOLO stark auf die Neural Architecture Search (NAS) und fortschrittliche Destillationstechniken. Es verschiebt die theoretischen Grenzen der hardwarespezifischen Leistung und richtet sich stark an Forschungs- und Edge-Umgebungen, die eine extreme Abstimmung erfordern.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation:Alibaba Group
- Datum: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Erfahren Sie mehr über DAMO-YOLO
Architektonische Innovationen
Beide Modelle nutzen einzigartige strukturelle Konzepte, um ihre Echtzeit-Leistung zu erzielen, obwohl sich ihre Ansätze erheblich unterscheiden.
YOLOv5: Stabilität und Vielseitigkeit
YOLOv5 ein modifiziertes CSP-Backbone (Cross Stage Partial) in Kombination mit einem PANet-Neck (Path Aggregation Network). Diese Struktur ist äußerst effizient und minimiert CUDA Speicherverbrauch sowohl während des Trainings als auch während der Inferenz.
Eine der größten Stärken YOLOv5 ist seine Vielseitigkeit bei verschiedenen Aufgaben. Über die Vorhersage von Begrenzungsrahmen hinaus bietet es spezielle Architekturen für die Bildsegmentierung und Bildklassifizierung, sodass Entwickler ihre Vision-Pipelines auf der Grundlage eines einzigen, einheitlichen Frameworks standardisieren können.
DAMO-YOLO: Automatisierte Architektursuche
Die Kerninnovation von DAMO-YOLO ist sein MAE-NAS Backbone. Mithilfe einer multikriteriellen evolutionären Suche entdeckte das Alibaba-Team Backbones, die Erkennungsgenauigkeit und Inferenzgeschwindigkeit dynamisch ausbalancieren.
Zusätzlich verfügt es über den Efficient RepGFPN-Neck zur verbesserten Merkmalsfusion – äußerst vorteilhaft für komplexe Skalenvariationen, die häufig in der Satellitenbildanalyse auftreten. Sein ZeroHead-Design vereinfacht die finalen Vorhersageschichten, um die Latenz zu reduzieren, obwohl diese komplexe strukturelle Generierung die Architektur starr und schwieriger für kundenspezifische Anwendungen modifizierbar machen kann.
Speicheranforderungen
Transformer-basierte Architekturen haben oft mit einem hohen VRAM-Verbrauch zu kämpfen. Sowohl YOLOv5 YOLO effiziente Convolutional-Designs, um den Speicherbedarf gering zu halten, aber Ultralytics sind speziell für Consumer-GPUs optimiert, wodurch sie für unabhängige Forscher und Startups weitaus zugänglicher sind.
Leistung und Kennzahlen
Die Bewertung von Echtzeit-Objektdetektoren erfordert die Betrachtung einer Matrix aus mAP Mean Average Precision), Inferenzgeschwindigkeit und Modellgrößenparametern.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
WährendYOLO bei bestimmten Parameterwerten sehr wettbewerbsfähige mAP YOLO , zeigt YOLOv5 außergewöhnliche TensorRT Geschwindigkeiten und unglaublich niedrige Parameterzahlen für seine Nano- und Small-Konfigurationen. Diese Leistungsbalance gewährleistet, dass YOLOv5 in verschiedenen Edge-Bereitstellungsszenarien effizient YOLOv5 .
Trainingseffizienz und Ökosystem
Die theoretische Genauigkeit eines Modells ist nur so gut wie seine praktische Implementierbarkeit. Hier weichen die Modelle erheblich voneinander ab.
Die Komplexität der Destillation
DAMO-YOLO setzt stark auf eine mehrstufige Trainingsmethodik. Es implementiert eine Lehrer-Schüler-Knowledge-Distillation-Technik, bekannt als AlignedOTA. Während dies die maximale Leistung aus dem Schülermodell herausholt, erfordert es zunächst das Training eines massiven Lehrermodells. Dies erhöht die Rechenzeit, Energiekosten und die benötigte Hardware drastisch und stellt einen Engpass für agile ML-Teams dar.
Ultralytics von Ultralytics : Benutzerfreundlichkeit
Andererseits ist das Ultralytics-Ökosystem weltweit bekannt für seine intuitiven APIs und seine Trainingseffizienz. Unterstützt durch aktive Entwicklung und eine riesige Open-Source-Community können Entwickler Modelle nahtlos trainieren, validieren und bereitstellen.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")
Ultralytics bietet Ultralytics integrierte Unterstützung für die Nachverfolgung von Experimenten über Tools wie Weights & Biases Comet und sorgt so für einen reibungslosen Arbeitsablauf.
Anwendungsfälle in der Praxis
- YOLOv5 zeichnet sich in schnelllebigen Produktionsumgebungen aus. Seine unkomplizierte Exportierbarkeit macht es zur ersten Wahl für intelligente Einzelhandelsanalyse, Hochgeschwindigkeits-Fertigungsfehlererkennung und die Integration in mobile Anwendungen via CoreML.
- DAMO-YOLO ist besonders geeignet für strenge akademische Benchmarking-Tests und Szenarien, in denen umfangreiche Rechenressourcen zur Verfügung stehen, um lange, destillierte Trainingsläufe durchzuführen, die darauf abzielen, minimale mAP-Verbesserungen für spezifische, feste Hardware-Ziele herauszuholen.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv5 und DAMO-YOLO hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.
Wann man YOLOv5 wählen sollte
YOLOv5 eine gute Wahl für:
- Bewährte Produktionssysteme: Bestehende Implementierungen, bei denen die langjährige Stabilität, die umfassende Dokumentation und der massive Community-Support von YOLOv5 geschätzt werden.
- Ressourcenbeschränktes Training: Umgebungen mit begrenzten GPU-Ressourcen, in denen die effiziente Trainingspipeline und die geringeren Speicheranforderungen von YOLOv5 vorteilhaft sind.
- Umfangreiche Unterstützung für Exportformate: Projekte, die eine Bereitstellung in vielen Formaten erfordern, einschließlich ONNX, TensorRT, CoreML und TFLite.
Wann DAMO-YOLO wählen?
DAMO-YOLO wird empfohlen für:
- Hochdurchsatz-Videoanalyse: Verarbeitung von Hoch-FPS-Videoströmen auf fester NVIDIA-GPU-Infrastruktur, wo der Batch-1-Durchsatz die primäre Metrik ist.
- Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenz-Beschränkungen auf dedizierter Hardware, wie z.B. Echtzeit-Qualitätsinspektion an Montagelinien.
- Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten reparametrisierten Backbones auf die Detektionsleistung.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
- Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
- detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.
Die nächste Evolutionsstufe: YOLO26
Wenn Sie ein neues Projekt starten, ist es sehr empfehlenswert, den Blick in die Zukunft zu richten. Ultralytics baut auf der unglaublichen Grundlage von YOLOv5 auf und enthält revolutionäre Weiterentwicklungen, die den Stand der Technik im Bereich der visuellen KI neu definieren.
Warum auf YOLO26 upgraden?
YOLO26 wurde mit großem Erfolg veröffentlicht und ist von Grund auf durchgängig. Es verfügt über ein durchgängiges NMS Design, das die Nachbearbeitung mit Non-Maximum Suppression vollständig überflüssig macht und so eine wesentlich schnellere und einfachere Bereitstellung ermöglicht.
Zu den wichtigsten Neuerungen in YOLO26 gehören:
- MuSGD-Optimierer: Inspiriert von Innovationen im LLM-Training, gewährleistet dieser Hybrid aus SGD und Muon ein hochstabiles Training und eine schnelle Konvergenz.
- Bis zu 43 % schnellere CPU-Inferenz: Stark optimiert für Edge Computing, wodurch es sich perfekt für IoT-Geräte eignet, die ohne dedizierte GPUs betrieben werden.
- ProgLoss + STAL: Fortschrittliche Verlustfunktionen, die die Erkennung kleiner Objekte drastisch verbessern, was entscheidend ist für Luftbildaufnahmen von Drohnen und Robotik.
- Task-Specific Improvements: Von spezialisierten Winkelfunktionen für Oriented Bounding Boxes (OBB) bis hin zu Residual Log-Likelihood Estimation (RLE) für eine genaue Posenschätzung bewältigt YOLO26 komplexe Bereiche mühelos.
Fazit
Sowohl YOLOv5 als auch DAMO-YOLO haben ihren Platz in der Geschichte der Objektdetektion gefestigt. DAMO-YOLO bleibt eine faszinierende Studie im Bereich der neuronalen Architektursuche und Destillation. Für Organisationen, die jedoch ein gut gepflegtes Ökosystem, Benutzerfreundlichkeit und einen schnellen Weg zur Produktion priorisieren, bleiben Ultralytics-Modelle unübertroffen.
Wir empfehlen Ihnen dringend, die Ultralytics zu nutzen, um Modelle der nächsten Generation wie YOLO26 zu annotieren, zu trainieren und einzusetzen, damit Ihre Computer-Vision-Pipeline zukunftssicher, schnell und äußerst präzise ist.
Weiterführende Informationen
- Entdecken Sie den transformatorbasierten RT-DETR für hochpräzise Anwendungen.
- Erfahren Sie mehr über die vorherige Generation YOLO11 Modell.
- Entdecken Sie, wie Sie Bereitstellungen mit OpenVINO optimieren können.