Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOv5#

Die Entwicklung der Computer Vision ist geprägt von kontinuierlicher Innovation bei der Echtzeit-Objekterkennung. Heute stehen Entwickler und Forscher bei der Konzeption von Vision-Pipelines vor einer Vielzahl architektonischer Entscheidungen. Dieser umfassende technische Vergleich untersucht die Nuancen zwischen DAMO-YOLO und Ultralytics YOLOv5 und hebt deren jeweilige Architekturen, Trainingsmethoden, Leistungskennzahlen und ideale Einsatzszenarien hervor.

Link to this sectionEinführung in DAMO-YOLO#

DAMO-YOLO wurde von der Alibaba Group veröffentlicht und führte mehrere neuartige Techniken ein, die darauf abzielten, die Grenzen von Erkennungsgeschwindigkeit und Genauigkeit zu verschieben.

Erfahre mehr über DAMO-YOLO

Link to this sectionArchitektonische Innovationen#

DAMO-YOLO basiert auf der Neural Architecture Search (NAS). Die Autoren nutzten MAE-NAS, um automatisch Backbones zu entwerfen, die Latenz und Genauigkeit in Einklang bringen. Das Modell führt ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network) ein, das die Feature-Fusion über verschiedene Skalen hinweg verbessert. Darüber hinaus integriert DAMO-YOLO ein „ZeroHead“-Design, bei dem komplexe Multi-Branch-Prediction-Heads zugunsten einer einfacheren, effizienteren Struktur weggelassen wurden, die während der Inferenz stark auf Reparametrisierung setzt.

Zur Verbesserung des Trainings verwendet das Modell AlignedOTA für die Labelzuweisung und einen intensiven Distillation-Verbesserungsprozess, bei dem ein größeres „Lehrer“-Modell das kleinere „Schüler“-Modell anleitet, um eine höhere Genauigkeit zu erzielen.

Link to this sectionEinführung in Ultralytics YOLOv5#

Ultralytics YOLOv5 ist eine der weltweit am weitesten verbreiteten Vision-Architekturen, bekannt für ihre Stabilität, Benutzerfreundlichkeit und ihr umfangreiches Deployment-Ökosystem.

Erfahre mehr über YOLOv5

Link to this sectionDer Industriestandard#

YOLOv5 hat den Industriestandard für Benutzerfreundlichkeit neu definiert. Es wurde nativ in PyTorch entwickelt und nutzt einen hochoptimierten CSPNet-Backbone sowie einen PANet-Neck zur robusten Feature-Aggregation. Obwohl es dem bei späteren Modellen beobachteten anchor-free Trend vorausging, sorgt sein hochgradig verfeinerter, anchor-basierter Ansatz in Verbindung mit dem automatischen Anchor-Learning für eine exzellente Leistung direkt nach der Installation.

Die wahre Stärke von YOLOv5 liegt in seinem gut gepflegten Ökosystem. Es lässt sich nahtlos in Tracking-Tools wie Comet und Weights & Biases integrieren und unterstützt den Ein-Klick-Export in Formate wie ONNX, TensorRT und CoreML.

Erste Schritte mit YOLOv5

YOLOv5 ist unglaublich einfach auf benutzerdefinierten Datensätzen zu trainieren. Die optimierte API reduziert die Reibungsverluste vom Prototyp bis zur Produktion und macht es zu einem Favoriten unter agilen Engineering-Teams.

Link to this sectionVergleich von Leistung und Metriken#

Beim Vergleich dieser Modelle ist es entscheidend, das Gleichgewicht zwischen mean Average Precision (mAP), Inferenzgeschwindigkeit und Parameteranzahl zu betrachten.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049,0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Link to this sectionAnalyse der Kompromisse#

DAMO-YOLO erreicht beeindruckende mAP-Werte für seine Parametergrößen, wovon es während seiner Distillation-Trainingsphase stark profitiert. Dies geht jedoch auf Kosten der Trainingseffizienz. Der mehrstufige Distillation-Prozess erfordert das vorherige Training eines schweren Lehrer-Modells, was die notwendige GPU-Rechenzeit und den VRAM-Bedarf erheblich erhöht.

Umgekehrt bietet YOLOv5 hervorragende Speicheranforderungen. Ultralytics YOLO-Modelle sind für ihren geringeren Speicherverbrauch während des Trainings und der Inferenz bekannt im Vergleich zu komplexen Distillation-Pipelines oder Transformer-basierten Modellen wie RT-DETR. Dies ermöglicht es, YOLOv5 effizient auf Consumer-Hardware oder zugänglichen Cloud-Umgebungen wie Google Colab zu trainieren.

Link to this sectionAnwendungen in der Praxis und Vielseitigkeit#

Die Wahl der richtigen Architektur hängt oft von der Einsatzumgebung ab.

Link to this sectionWo DAMO-YOLO glänzt#

DAMO-YOLO ist ein reines Objekterkennungs-Modell. Es ist eine ausgezeichnete Wahl für die akademische Forschung, insbesondere für Teams, die Neural Architecture Search untersuchen oder die im Paper beschriebenen Reparametrisierungstechniken reproduzieren möchten. Wenn ein Projekt über umfangreiche Rechenressourcen verfügt, um die Distillation-Trainingsphase auszuführen, und sich ausschließlich darauf konzentriert, das letzte bisschen Genauigkeit für 2D-Begrenzungsrahmen herauszuholen, ist DAMO-YOLO ein starker Kandidat.

Link to this sectionDer Ultralytics-Vorteil#

Für die reale Produktion sind die Benutzerfreundlichkeit und Vielseitigkeit der Ultralytics-Modelle die bevorzugte Wahl. Während YOLOv5 ein Standard für die Erkennung und Bildklassifizierung bleibt, erlaubt das breitere Ultralytics-Ökosystem Entwicklern, mühelos zwischen Aufgaben zu wechseln.

Neuere Iterationen der Ultralytics-Familie unterstützen beispielsweise nativ Instanzsegmentierung, Pose-Schätzung und Oriented Bounding Box (OBB)-Erkennung. Diese Multi-Task-Fähigkeit stellt sicher, dass Teams eine einzige, vereinheitlichte Python-API für komplexe Pipelines nutzen können, wie zum Beispiel die Kombination von automatischer Kennzeichenerkennung mit Fahrzeugsegmentierung.

Link to this sectionAnwendungsfälle und Empfehlungen#

Die Entscheidung zwischen DAMO-YOLO und YOLOv5 hängt von deinen spezifischen Projektanforderungen, Deployment-Einschränkungen und Ökosystem-Präferenzen ab.

Link to this sectionWann du dich für DAMO-YOLO entscheiden solltest#

DAMO-YOLO ist eine gute Wahl für:

  • Hochdurchsatz-Videoanalytik: Verarbeitung von Video-Streams mit hoher FPS auf fester NVIDIA-GPU-Infrastruktur, bei der der Durchsatz bei Batch-Größe 1 die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenzbeschränkungen auf dedizierter Hardware, wie z. B. Qualitätsprüfung in Echtzeit an Montagelinien.
  • Forschung zur Neural Architecture Search: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten, reparametrisierten Backbones auf die Erkennungsleistung.

Link to this sectionWann du YOLOv5 wählen solltest#

YOLOv5 wird empfohlen für:

  • Bewährte Produktionssysteme: Bestehende Bereitstellungen, bei denen die langjährige Stabilität, die umfangreiche Dokumentation und die massive Community-Unterstützung von YOLOv5 geschätzt werden.
  • Ressourcenbegrenztes Training: Umgebungen mit begrenzten GPU-Ressourcen, in denen die effiziente Trainings-Pipeline und der geringere Speicherbedarf von YOLOv5 von Vorteil sind.
  • Umfangreiche Unterstützung von Exportformaten: Projekte, die eine Bereitstellung über viele Formate hinweg erfordern, einschließlich ONNX, TensorRT, CoreML und TFLite.

Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#

Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
  • Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.

Link to this sectionDie Zukunft: Umstieg auf YOLO26#

Während YOLOv5 legendär ist und DAMO-YOLO interessante akademische Einblicke bietet, hat sich der Stand der Technik weiterentwickelt. Das im Januar 2026 veröffentlichte Ultralytics YOLO26 stellt einen gewaltigen Fortschritt für die Vision-Community dar.

Erfahre mehr über YOLO26

YOLO26 adressiert die traditionellen Engpässe bei Edge-Deployments und Trainingsinstabilität:

  • End-to-End NMS-Free Design: YOLO26 natively eliminates Non-Maximum Suppression post-processing. This breakthrough simplifies deployment logic and drastically reduces latency variability, making it ideal for high-speed robotics and autonomous systems.
  • MuSGD Optimizer: Inspiriert von Innovationen im LLM-Training (wie Moonshot AIs Kimi K2), nutzt YOLO26 den MuSGD-Optimizer (eine Mischung aus SGD und Muon). Dies sorgt für äußerst stabile Trainingsläufe und eine bemerkenswert schnellere Konvergenz.
  • Bis zu 43% schnellere CPU-Inferenz: Durch die strategische Entfernung des Distribution Focal Loss (DFL) erzielt YOLO26 auf CPUs und Edge-Geräten weitaus überlegene Geschwindigkeiten im Vergleich zu seinen Vorgängern wie YOLO11 und YOLOv8.
  • ProgLoss + STAL: Diese fortgeschrittenen Verlustfunktionen führen zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für die Analyse von Luftdrohnenaufnahmen und IoT-Sensor-Feeds entscheidend ist.

Link to this sectionCode-Beispiel: Einfachheit in der Anwendung#

Das Ultralytics-Paket ermöglicht es dir, Modelle mit nur wenigen Zeilen Code zu trainieren und bereitzustellen. Egal, ob du YOLOv5 verwendest oder auf das empfohlene YOLO26 upgradest, das Interface bleibt konsistent und intuitiv.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Link to this sectionFazit#

Sowohl DAMO-YOLO als auch YOLOv5 haben signifikant zur Landschaft der Computer Vision beigetragen. DAMO-YOLO demonstriert die Kraft von Neural Architecture Search und Distillation, was es zu einer interessanten Studie für Forscher macht. Dennoch bleibt YOLOv5 aufgrund seiner Leistungsbalance, geringen Speicheranforderungen und unübertroffenen Benutzerfreundlichkeit ein praktisches Kraftpaket.

Für Entwickler, die heute neue Projekte starten, wird empfohlen, die Ultralytics-Plattform zu nutzen und YOLO26 einzusetzen. Es kombiniert das beliebte benutzerfreundliche Ökosystem von YOLOv5 mit bahnbrechenden architektonischen Fortschritten und sorgt für erstklassige Genauigkeit und rasend schnelle Inferenz für Cloud- und Edge-KI-Anwendungen. Entwickler möchten möglicherweise auch andere effiziente Modelle wie YOLOv6 oder YOLOX in Betracht ziehen, abhängig von spezifischen Anforderungen an die Legacy-Hardware.

Kommentare