YOLOv5 vs YOLO11: Ein umfassender technischer Vergleich

Wenn du die richtige Computer-Vision-Architektur für ein neues Projekt auswählst, ist das Verständnis der Entwicklung modernster Modelle entscheidend. Der Fortschritt von früheren Architekturen hin zu modernen, vereinheitlichten Frameworks zeigt bedeutende Sprünge sowohl bei der algorithmischen Effizienz als auch bei der Entwicklererfahrung. Dieser Leitfaden bietet einen tiefgehenden technischen Vergleich zwischen zwei wegweisenden Modellen von Ultralytics: dem bahnbrechenden YOLOv5 und dem hochoptimierten YOLO11.

Einführung in die Modelle

Beide Architekturen stellen wichtige Meilensteine im Bereich der Echtzeit-Objekterkennung dar und bieten je nach Einsatzumgebung und Legacy-Anforderungen unterschiedliche Vorteile.

YOLOv5: Das Arbeitstier der Branche

YOLOv5 wurde im Sommer 2020 veröffentlicht und entwickelte sich schnell zum Industriestandard, da seine native PyTorch-Implementierung die Einstiegshürden für Training und Deployment drastisch senkte. Es distanzierte sich von den komplexen Darknet-C-Frameworks seiner Vorgänger und bot einen Python-orientierten Ansatz für den Modellaufbau.

YOLOv5 schuf eine starke Grundlage für Benutzerfreundlichkeit und führte leistungsstarke Trainingsmethoden ein, darunter fortschrittliche Mosaic-Datenaugmentierung und Auto-Anchoring. Es ist nach wie vor unglaublich beliebt bei Forschern, die auf einer gut dokumentierten und intensiv getesteten Codebasis aufbauen.

Erfahre mehr über YOLOv5

YOLO11: Das vereinheitlichte Vision-Framework

Aufbauend auf jahrelangem Feedback und architektonischer Forschung wurde YOLO11 als Teil eines vereinheitlichten Frameworks eingeführt, das in der Lage ist, mehrere Vision-Aufgaben nativ zu bewältigen. Es geht weit über einfache Bounding Boxes hinaus und wurde von Grund auf für maximale Vielseitigkeit und Effizienz entwickelt.

YOLO11 bietet eine optimierte Benutzererfahrung durch das ultralytics Python-Paket und zeichnet sich durch eine einfache API aus, die Objekterkennung, Instanzsegmentierung, Klassifizierung, Pose-Schätzung und orientierte Bounding Boxes (OBB) vereint. Es erreicht ein äußerst vorteilhaftes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit, was es ideal für diverse reale Einsatzszenarien macht.

Erfahre mehr über YOLO11

Integrierte Plattform

Beide Modelle profitieren von dem gut gewarteten Ökosystem der Ultralytics Platform. Diese integrierte Umgebung vereinfacht die Datensatz-Annotation, das Cloud-Training und den Modellexport für verschiedene Hardware-Ziele.

Leistungs- und Metrikenvergleich

A direct comparison of these models reveals how architectural refinements translate to tangible performance gains. The table below illustrates the mean Average Precision (mAP) evaluated on the COCO dataset, alongside CPU and GPU inference speeds and parameter counts.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045,4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24,720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Analyse der Ergebnisse

Die Metriken verdeutlichen einen klaren Sprung in der Leistungsbalance, die YOLO11 erreicht. Beispielsweise erzielt das YOLO11n (Nano)-Modell eine mAP von 39,5 % im Vergleich zu den 28,0 % von YOLOv5n, während gleichzeitig die CPU-Inferenzzeit bei einem Export über ONNX reduziert wird. Darüber hinaus behält YOLO11 im Vergleich zu schweren Transformer-basierten Modellen bemerkenswert geringere Speicheranforderungen während des Trainings bei, was es für den Einsatz auf Consumer-Hardware und Edge-Geräten sehr zugänglich macht.

Architektonische Unterschiede

Die Leistungsverbesserungen in YOLO11 resultieren aus mehreren wesentlichen architektonischen Entwicklungen. Während YOLOv5 ein Standard-CSPNet-Backbone mit C3-Modulen verwendete, führte YOLO11 effizientere Merkmalsextraktionsblöcke wie C2f und später C3k2 ein, die den Gradientenfluss optimieren und den Rechenaufwand reduzieren.

YOLO11 bietet zudem einen stark verfeinerten Head. Weg vom Anchor-basierten Design älterer Modelle, setzen neuere Ultralytics-Architekturen auf einen Anchor-freien Ansatz. Dies reduziert die Anzahl der Box-Vorhersagen, strafft die Post-Processing-Pipeline und verbessert die Fähigkeit des Modells, über verschiedene Skalen und Seitenverhältnisse hinweg zu generalisieren. Zusätzlich bieten diese Modelle eine überlegene Trainingseffizienz und leicht verfügbare vortrainierte Gewichte, die die Konvergenz bei feinabgestimmten Datensätzen beschleunigen.

Implementierung und Code-Beispiele

Eines der herausragenden Merkmale des Ultralytics-Ökosystems ist seine Einfachheit. Während YOLOv5 die Verwendung von torch.hub für schnelle Inferenz populär machte, geht YOLO11 mit dem vereinheitlichten ultralytics Python-Paket einen Schritt weiter.

Training mit YOLO11

Das Laden, Trainieren und Validieren eines Modells erfordert minimalen Boilerplate-Code. Die API übernimmt die Hyperparameter-Optimierung und das Modellmanagement nahtlos.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Legacy-Inferenz mit YOLOv5

Wenn du eine ältere Pipeline wartest, lässt sich YOLOv5 direkt in den nativen Lademechanismus von PyTorch integrieren, wodurch es sich mühelos in bestehende Inferenz-Skripte einbinden lässt.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()
Deployment-Flexibilität

Beide Modelle unterstützen zahlreiche Exportformate. Egal, ob du auf einen NVIDIA Jetson mit TensorRT oder eine iOS-App mit CoreML abzielst, der Deployment-Prozess ist umfassend dokumentiert und wird von der Community unterstützt.

Ideale Anwendungsfälle

Die Wahl zwischen diesen Modellen hängt weitgehend vom Lebenszyklus deines Projekts und deinen spezifischen Anforderungen ab.

Wann du YOLOv5 wählen solltest

  • Wartung von Legacy-Codebasen: Wenn deine Produktionsumgebung stark auf die YOLOv5-Repository-Struktur oder spezifische Hyperparameter-Evolutions-Techniken zugeschnitten ist.
  • Akademische Baselines: Bei der Veröffentlichung von Forschungsergebnissen, die direkte Benchmarks gegenüber etablierten Computer-Vision-Standards von 2020-2022 erfordern.

Wann du dich für YOLO11 entscheiden solltest

  • Multi-Task-Projekte: Wenn deine Anwendung eine Mischung aus Aufgaben wie Pose-Schätzung und Instanzsegmentierung über eine einzige, einheitliche API erfordert.
  • Edge-Deployments: Für Edge-Computing-Szenarien, bei denen es entscheidend ist, für ein gegebenes Rechenbudget (FLOPs) ein Maximum an mAP herauszuholen.
  • Kommerzielle KI-Lösungen: Ideal für Unternehmensanwendungen in Einzelhandel und Sicherheit, unter Nutzung der robusten Unterstützung der Ultralytics Platform.

Die nächste Generation: Ultralytics YOLO26

Während YOLO11 eine fantastische Balance aus Geschwindigkeit und Genauigkeit darstellt, entwickelt sich das Feld der Künstlichen Intelligenz schnell weiter. Entwicklern, die heute neue Projekte starten, empfehlen wir dringend, den neuesten Standard in der Vision-KI zu erkunden: Ultralytics YOLO26.

YOLO26 wurde im Januar 2026 veröffentlicht und führt bahnbrechende Fortschritte ein, die speziell auf moderne Deployment-Anforderungen ausgelegt sind:

  • End-to-End NMS-freies Design: Basierend auf Konzepten, die erstmals in YOLOv10 erprobt wurden, ist YOLO26 nativ End-to-End konzipiert. Es macht Non-Maximum Suppression (NMS)-Post-Processing überflüssig, was Deployment-Pipelines erheblich vereinfacht und die Latenz reduziert.
  • MuSGD-Optimizer: Inspiriert von Innovationen im LLM-Training durch Modelle wie Moonshot AIs Kimi K2, sorgt diese Hybrid-Form aus SGD und Muon für unglaublich stabiles Training und eine dramatisch schnellere Konvergenz.
  • Beispiellose CPU-Geschwindigkeit: Durch den Wegfall von Distribution Focal Loss (DFL) erreicht YOLO26 eine bis zu 43 % schnellere CPU-Inferenz, was es zur absolut besten Wahl für Edge-Geräte und Umgebungen ohne dedizierte GPUs macht.
  • Fortschrittliche Verlustfunktionen: Die Integration von ProgLoss und STAL liefert bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, was entscheidend für Drohnen-Analytik, IoT und Robotik ist.
  • Aufgabenspezifische Erweiterungen: Es führt spezialisierte Optimierungen ein, wie Residual Log-Likelihood Estimation (RLE) für Pose und einen speziellen Winkelverlust für orientierte Bounding Boxes, was eine überlegene Leistung über alle Computer-Vision-Aufgaben hinweg sicherstellt.

Erfahre mehr über YOLO26

Für Anwender, die an spezialisierten Architekturen jenseits der Standard-Objekterkennung interessiert sind, könnten Modelle wie RT-DETR für Transformer-basierte Erkennung oder YOLO-World für Open-Vocabulary-Tracking und Erkennung interessant sein. Die Nutzung dieser gut gewarteten, hochoptimierten Tools stellt sicher, dass deine Computer-Vision-Pipelines effizient, skalierbar und auf dem neuesten Stand bleiben.

Kommentare