Zum Inhalt springen

YOLOv5 vs YOLO11: Ein umfassender technischer Vergleich

Bei der Auswahl der richtigen Computer-Vision-Architektur für ein neues Projekt ist es entscheidend, die Entwicklung der modernsten Modelle zu verstehen. Der Fortschritt von früheren Architekturen zu modernen einheitlichen Frameworks verdeutlicht bedeutende Sprünge sowohl in der algorithmischen Effizienz als auch in der Entwicklererfahrung. Dieser Leitfaden bietet einen detaillierten technischen Vergleich zwischen zwei wegweisenden Modellen, die von Ultralytics entwickelt wurden: dem bahnbrechenden YOLOv5 dem hochentwickelten YOLO11.

Einführung in die Modelle

Beide Architekturen stellen bedeutende Meilensteine im Bereich der Echtzeit-Objekterkennung dar und bieten je nach Bereitstellungsumgebung und Legacy-Anforderungen unterschiedliche Vorteile.

YOLOv5: Das Arbeitspferd der Branche

Im Sommer 2020 veröffentlicht, wurde YOLOv5 aufgrund seiner nativen PyTorch Implementierung, die die Einstiegshürden für Training und Einsatz drastisch senkte. Es entfernte sich von den komplexen Darknet-C-Frameworks seiner Vorgänger und bot einen Python-basierten Ansatz für die Modellbildung.

YOLOv5 eine starke Basis für Benutzerfreundlichkeit YOLOv5 und leistungsstarke Trainingsmethoden eingeführt, darunter fortschrittliche Mosaik-Datenvergrößerung und Auto-Anchoring. Es ist nach wie vor unglaublich beliebt bei Forschern, die auf einer gut dokumentierten, ausgiebig getesteten Codebasis aufbauen.

Erfahren Sie mehr über YOLOv5

YOLO11: Das einheitliche Vision-Framework

Aufbauend auf jahrelangem Feedback und architektonischer Forschung wurde YOLO11 als Teil eines vereinheitlichten Frameworks eingeführt, das nativ mehrere Vision-Aufgaben bewältigen kann. Über reine Bounding Boxes hinausgehend wurde es von Grund auf für maximale Vielseitigkeit und Effizienz konzipiert.

YOLO11 eine optimierte Benutzererfahrung durch die ultralytics Python mit einer einfachen API, die vereinheitlicht Objekterkennung durchzuführen, Instanzsegmentierung, Klassifizierung, Pose-Schätzung und orientierte Bounding Boxes (OBB). Es erzielt einen sehr günstigen Kompromiss zwischen Geschwindigkeit und Genauigkeit, was es ideal für vielfältige reale Einsatzszenarien macht.

Erfahren Sie mehr über YOLO11

Integrierte Plattform

Beide Modelle profitieren vom gut gepflegten Ökosystem der Ultralytics Platform. Diese integrierte Umgebung vereinfacht die Dataset-Annotation, das Cloud-Training und den Modell-Export für verschiedene Hardware-Ziele.

Leistung und Metriken im Vergleich

Ein direkter Vergleich dieser Modelle zeigt, wie architektonische Verfeinerungen zu spürbaren Leistungssteigerungen führen. Die Tabelle unten veranschaulicht die mittlere durchschnittliche Präzision (mAP), evaluiert auf dem COCO-Datensatz, zusammen mit CPU- und GPU-Inferenzgeschwindigkeiten und Parameteranzahlen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Analyse der Ergebnisse

Die Kennzahlen verdeutlichen einen deutlichen Sprung in der Leistungsbilanz, den YOLO11 erzielt hat. So erreicht beispielsweise das YOLO11n (nano)-Modell einen mAP von 39,5 % mAP zu 28,0 % bei YOLOv5n, während gleichzeitig die CPU beim Export über ONNXexportiert wird. Darüber hinaus YOLO11 während des Trainings deutlich weniger Speicherplatz als schwergewichtige Transformer-basierte Modelle, wodurch es sich hervorragend für den Einsatz auf Consumer-Hardware und Edge-Geräten eignet.

Architektonische Unterschiede

Die Leistungsverbesserungen in YOLO11 auf mehrere wichtige architektonische Weiterentwicklungen YOLO11 . Während YOLOv5 ein Standard-CSPNet-Backbone mit C3-Modulen YOLOv5 , YOLO11 effizientere Merkmalsextraktionsblöcke wie C2f und später C3k2 YOLO11 , die den Gradientenfluss optimieren und den Rechenaufwand reduzieren.

YOLO11 verfügt YOLO11 über einen stark verfeinerten Kopf. Im Gegensatz zu den älteren Modellen mit Anker-basiertem Design verfolgen Ultralytics neueren Ultralytics einen ankerfreien Ansatz. Dadurch wird die Anzahl der Box-Vorhersagen reduziert, die Nachbearbeitungspipeline optimiert und die Fähigkeit des Modells verbessert, über verschiedene Skalen und Seitenverhältnisse hinweg zu generalisieren. Darüber hinaus zeichnen sich diese Modelle durch eine überragende Trainingseffizienz und leicht verfügbare vortrainierte Gewichte aus, die die Konvergenz fein abgestimmter Datensätze beschleunigen.

Implementierung und Code-Beispiele

Eines der herausragenden Merkmale des Ultralytics ist seine Einfachheit. Während YOLOv5 die Verwendung von torch.hub Für eine schnelle Inferenz YOLO11 noch einen Schritt weiter mit der vereinheitlichten ultralytics Python .

Training mit YOLO11

Das Laden, Trainieren und Validieren eines Modells erfordert nur minimalen Boilerplate-Code. Die API übernimmt nahtlos die Hyperparameter-Optimierung und das Modellmanagement.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Legacy-Inferenz mit YOLOv5

Wenn Sie eine ältere Pipeline warten, YOLOv5 direkt in den nativen Lademechanismus PyTorch YOLOv5 , sodass es ganz einfach in bestehende Inferenzskripte eingefügt werden kann.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()

Bereitstellungsflexibilität

Beide Modelle unterstützen umfangreiche Exportformate. Ob Sie ein NVIDIA Jetson mit TensorRT oder eine iOS-Anwendung mit CoreML ansprechen, der Bereitstellungsprozess ist umfassend dokumentiert und wird von der Community unterstützt.

Ideale Anwendungsfälle

Die Wahl zwischen diesen Modellen hängt maßgeblich von der Lebenszyklusphase Ihres Projekts und spezifischen Anforderungen ab.

Wann man YOLOv5 wählen sollte

  • Pflege von Legacy-Codebasen: Wenn Ihre Produktionsumgebung stark an die YOLOv5-Repository-Struktur oder spezifische Hyperparameter-Evolution-Techniken angepasst ist.
  • Academic Baselines: Beim Veröffentlichen von Forschungsergebnissen, die ein direktes Benchmarking gegen etablierte Computer-Vision-Standards von 2020-2022 erfordert.

Wann YOLO11 wählen?

  • Multi-Task-Projekte: Wenn Ihre Anwendung eine Mischung von Aufgaben wie Pose Estimation und Instanz-segment unter Verwendung einer einzigen, vereinheitlichten API erfordert.
  • Edge-Implementierungen: Für Edge-Computing-Szenarien, in denen es entscheidend ist, das maximale mAP aus einem gegebenen Rechenbudget (FLOPs) herauszuholen.
  • Kommerzielle KI-Lösungen: Ideal für Unternehmensanwendungen im Einzelhandel und in der Sicherheit, unter Nutzung der robusten Unterstützung der Ultralytics Platform.

Die nächste Generation: Ultralytics

Während YOLO11 ein fantastisches Gleichgewicht zwischen Geschwindigkeit und Genauigkeit YOLO11 , entwickelt sich der Bereich der künstlichen Intelligenz rasant weiter. Entwicklern, die heute neue Projekte starten, empfehlen wir dringend, sich mit dem neuesten Standard im Bereich der Bildverarbeitungs-KI vertraut zu machen: Ultralytics .

YOLO26 wurde im Januar 2026 veröffentlicht und bietet bahnbrechende Neuerungen, die speziell auf moderne Einsatzanforderungen zugeschnitten sind:

  • End-to-End NMS-freies Design: Aufbauend auf den in YOLOv10 erstmals entwickelten Konzepten ist YOLO26 nativ End-to-End. Es eliminiert die Notwendigkeit der Nachbearbeitung mittels Non-Maximum Suppression (NMS), was die Bereitstellungspipelines erheblich vereinfacht und die Latenz reduziert.
  • MuSGD-Optimierer: Inspiriert von LLM-Trainingsinnovationen, wie sie bei Modellen wie Moonshot AIs Kimi K2 zu finden sind, gewährleistet dieser Hybrid aus SGD und Muon ein unglaublich stabiles Training und eine dramatisch schnellere Konvergenz.
  • Beispiellose CPU-Geschwindigkeit: Durch die Entfernung von Distribution Focal Loss (DFL) erreicht YOLO26 eine bis zu 43 % schnellere CPU-Inferenz, was es zur absolut besten Wahl für Edge-Geräte und Umgebungen ohne dedizierte GPUs macht.
  • Erweiterte Verlustfunktionen: Die Integration von ProgLoss und STAL führt zu bemerkenswerten Verbesserungen bei der Erkennung kleiner Objekte, was für Drohnenanalysen, IoT und Robotik entscheidend ist.
  • Task-Specific Enhancements: Es führt spezialisierte Optimierungen ein, wie Residual Log-Likelihood Estimation (RLE) für Pose und spezialisierte Winkelfunktionen für oriented bounding boxes, die eine überragende Leistung bei allen Computer-Vision-Aufgaben gewährleisten.

Erfahren Sie mehr über YOLO26

Für Benutzer, die an speziellen Architekturen interessiert sind, die über die Standard-Objekterkennung hinausgehen, könnten auch Modelle wie RT-DETR für die transformatorbasierte Erkennung oder YOLO für die Verfolgung und Erkennung mit offenem Vokabular. Durch den Einsatz dieser gut gepflegten, hochoptimierten Tools stellen Sie sicher, dass Ihre Computer-Vision-Pipelines effizient und skalierbar bleiben und der Zeit voraus sind.


Kommentare