Zum Inhalt springen

YOLO11 vs YOLOv5: Evolution der hochmodernen Objekterkennung

Die Entwicklung der Echtzeit-Objekterkennung wurde maßgeblich von der Ultralytics YOLO-Serie geprägt. YOLOv5, im Jahr 2020 veröffentlicht, setzte einen globalen Standard für Benutzerfreundlichkeit, Geschwindigkeit und Zuverlässigkeit und wurde zu einem der am häufigsten eingesetzten Vision-AI-Modelle in der Geschichte. YOLO11, die neueste Iteration, baut auf diesem legendären Fundament auf, um eine beispiellose Genauigkeit, Effizienz und Vielseitigkeit zu liefern.

Dieser Leitfaden bietet einen detaillierten technischen Vergleich zwischen diesen beiden Kraftpaketen und hilft Entwicklern und Forschern, die architektonischen Veränderungen, Leistungssteigerungen und idealen Anwendungsfälle für jedes zu verstehen.

Leistungsanalyse

Der Leistungsunterschied zwischen YOLO11 und YOLOv5 unterstreicht die schnellen Fortschritte im Design neuronaler Netze. Während YOLOv5 ein leistungsfähiges Modell bleibt, übertrifft YOLO11 es durchweg über alle Modellskalen hinweg, insbesondere hinsichtlich der CPU-Inferenzgeschwindigkeit und der Erkennungsgenauigkeit.

Wichtige Leistungsmetriken

Die untenstehende Tabelle präsentiert einen direkten Vergleich auf dem COCO dataset. Eine wichtige Beobachtung ist die Effizienz von YOLO11n, das einen 39.5 mAP erreicht und damit YOLOv5n's 28.0 mAP deutlich übertrifft, während es auch auf CPU-Hardware schneller läuft.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Genauigkeit vs. Effizienz

YOLO11 stellt einen Paradigmenwechsel im Kompromiss zwischen „Effizienz und Genauigkeit“ dar.

  • Erkennung kleiner Objekte: YOLO11 verbessert die detect von kleinen Objekten im Vergleich zu YOLOv5 erheblich, dank seiner verfeinerten Merkmalsextraktionsschichten.
  • Recheneffizienz: YOLO11l erreicht 53.4 mAP mit nur 25.3M Parametern. Im Gegensatz dazu benötigt YOLOv5l 53.2M Parameter, um ein niedrigeres mAP von 49.0 zu erreichen. Diese 50%ige Reduzierung der Parameter bei höherer Genauigkeit führt zu geringerem Speicherverbrauch und schnelleren Trainingszeiten.

Ankerfrei vs. Ankerbasiert

Einer der wesentlichsten technischen Unterschiede ist der Detektionskopf-Mechanismus. YOLOv5 verwendet einen ankerbasierten Ansatz, der vordefinierte Ankerboxen erfordert, die für spezifische Datensätze angepasst werden müssen, um eine optimale Leistung zu erzielen.

YOLO11 verwendet ein ankerfreies Design. Dies eliminiert die Notwendigkeit der manuellen Ankerbox-Berechnung, vereinfacht die Trainingspipeline und verbessert die Generalisierung auf verschiedenen Datensätzen ohne Hyperparameter-Tuning.

Modellarchitektur und -design

Die architektonischen Unterschiede zwischen diesen beiden Modellen spiegeln den Fortschritt der Computer-Vision-Forschung über mehrere Jahre wider.

YOLOv5: Der bewährte Standard

YOLOv5 führte eine benutzerfreundliche PyTorch-Implementierung ein, die die Objektdetektion für die breite Masse zugänglich machte.

  • Backbone: Nutzt einen modifizierten CSPDarknet53, der sehr effektiv, aber rechenintensiver ist als moderne Alternativen.
  • Fokus: Priorisierte ein Gleichgewicht aus Geschwindigkeit und Genauigkeit, das bei seiner Veröffentlichung im Jahr 2020 revolutionär war.
  • Bestand: Es bleibt eine „sichere Wahl“ für Systeme, die bereits tief in seine spezifischen Eingabe-/Ausgabeformate integriert sind.

Erfahren Sie mehr über YOLOv5

YOLO11: Der neueste Stand der Technik

YOLO11 integriert die neuesten Deep-Learning-Techniken, um die Merkmalswiederverwendung zu maximieren und den Rechenaufwand zu minimieren.

  • C3k2-Block: Als Weiterentwicklung des CSP-Bottlenecks ermöglicht dieser Block einen effizienteren Gradientenfluss und eine effizientere Merkmalsfusion.
  • C2PSA-Modul: Führt räumliche Aufmerksamkeitsmechanismen ein, die es dem Modell ermöglichen, sich auf kritische Bereiche des Bildes zu konzentrieren, um eine bessere Objektlokalisierung zu erreichen.
  • Multi-Task-Head: Im Gegensatz zu YOLOv5, das separate Modell-Forks für verschiedene Aufgaben erfordert, unterstützt YOLO11 nativ Objekterkennung, Instanz-segment, Posenschätzung, Oriented Bounding Boxes (obb) und classify in einem vereinheitlichten Framework.

Erfahren Sie mehr über YOLO11

Vergleichstabelle: Technische Spezifikationen

MerkmalYOLOv5YOLO11
ArchitekturCSPDarknet-BackboneVerfeinertes Backbone mit C3k2 & C2PSA
Detection HeadAnkerbasiertAnkerfrei
Aufgabendetect, segment, classifydetect, segment, classify, Pose, obb, track
LizenzAGPL-3.0AGPL-3.0
VeröffentlichungsdatumJuni 2020September 2024
BenutzerfreundlichkeitHoch (Kommandozeile & PyTorch Hub)Sehr hoch (Vereinheitlichtes python SDK & CLI)

Training und Ökosystem

Beide Modelle profitieren vom robusten Ultralytics-Ökosystem, das nahtlose Tools für Datenmanagement, Training und Bereitstellung bietet.

Trainingseffizienz

YOLO11 ist darauf ausgelegt, schneller zu trainieren und schneller zu konvergieren als YOLOv5.

  • Intelligente Standardeinstellungen: Die Ultralytics-Engine konfiguriert Hyperparameter automatisch basierend auf dem Datensatz und der Modellgröße, wodurch der Bedarf an manueller Hyperparameter-Optimierung reduziert wird.
  • Speicherverbrauch: Dank der reduzierten Parameteranzahl verbrauchen YOLO11 Modelle im Allgemeinen weniger GPU-VRAM während des Trainings, was größere Batch-Größen auf Consumer-Hardware ermöglicht.

Code-Beispiel: YOLO11 trainieren

Das Training von YOLO11 wird durch die Verwendung von optimiert. ultralytics Python-Paket. Das folgende Beispiel zeigt, wie ein YOLO11n-Modell auf dem COCO8-Datensatz trainiert wird.

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model
# The device argument can be 'cpu', 0 for GPU, or [0, 1] for multi-GPU
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

Ökosystemintegration

Während YOLOv5 aufgrund seines Alters eine riesige Sammlung von Tutorials von Drittanbietern hat, ist YOLO11 nativ in das moderne Ultralytics-Paket integriert. Dies bietet sofortigen Zugriff auf erweiterte Funktionen:

  • Ein-Klick-Export: Export nach ONNX, OpenVINO, TensorRT und CoreML mit einem einzigen Befehl.
  • Tracking: Integrierte Unterstützung für Objekt-Tracking (BoT-SORT, ByteTrack) ohne externe Repositories.
  • Explorer: Verwenden Sie die Ultralytics Explorer API, um Ihre Datensätze mittels SQL und semantischer Suche zu visualisieren und abzufragen.

Ideale Anwendungsfälle

Die Wahl des richtigen Modells hängt von den spezifischen Einschränkungen und Anforderungen Ihres Projekts ab.

Wann YOLO11 wählen?

YOLO11 ist die empfohlene Wahl für 95 % der neuen Projekte.

  1. New Developments: Wenn Sie von Grund auf neu beginnen, bietet YOLO11 die beste Zukunftssicherheit, Genauigkeit und Geschwindigkeit.
  2. CPU-Bereitstellung: Für Edge-Geräte, die auf der CPU laufen (z. B. Raspberry Pi, Mobiltelefone), ist YOLO11n deutlich schneller und genauer als YOLOv5n.
  3. Komplexe Aufgaben: Projekte, die Posenschätzung oder obb (z. B. Luftbilder, Dokumentenanalyse) erfordern, werden nativ von YOLO11 unterstützt.
  4. Cloud & Server: Der hohe Durchsatz von YOLO11 macht es ideal für die Echtzeitverarbeitung massiver Videostreams.

Wann man bei YOLOv5 bleiben sollte

YOLOv5 bleibt eine praktikable Option für spezifische Altsystem-Szenarien.

  1. Bestehende Wartung: Wenn Sie ein Produktionssystem haben, das stark an die spezifische YOLOv5-Codebasis oder das Ausgabeformat gekoppelt ist.
  2. Spezifische Hardware-Abstimmung: Einige ältere eingebettete Beschleuniger verfügen möglicherweise über eine hochoptimierte Firmware, die speziell für YOLOv5-Schichten validiert wurde (obwohl die meisten modernen Runtimes wie OpenVINO jetzt neuere Architekturen bevorzugen).
  3. Akademische Basislinie: Forscher, die Vergleiche mit historischen Basislinien ziehen, zitieren oft YOLOv5 aufgrund seiner langjährigen Präsenz in der Literatur.

Migration zu YOLO11

Die Migration von YOLOv5 zu YOLO11 ist unkompliziert. Das Dataset-Format (YOLO TXT) bleibt identisch, was bedeutet, dass Sie Ihre vorhandenen annotierten Datensätze ohne Änderungen wiederverwenden können. Die Python-API-Struktur ist ebenfalls sehr ähnlich und erfordert oft nur eine Änderung der Modellnamen-Zeichenkette (z. B. von yolov5su.pt zu yolo11n.pt innerhalb des ultralytics Paket).

Weitere Optionen prüfen

Ultralytics unterstützt eine breite Palette von Modellen über YOLO11 und YOLOv5 hinaus. Je nach Ihren spezifischen Anforderungen könnten Sie in Betracht ziehen:

  • YOLOv8: Der direkte Vorgänger von YOLO11, der ein gutes Gleichgewicht an Funktionen und eine breite Akzeptanz in der Industrie bietet.
  • YOLOv10: Eine Architektur, die sich auf NMS-freies Training für geringere Latenz in spezifischen Echtzeitanwendungen konzentriert.
  • RT-DETR: Ein Transformer-basierter Detektor, der sich durch hohe Genauigkeit auszeichnet, wenn die Inferenzgeschwindigkeit weniger kritisch ist als maximale Präzision.
  • YOLOv9: Bekannt für sein Konzept der programmierbaren Gradienteninformationen (PGI), das eine starke Leistung bei schwierigen Detektionsaufgaben bietet.

Fazit

Der Übergang von YOLOv5 zu YOLO11 markiert einen bedeutenden Meilenstein in der Geschichte des Computer Vision. YOLOv5 demokratisierte KI und machte die Objekterkennung für jedermann zugänglich. YOLO11 perfektioniert diese Vision und liefert ein Modell, das schneller, leichter und präziser ist.

Für Entwickler, die die absolut beste Leistung pro Watt und den vielseitigsten Funktionsumfang suchen, ist YOLO11 der klare Gewinner. Seine Integration in das aktive Ultralytics-Ökosystem stellt sicher, dass Sie Zugang zu den neuesten Tools, einfachen APIs und einer florierenden Community haben, um Ihre KI-Reise zu unterstützen.

Bereit für ein Upgrade? Schauen Sie sich die YOLO11 Dokumentation an oder erkunden Sie das GitHub-Repository, um noch heute zu beginnen.


Kommentare