YOLO11 vs. YOLOv5: Entwicklung des Stands der Technik bei der Objekterkennung

Die Entwicklung der Echtzeit-Objekterkennung wurde maßgeblich von der Ultralytics YOLO geprägt. YOLOv5die 2020 auf den Markt kam, setzte einen weltweiten Standard für Benutzerfreundlichkeit, Geschwindigkeit und Zuverlässigkeit und wurde zu einem der am häufigsten eingesetzten KI-Modelle in der Geschichte. YOLO11, die neueste Iteration, baut auf dieser legendären Grundlage auf und bietet noch nie dagewesene Genauigkeit, Effizienz und Vielseitigkeit.

Dieser Leitfaden bietet einen detaillierten technischen Vergleich zwischen diesen beiden Kraftpaketen und hilft Entwicklern und Forschern, die architektonischen Veränderungen, Leistungssteigerungen und idealen Anwendungsfälle für beide zu verstehen.

Leistungsanalyse

Der Leistungsunterschied zwischen YOLO11 und YOLOv5 verdeutlicht die raschen Fortschritte bei der Entwicklung neuronaler Netze. YOLOv5 ist zwar nach wie vor ein leistungsfähiges Modell, aber YOLO11 übertrifft es durchweg in allen Modellskalen, insbesondere in Bezug auf die CPU und die Erkennungsgenauigkeit.

Wichtige Leistungskennzahlen

Die folgende Tabelle zeigt einen direkten Vergleich mit dem COCO . Eine wichtige Beobachtung ist die Effizienz von YOLO11n, das mit 39,5 mAP die 28,0 mAP von YOLOv5n deutlich übertrifft und zudem schneller auf der CPU läuft.

Modell	Größe ^(Pixel)	mAP^val 50-95	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Genauigkeit vs. Effizienz

YOLO11 stellt einen Paradigmenwechsel in der Abwägung "Effizienz vs. Genauigkeit" dar.

Erkennung kleiner Objekte: YOLO11 verbessert die Erkennung von kleinen Objekten im Vergleich zu YOLOv5 erheblich, dank seiner verfeinerten Merkmalsextraktionsschichten.
Effizienz der Berechnungen: YOLO11l erreicht 53,4 mAP mit nur 25,3M Parametern. Im Gegensatz dazu benötigt YOLOv5l 53,2M Parameter, um eine niedrigere mAP von 49,0 zu erreichen. Diese 50%ige Verringerung der Parameter bei höherer Genauigkeit führt zu einer geringeren Speichernutzung und schnelleren Trainingszeiten.

Ankerfrei vs. Ankerbasiert

Einer der wichtigsten technischen Unterschiede ist der Mechanismus des Detektionskopfes. YOLOv5 verwendet einen ankerbasierten Ansatz, der vordefinierte Ankerboxen erfordert, die für bestimmte Datensätze abgestimmt werden müssen, um eine optimale Leistung zu erzielen.

YOLO11 verwendet ein ankerfreies Design. Dadurch entfällt die Notwendigkeit einer manuellen Ankerboxberechnung, die Trainings-Pipeline wird vereinfacht und die Generalisierung auf verschiedenen Datensätzen wird ohne Abstimmung der Hyperparameter verbessert.

Modellarchitektur und Design

Die architektonischen Unterschiede zwischen diesen beiden Modellen spiegeln den Fortschritt der Bildverarbeitungsforschung über mehrere Jahre hinweg wider.

YOLOv5: Der bewährte Standard

YOLOv5 führte eine benutzerfreundliche PyTorch ein, die die Objekterkennung für die breite Masse zugänglich machte.

Backbone: Verwendet ein modifiziertes CSPDarknet53 , das sehr effektiv, aber rechenintensiver als moderne Alternativen ist.
Schwerpunkt: Der Schwerpunkt lag auf einem ausgewogenen Verhältnis von Geschwindigkeit und Genauigkeit, das bei seiner Veröffentlichung im Jahr 2020 revolutionär war.
Legacy: Es bleibt eine "sichere Wahl" für Systeme, die bereits tief in ihre spezifischen Eingabe-/Ausgabeformate integriert sind.

Erfahren Sie mehr über YOLOv5

YOLO11: Das Neueste vom Neuen

YOLO11 integriert die neuesten Deep-Learning-Techniken, um die Wiederverwendung von Merkmalen zu maximieren und den Rechenaufwand zu minimieren.

C3k2-Block: Dieser Block ist eine Weiterentwicklung des CSP-Flaschenhalses und ermöglicht einen effizienteren Gradientenfluss und eine Merkmalsfusion.
C2PSA-Modul: Führt räumliche Aufmerksamkeitsmechanismen ein, die es dem Modell ermöglichen, sich auf kritische Bereiche des Bildes zu konzentrieren, um Objekte besser zu lokalisieren.
Multi-Task-Kopf: Im Gegensatz zu YOLOv5, das separate Modell-Forks für verschiedene Aufgaben benötigt, unterstützt YOLO11 die Objekterkennung, Instanzsegmentierung, Pose Estimation, Oriented Bounding Boxes (OBB) und Klassifizierung in einem einheitlichen Rahmen.

Erfahren Sie mehr über YOLO11

Vergleichstabelle: Technische Daten

Merkmal	YOLOv5	YOLO11
Architektur	CSPDarknet-Backbone	Verfeinertes Backbone mit C3k2 & C2PSA
Detection Head	Anker-basiert	Verankerungsfrei
Aufgaben	Erkennen, Segmentieren, Klassifizieren	Erkennen, Segmentieren, Klassifizieren, Pose, OBB, Verfolgen
Lizenz	AGPL-3.0	AGPL-3.0
Datum der Veröffentlichung	Juni 2020	September 2024
Benutzerfreundlichkeit	Hoch (Kommandozeile & PyTorch Hub)	Sehr hoch (einheitliches Python SDK & CLI)

Training und Ökosystem

Beide Modelle profitieren von dem robusten Ultralytics , das nahtlose Tools für Datenmanagement, Schulung und Bereitstellung bietet.

Effizienz der Ausbildung

YOLO11 ist so konzipiert, dass es schneller trainiert und schneller konvergiert als YOLOv5.

Intelligente Standardwerte: Die Ultralytics konfiguriert die Hyperparameter automatisch auf der Grundlage des Datensatzes und der Modellgröße, wodurch die Notwendigkeit einer manuellen Abstimmung der Hyperparameter reduziert wird.
Speicherverbrauch: Dank der geringeren Anzahl von Parametern verbrauchen YOLO11 im Allgemeinen weniger GPU während des Trainings, wodurch größere Stapelgrößen auf Consumer-Hardware möglich sind.

Code-Beispiel: Ausbildung YOLO11

Die Schulung von YOLO11 wird durch die ultralytics Python . Das folgende Beispiel zeigt, wie man ein YOLO11n-Modell auf dem COCO8 trainiert.

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model
# The device argument can be 'cpu', 0 for GPU, or [0, 1] for multi-GPU
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

Integration des Ökosystems

Während YOLOv5 aufgrund seines Alters über eine umfangreiche Sammlung von Tutorials von Drittanbietern verfügt, ist YOLO11 nativ in das moderne Ultralytics integriert. Dies ermöglicht den sofortigen Zugriff auf erweiterte Funktionen:

Ein-Klick-Export: Exportieren nach ONNX, OpenVINO, TensorRT, und CoreML mit einem einzigen Befehl.
Verfolgung: Integrierte Unterstützung für Objektverfolgung (BoT-SORT, ByteTrack) ohne externe Repositories.
Explorer: Verwenden Sie die Ultralytics Explorer API zur Visualisierung und Abfrage Ihrer Datensätze mit SQL und semantischer Suche.

Ideale Anwendungsfälle

Die Wahl des richtigen Modells hängt von den spezifischen Beschränkungen und Anforderungen Ihres Projekts ab.

Wann sollten Sie YOLO11 wählen YOLO11

YOLO11 ist die empfohlene Wahl für 95 % der neuen Projekte.

Neue Entwicklungen: Wenn Sie ganz neu anfangen, bietet YOLO11 die beste Zukunftssicherheit, Genauigkeit und Geschwindigkeit.
CPU : Für Edge-Geräte, die auf einer CPU laufen (z. B. Raspberry Pi, Mobiltelefone), ist YOLO11n deutlich schneller und genauer als YOLOv5n.
Komplexe Aufgaben: Projekte, die Pose Estimation oder OBB (z.B. Luftbilder, Dokumentenanalyse) erfordern, werden von YOLO11 nativ unterstützt.
Cloud und Server: Der hohe Durchsatz von YOLO11 macht es ideal für die Verarbeitung massiver Videoströme in Echtzeit.

Wann man bei YOLOv5 bleiben sollte

YOLOv5 bleibt eine praktikable Option für bestimmte Altszenarien.

Legacy-Wartung: Wenn Sie ein Produktionssystem haben, das stark an die spezifische YOLOv5 oder das Ausgabeformat gekoppelt ist.
Spezifische Hardware-Abstimmung: Einige ältere eingebettete Beschleuniger verfügen möglicherweise über hoch optimierte Firmware, die speziell für YOLOv5 validiert wurde (obwohl die meisten modernen Laufzeiten wie OpenVINO inzwischen neuere Architekturen bevorzugen).
Akademische Basislinie: Forscher, die Vergleiche mit historischen Basisdaten anstellen, berufen sich häufig auf YOLOv5 , da es seit langem in der Literatur vertreten ist.

Umstellung auf YOLO11

Der Umstieg von YOLOv5 auf YOLO11 ist unkompliziert. Das Format der DatensätzeYOLO TXT) bleibt identisch, d.h. Sie können Ihre bestehenden annotierten Datensätze ohne Änderungen weiterverwenden. Die Python ist ebenfalls sehr ähnlich und erfordert oft nur eine Änderung des Modellnamens (z. B. von yolov5su.pt zu yolo11n.pt innerhalb der ultralytics Paket).

Sondierung anderer Optionen

Ultralytics unterstützt eine breite Palette von Modellen, die über YOLO11 und YOLOv5 hinausgehen. Je nach Ihren spezifischen Bedürfnissen können Sie dies in Betracht ziehen:

YOLOv8: Das direkte Vorgängermodell von YOLO11, das eine große Ausgewogenheit an Funktionen und eine breite Akzeptanz in der Branche bietet.
YOLOv10: Eine Architektur mit Schwerpunkt auf NMS Training für geringere Latenzzeiten bei bestimmten Echtzeitanwendungen.
RT-DETR: Ein transformatorbasierter Detektor, der in Fällen, in denen die Geschwindigkeit der Schlussfolgerung weniger wichtig ist als die maximale Präzision, durch seine Genauigkeit besticht.
YOLOv9: Bekannt für sein PGI-Konzept (Programmable Gradient Information), das eine starke Leistung bei schwierigen Erkennungsaufgaben bietet.

Fazit

Der Übergang von YOLOv5 zu YOLO11 stellt einen bedeutenden Meilenstein in der Geschichte der Computer Vision dar. YOLOv5 hat die KI demokratisiert und die Objekterkennung für jedermann zugänglich gemacht. YOLO11 perfektioniert diese Vision und liefert ein Modell, das schneller, leichter und genauer ist.

Für Entwickler, die die absolut beste Leistung pro Watt und den vielseitigsten Funktionsumfang suchen, istYOLO11 der eindeutige Gewinner. Seine Integration in das aktive Ultralytics stellt sicher, dass Sie Zugang zu den neuesten Tools, einfachen APIs und einer florierenden Community haben, um Ihre KI-Reise zu unterstützen.

Bereit zum Upgrade? Lesen Sie die YOLO11 oder erkunden Sie das GitHub-Repository, um noch heute loszulegen.