YOLO11 vs. YOLOv7: Detaillierter technischer Vergleich zur Objekterkennung
Die Wahl des richtigen Objekterkennungsmodells ist entscheidend für eine optimale Leistung bei Computer-Vision-Aufgaben. Diese Seite bietet einen detaillierten technischen Vergleich zwischen Ultralytics YOLO11 und YOLOv7, zwei fortschrittlichen Modellen für die effiziente und genaue Objekterkennung. Wir werden ihre architektonischen Feinheiten, Leistungsbenchmarks und geeigneten Anwendungen untersuchen, um Ihnen eine fundierte Entscheidung zu ermöglichen.
Ultralytics YOLO11
Ultralytics YOLO11, verfasst von Glenn Jocher und Jing Qiu von Ultralytics und am 27.09.2024 veröffentlicht, ist die neueste Entwicklung der YOLO . Sie konzentriert sich auf die Verbesserung von Genauigkeit und Effizienz bei der Objekterkennung, was sie vielseitig für eine breite Palette von realen Anwendungen einsetzbar macht. Ultralytics YOLO11 baut auf den früheren YOLO auf und verfeinert die Netzwerkstruktur, um eine hochmoderne Erkennungspräzision zu erreichen und gleichzeitig die Echtzeitleistung beizubehalten.
Architektur und Hauptmerkmale:
Die Architektur von YOLO11 umfasst fortschrittliche Techniken zur Merkmalsextraktion, die im Vergleich zu Modellen wie YOLOv8 zu einer höheren Genauigkeit bei einer geringeren Anzahl von Parametern führen. Diese Optimierung führt zu schnelleren Inferenz-Engine-Geschwindigkeiten und geringeren Rechenanforderungen, wodurch es sich für den Einsatz auf verschiedenen Plattformen eignet, von Edge-Geräten bis hin zu Cloud-Infrastrukturen. YOLO11 unterstützt mehrere Computer-Vision-Aufgaben, einschließlich Objekterkennung, Instanzsegmentierung, Bildklassifizierung und Posenschätzung. Das Modell ist auf GitHub verfügbar.
Leistungsmetriken und Benchmarks:
YOLO11 zeigt beeindruckende durchschnittliche Präzisionswerte (mAP) über verschiedene Modellgrößen hinweg. So erreicht YOLO11m beispielsweise einen mAPval50-95 von 51,5 bei einer Bildgröße von 640, wodurch Geschwindigkeit und Genauigkeit effektiv ausgeglichen werden. Kleinere Varianten wie YOLO11n und YOLO11s bieten schnellere Echtzeit-Inferenz für Anwendungen, bei denen Geschwindigkeit im Vordergrund steht, während größere Modelle wie YOLO11x die Genauigkeit maximieren. Detaillierte YOLO finden Sie in der Ultralytics .
Anwendungsfälle:
Die verbesserte Präzision und Effizienz von YOLO11 machen es ideal für Anwendungen, die eine genaue Objekterkennung in Echtzeit erfordern, wie z. B.:
- Robotik: Für präzise Navigation und Objektinteraktion in dynamischen Umgebungen.
- Sicherheitssysteme: In fortschrittlichen Sicherheitssystemen für präzise Einbruchserkennung und umfassende Überwachung.
- Einzelhandels-Analytik: Für KI im Einzelhandel zur Verbesserung der Bestandsverwaltung und zur eingehenden Analyse des Kundenverhaltens.
- Industrielle Automatisierung: Für strenge Qualitätskontrolle und effiziente Fehlererkennung in Fertigungsprozessen.
Stärken:
- Hohe Genauigkeit: Erreicht den neuesten Stand der mAP-Technik mit verfeinerten Architekturen.
- Effiziente Inferenz: Schnelle Verarbeitung, geeignet für Echtzeitanwendungen.
- Vielseitige Aufgaben: Unterstützt Objekterkennung, Segmentierung, Klassifizierung und Posenschätzung.
- Skalierbarkeit: Effektive Leistung auf unterschiedlicher Hardware, von Edge-Geräten bis zu Cloud-Systemen.
Schwachstellen:
- Größere Modelle können im Vergleich zu geschwindigkeitsoptimierten kleineren Modellen mehr Rechenressourcen erfordern.
- Die Optimierung für bestimmte Edge-Geräte kann zusätzliche Modellbereitstellungskonfigurationen erfordern.
YOLOv7
YOLOv7, das im Juli 2022 von Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao vom Institute of Information Science, Academia Sinica, Taiwan, vorgestellt wurde, ist bekannt für seine trainierbare Bag-of-Freebies, die einen neuen Stand der Technik für Echtzeit-Objektdetektoren darstellt. Wie im arXiv-Paper und im GitHub-Repository beschrieben, legt YOLOv7 den Schwerpunkt auf Geschwindigkeit und Effizienz bei gleichzeitig hoher Genauigkeit in der Objekterkennung.
Architektur und Hauptmerkmale:
YOLOv7 baut auf dem Efficient Layer Aggregation Network (ELAN) auf und führt Extended-ELAN (E-ELAN) ein, um die Lernfähigkeit des Netzwerks zu verbessern. Es nutzt Techniken wie die Neuparametrisierung des Modells und die dynamische Label-Zuweisung, um die Trainingseffizienz und die Inferenzgeschwindigkeit zu verbessern. YOLOv7 wurde für eine leistungsstarke Objekterkennung in verschiedenen Anwendungen entwickelt.
Leistungsmetriken und Benchmarks:
YOLOv7 weist hervorragende Leistungskennzahlen auf und erreicht im COCO-Datensatz bei einer Bildgröße von 640 eine mAP von 51,4 %. Auch die Geschwindigkeit ist bemerkenswert: Das YOLOv7-Basismodell erreicht 161 FPS bei der Batch-1-Inferenz. Detaillierte Leistungsbenchmarks finden Sie im offiziellen YOLOv7 GitHub-Repository.
Anwendungsfälle:
Dank der Ausgewogenheit von Geschwindigkeit und Genauigkeit eignet sich YOLOv7 für eine breite Palette von Anwendungen, darunter:
- Objekterkennung in Echtzeit: Ideal für Anwendungen, die eine schnelle Erkennung erfordern, z. B. beim autonomen Fahren und bei der schnellen Videoanalyse.
- Hochleistungs-Computing: Geeignet für Umgebungen, in denen Rechenressourcen zur Verfügung stehen und neben der Geschwindigkeit auch eine hohe Genauigkeit wichtig ist.
- Forschung und Entwicklung: Ein solides Basismodell für die weitere Erforschung von Objekterkennungsarchitekturen und Trainingsmethoden.
Stärken:
- Hohe Geschwindigkeit: Erzielt beeindruckende Inferenzgeschwindigkeiten, geeignet für Echtzeitsysteme.
- Gute Genauigkeit: Erzielt wettbewerbsfähige mAP-Ergebnisse in Benchmark-Datensätzen.
- Effiziente Architektur: Verwendet E-ELAN und die Neuparametrisierung des Modells für eine verbesserte Leistung.
Schwachstellen:
- Kann im Vergleich zu kleineren, neueren Modellen wie YOLO11n für Einsatzszenarien in Randgebieten mehr Rechenressourcen erfordern.
- Die Architektur ist zwar effizient, aber im Vergleich zu YOLO11 weniger vielseitig bei der Unterstützung verschiedener Bildverarbeitungsaufgaben über die Objekterkennung hinaus.
Modell-Vergleichstabelle
Modell | Größe (Pixel) |
mAPval 50-95 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Schlussfolgerung
Sowohl YOLO11 als auch YOLOv7 sind leistungsstarke Modelle zur Objekterkennung, die jeweils einzigartige Stärken aufweisen. YOLO11 zeichnet sich durch seine Vielseitigkeit und Effizienz aus und unterstützt mehrere Bildverarbeitungsaufgaben mit modernster Genauigkeit und Geschwindigkeit, was es zu einer guten Wahl für verschiedene Anwendungen und Einsatzumgebungen macht. YOLOv7 ist zwar ebenfalls effizient, aber besonders für die schnelle Objekterkennung optimiert und eignet sich für Echtzeitanwendungen und Forschungszwecke. Die Wahl zwischen den beiden Systemen hängt von den spezifischen Anforderungen Ihres Projekts ab, wobei Faktoren wie die Vielseitigkeit der Aufgaben, der Genauigkeitsbedarf und die Einsatzbeschränkungen zu berücksichtigen sind.
Für Benutzer, die sich für andere Modelle interessieren, bietet Ultralytics auch YOLOv8, das für seine optimierte Effizienz und Vielseitigkeit bekannt ist, und YOLOv5, das wegen seiner Geschwindigkeit und Benutzerfreundlichkeit weit verbreitet ist. Sie können auch einen Vergleich zwischen YOLO11 und YOLOv9 in Erwägung ziehen oder Modelle wie RT-DETR für verschiedene architektonische Ansätze zur Objekterkennung ausprobieren.