YOLOv7 vs. YOLO11: Von Echtzeit-Legacy zu State-of-the-Art-Effizienz
Um sich in der Landschaft der Computer-Vision-Modelle zurechtzufinden, muss man die Nuancen zwischen etablierten Architekturen und den neuesten Innovationen (SOTA) verstehen. Dieser Leitfaden bietet einen umfassenden technischen Vergleich zwischen YOLOv7, einem bedeutenden Meilenstein in der YOLO , und Ultralytics YOLO11dem modernsten Modell, das auf überragende Leistung und Vielseitigkeit ausgelegt ist.
Wir werden ihre architektonischen Unterschiede, Benchmark-Metriken und praktischen Anwendungen untersuchen, um Entwicklern und Forschern zu helfen, das optimale Werkzeug für Aufgaben von der Objekterkennung bis zur komplexen Instanzsegmentierung auszuwählen.
YOLOv7: Ein Benchmark für eine effiziente Architektur
YOLOv7 wurde im Juli 2022 veröffentlicht und stellt einen großen Sprung nach vorn dar, was das Gleichgewicht zwischen Trainingseffizienz und Inferenzgeschwindigkeit betrifft. Es wurde entwickelt, um frühere Detektoren zu übertreffen, indem es sich auf architektonische Optimierungen konzentriert, die die Anzahl der Parameter reduzieren, ohne die Genauigkeit zu beeinträchtigen.
Autoren: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Datum: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Architektonische Highlights
Mit YOLOv7 wurde das Extended Efficient Layer Aggregation Network (E-ELAN) eingeführt. Diese Architektur ermöglicht es dem Modell, mehr verschiedene Merkmale zu lernen, indem es die kürzesten und längsten Gradientenpfade kontrolliert und so die Konvergenz während des Trainings verbessert. Darüber hinaus wurden "trainierbare Bag-of-Freebies" eingesetzt, eine Reihe von Optimierungsstrategien wie die Neuparametrisierung des Modells und die dynamische Label-Zuweisung, die die Genauigkeit verbessern, ohne die Inferenzkosten zu erhöhen.
Obwohl es sich in erster Linie um ein Objekterkennungsmodell handelt, hat die Open-Source-Gemeinschaft versucht, YOLOv7 für die Posenschätzung zu erweitern. Diesen Implementierungen mangelt es jedoch häufig an der nahtlosen Integration, die in einheitlichen Frameworks zu finden ist.
Stärken und Schwächen
YOLOv7 ist bekannt für seine:
- Solide Leistung: Mit seiner guten Leistung beim COCO setzte er bei seiner Veröffentlichung neue Maßstäbe für Echtzeit-Detektoren.
- Architektonische Innovation: Die Einführung von E-ELAN beeinflusste die nachfolgende Forschung im Bereich der Netzgestaltung.
In modernen Arbeitsabläufen steht sie jedoch vor Herausforderungen:
- Kompliziertheit: Die Schulungspipeline kann kompliziert sein und erfordert im Vergleich zu modernen Standards eine umfangreiche manuelle Konfiguration.
- Begrenzte Vielseitigkeit: Aufgaben wie Klassifizierung oder orientierte Bounding Boxes (OBB ) werden nicht von Haus aus unterstützt.
- Verbrauch von Ressourcen: Das Training größerer Varianten, wie YOLOv7x, erfordert erhebliche GPU Speicher, was für Forscher mit begrenzter Hardware ein Engpass sein kann.
Ultralytics YOLO11: Neudefinition von Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit
Ultralytics YOLO11 ist die neueste Entwicklung in der renommierten YOLO , die SOTA-Leistung für eine Vielzahl von Computer-Vision-Aufgaben bietet. Auf der Grundlage kontinuierlicher Verbesserungen bietet YOLO11 eine verfeinerte Architektur, die die Effizienz für den Einsatz in der Praxis maximiert.
Die Autoren: Glenn Jocher und Jing Qiu
Organisation:Ultralytics
Datum: 2024-09-27
GitHubultralytics
Docsyolo11
Fortschrittliche Architektur und Vielseitigkeit
YOLO11 verwendet ein modernisiertes Backbone, das C3k2-Blöcke und ein verbessertes SPPF-Modul verwendet, um Merkmale auf verschiedenen Skalen effektiver zu erfassen. Dieses Design führt zu einem Modell, das nicht nur genauer ist, sondern im Vergleich zu seinen Vorgängern und Konkurrenten auch deutlich weniger Parameter und FLOPs benötigt.
Ein entscheidendes Merkmal von YOLO11 ist seine native Multitasking-Unterstützung. Innerhalb eines einzigen Rahmens können Benutzer durchführen:
- Erkennung: Identifizierung von Objekten mit Bounding Boxes.
- Segmentierung: Maskierung auf Pixelebene für präzise Formanalyse.
- Klassifizierung: Zuweisung von Klassenbezeichnungen zu ganzen Bildern.
- Schätzung der Körperhaltung: Erkennung von Schlüsselpunkten auf menschlichen Körpern.
- OBB: Erkennung von gedrehten Objekten, wichtig für Luftaufnahmen.
Einheitliches Ökosystem
Ultralytics YOLO11 lässt sich nahtlos in Ultralytics HUB integrieren, eine Plattform für die Verwaltung von Datensätzen, die Schulung ohne Code und die Bereitstellung mit einem Mausklick. Diese Integration beschleunigt den Lebenszyklus von MLOps erheblich.
Warum Entwickler YOLO11 wählen
- Einfacher Gebrauch: Mit einem benutzerorientierten Design kann YOLO11 in nur wenigen Zeilen Python oder über eine einfache CLI.
- Gut gepflegtes Ökosystem: Unterstützt von einer aktiven Gemeinschaft und dem Ultralytics wird das Modell regelmäßig aktualisiert, um die Kompatibilität mit den neuesten PyTorch Versionen und Hardware-Beschleunigern.
- Ausgewogene Leistung: Es erreicht einen außergewöhnlichen Kompromiss zwischen Inferenzgeschwindigkeit und mittlerer durchschnittlicher Präzision (mAP), wodurch es sich sowohl für Edge-Geräte als auch für Cloud-Server eignet.
- Speichereffizienz: YOLO11 benötigen in der Regel weniger CUDA während des Trainings im Vergleich zu älteren Architekturen oder Transformator-basierten Modellen, was größere Stapelgrößen oder Training auf bescheidener Hardware ermöglicht.
Leistungsvergleich: Technische Benchmarks
Die folgende Tabelle veranschaulicht die Leistungsunterschiede zwischen YOLOv7 und YOLO11. Die Daten verdeutlichen, dass YOLO11 dank moderner Optimierungen eine höhere Genauigkeit bei einem Bruchteil der Rechenkosten erreicht.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Analyse:
- Effizienz: YOLO11m erreicht die Genauigkeit von YOLOv7l (51,5 vs. 51,4 mAP) und benötigt dabei fast die Hälfte der Parameter (20,1M vs. 36,9M) und deutlich weniger FLOPs.
- Geschwindigkeit: Bei Echtzeitanwendungen ist YOLO11n mit 1,5 ms auf einem GPU drastisch schneller und damit perfekt für die Verarbeitung von Videos mit hohen FPS.
- Genauigkeit: Das größte Modell, YOLO11x, übertrifft YOLOv7x in Bezug auf die Genauigkeit (54,7 gegenüber 53,1 mAP), wobei die Anzahl der Parameter wettbewerbsfähig bleibt.
Anwendungsfälle in der Praxis
Landwirtschaft und Umweltüberwachung
In der Präzisionslandwirtschaft werden für die Erkennung von Pflanzenkrankheiten oder die Überwachung des Wachstums Modelle benötigt, die auf Geräten mit begrenzter Leistung, wie Drohnen oder Feldsensoren, laufen können.
- YOLO11: Seine leichtgewichtige Architektur (speziell YOLO11n/s) ermöglicht den Einsatz auf Raspberry Pi oder NVIDIA Jetson-Geräten und damit die Überwachung des Zustands der Pflanzen in Echtzeit.
- YOLOv7: Es ist zwar genau, aber sein höherer Rechenaufwand schränkt seinen Nutzen auf batteriebetriebenen Edge-Geräten ein.
Intelligente Fertigung und Qualitätskontrolle
Automatisierte visuelle Inspektionssysteme erfordern eine hohe Präzision, um kleinste Fehler in Fertigungsstraßen detect .
- YOLO11: Die Fähigkeit des Modells, Segmentierung und OBB durchzuführen, ist hier entscheidend. OBB ist beispielsweise für die Erkennung von gedrehten Bauteilen auf einem Förderband unerlässlich, eine Funktion, die von YOLO11 nativ unterstützt wird, in YOLOv7 aber eigene Implementierungen erfordert.
- YOLOv7: Geeignet für die Erkennung von Standard-Bounding-Boxen, aber weniger geeignet für komplexe geometrische Defekte ohne wesentliche Änderungen.
Überwachung und Sicherheit
Sicherheitssysteme verarbeiten oft mehrere Videoströme gleichzeitig.
- YOLO11: Dank der hohen Inferenzgeschwindigkeit kann ein einzelner Server mehr Streams parallel verarbeiten, was die Infrastrukturkosten senkt.
- YOLOv7: Effektiv, aber die höhere Latenz pro Frame reduziert die Gesamtzahl der Kanäle, die ein einzelnes Gerät verarbeiten kann.
Umsetzung und Effizienz der Ausbildung
Eines der herausragenden Merkmale des Ultralytics ist die optimierte Erfahrung für Entwickler. Unten finden Sie einen Vergleich, wie Sie beginnen können.
Einfachheit im Code
Ultralytics YOLO11 ist so konzipiert, dass es "batteriebetrieben" ist, d. h., komplexer Standardcode entfällt.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Im Gegensatz dazu ist es bei älteren Repositories oft erforderlich, die Repositories zu klonen, Konfigurationsdateien manuell anzupassen und komplexe Shell-Skripte für Training und Inferenz auszuführen.
Flexibilität bei der Ausfuhr
YOLO11 unterstützt den Ein-Klick-Export in verschiedene Formate für die Bereitstellung, einschließlich ONNX, TensorRT, CoreML und TFLite. Diese Flexibilität stellt sicher, dass Ihr Modell in jeder Umgebung produktionsbereit ist.
Schlussfolgerung: Der klare Sieger
Während YOLOv7 bleibt ein respektables Modell in der Geschichte der Computer Vision, Ultralytics YOLO11 die Zukunft. Für Entwickler und Forscher bietet YOLO11 ein überzeugendes Paket:
- Überlegene Metriken: Höhere mAP und schnellere Inferenzgeschwindigkeiten.
- Reichhaltiges Ökosystem: Zugang zum Ultralytics HUB, umfangreiche Dokumente und Unterstützung durch die Gemeinschaft.
- Vielseitigkeit: Ein einziger Rahmen für Erkennung, Segmentierung, Pose, Klassifizierung und OBB.
- Zukunftssicher: Kontinuierliche Updates und Wartung gewährleisten die Kompatibilität mit neuen Hardware- und Software-Bibliotheken.
Für jedes neue Projekt ist es wichtig, die Effizienz und Benutzerfreundlichkeit von YOLO11 ist der empfohlene Weg, um mit minimalen Reibungsverlusten modernste Ergebnisse zu erzielen.
Andere Modelle entdecken
Wenn Sie an weiteren Vergleichen interessiert sind, sollten Sie die entsprechenden Seiten in der Dokumentation lesen:
- YOLO11 vs. YOLOv8
- YOLO11 gegen YOLOv10
- YOLOv7 gegen RT-DETR
- YOLOv7 vs. YOLOv5
- Erforschen Sie die YOLOv9 Architektur.