Zum Inhalt springen

YOLO11 YOLOv7: Ein detaillierter technischer Vergleich

Die Landschaft der Computervision entwickelt sich weiterhin rasant, wobei die Echtzeit-Objekterkennung nach wie vor an der Spitze der KI-Anwendungen steht. Die Auswahl der richtigen Architektur für Ihr Projekt erfordert einen komplexen Kompromiss zwischen Geschwindigkeit, Genauigkeit und einfacher Bereitstellung. In diesem Leitfaden bieten wir einen umfassenden technischen Vergleich zwischen zwei führenden Architekturen: Ultralytics YOLO11 und YOLOv7.

Modellhintergrund und technische Details

Beide Modelle haben die Deep-Learning-Community maßgeblich beeinflusst, basieren jedoch auf unterschiedlichen Entwicklungsphilosophien und stammen aus verschiedenen Epochen.

YOLO11 :
Autoren: Glenn Jocher und Jing Qiu
Organisation: Ultralytics
Datum: 27.09.2024
GitHub: ultralytics
Dokumente: yolo11

Erfahren Sie mehr über YOLO11

YOLOv7 :
Autoren: Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao
Organisation: Institut für Informationswissenschaft, Academia Sinica, Taiwan
Datum: 06.07.2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Dokumente: ultralytics

Erfahren Sie mehr über YOLOv7

Architektonische Unterschiede

Bei der Analyse der internen Mechanismen nutzen beide Detektoren modernste Konzepte, unterscheiden sich jedoch in ihren strukturellen Grundlagen.

YOLOv7 das Konzept der Extended Efficient Layer Aggregation Networks (E-ELAN) YOLOv7 . Diese Architektur wurde entwickelt, um die Lernfähigkeit des Netzwerks kontinuierlich zu verbessern, ohne den ursprünglichen Gradientenpfad zu zerstören – ein entscheidender Durchbruch, über den in ihrer Forschungsarbeit berichtet wurde. YOLOv7 während des Trainings stark auf strukturelle Neuparametrisierung und eine robuste „Bag-of-Freebies”-Methodik, wodurch die Gesamtgenauigkeit des COCO verbessert wird, ohne die Inferenzkosten zu erhöhen.

Im Gegensatz dazu YOLO11 auf der hochoptimierten Ultralytics . Es zeichnet sich durch eine verfeinerte Feature-Extraktions-Pipeline mit weniger Parametern aus, was zu einem geringeren Speicherverbrauch während des Trainings führt. YOLO11 eine äußerst vorteilhafte Leistungsbilanz, da es weniger Rechenressourcen (FLOPs) benötigt und gleichzeitig die Erkennungsgenauigkeit schwererer Modelle erreicht oder sogar übertrifft. Darüber hinaus unterstützt YOLO11 eine größere Vielfalt an Aufgaben und ist damit eine äußerst vielseitige Wahl für moderne Computer-Vision-Anwendungen.

Speichereffizienz

Eine der herausragenden EigenschaftenYOLO Ultralytics ist ihr im Vergleich zu anderen hochmodernen Modellen geringerer Speicherbedarf während des Trainings, wodurch Entwickler leistungsstarke Netzwerke auf handelsüblichen Geräten trainieren können. PyTorch Hardware trainieren können.

Leistung und Metriken im Vergleich

Um die tatsächliche Praxistauglichkeit genau einschätzen zu können, ist die Bewertung von Kennzahlen wie der mittleren durchschnittlichen Präzision (mAP), der Inferenzgeschwindigkeit, den Modellparametern und der Rechenkomplexität (FLOPs) unerlässlich. Die folgende Tabelle zeigt, wie die YOLO11 im Vergleich zu den größeren YOLOv7 abschneiden.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Wie zu beobachten ist, erreicht ein Modell wie YOLO11x einen höheren mAP 54,7 im Vergleich zu YOLOv7x mit 53,1 mAP, während es deutlich weniger Parameter verwendet (56,9 Mio. gegenüber 71,3 Mio.). Dies unterstreicht die überlegene architektonische Effizienz YOLO11.

Trainingseffizienz und Nutzbarkeit des Ökosystems

Eines der charakteristischsten Merkmale, das diese beiden Architekturen voneinander unterscheidet, ist die Entwicklererfahrung und das umgebende Ökosystem.

YOLOv7 ist im Wesentlichen ein akademisches Forschungsarchiv. Das Trainieren von Modellen erfordert oft komplexe Umgebungseinrichtungen, die manuelle Verwaltung von Abhängigkeiten und die Verwendung langer Befehlszeilenargumente. Obwohl es modernste Experimente unterstützt, kann die Anpassung des YOLOv7 an benutzerdefinierte Produktionsumgebungen zeitaufwändig sein.

YOLO11 definiert Benutzerfreundlichkeit völlig neu. Es ist vollständig in die Ultralytics integriert, ein umfassendes und gut gepflegtes Ökosystem, das nahtlose End-to-End-Workflows bietet. Von der Datenannotation über das lokale Training bis hin zur Bereitstellung optimieren die einheitliche Python und die einfache Befehlszeilenschnittstelle den gesamten Prozess.

Code-Vergleich

Das Training eines Objekterkennungsmodells mit YOLO11 nur wenige Zeilen Code, was die Einstiegshürde erheblich senkt:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Quickly export to ONNX format
model.export(format="onnx")

Im Gegensatz dazu sieht ein typischer YOLOv7 wie folgt aus und erfordert eine sorgfältige Einrichtung von Pfaden, Konfigurationsdateien und bash :

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'

YOLO11 bietet YOLO11 eine immense Vielseitigkeit. Während YOLOv7 völlig unterschiedliche Codebasen oder umfangreiche Modifikationen YOLOv7 , um Aufgaben über die Erkennung hinaus (wie Pose oder Segmentierung) zu unterstützen, YOLO11 die Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und OBB- Erkennung (Oriented Bounding Box) über ein einziges, zusammenhängendes Framework.

Exportieren leicht gemacht

Exportieren von YOLO11 Formate wie TensorRT oder OpenVINO erfordert nur einen einzigen Befehl, wodurch die typischen Probleme mit der Betreiberunterstützung, die bei älteren Modellen auftreten, gemildert werden.

Anwendungen in der Praxis und ideale Anwendungsfälle

Die Wahl zwischen YOLOv7 YOLO11 vollständig vom Projektumfang und den Einsatzbeschränkungen YOLO11 .

Wann sollte man YOLOv7 in Betracht ziehen?

  • Benchmarking älterer Modelle: Akademische Forscher, die sich mit Gradientenpfad-Designs befassen, können YOLOv7 Basis für die Bewertung neuerer konvolutioneller neuronaler Netze verwenden.
  • Vorhandene benutzerdefinierte Pipelines: Teams mit stark angepassten C++- oder CUDA , die speziell für die einzigartige Bounding-Box-Decodierungslogik YOLOv7 entwickelt wurden.

Wann sollte man sich für YOLO11 entscheiden?

  • Kommerzielle Produktion: Anwendungen im Bereich Smart Retail oder Gesundheitsdiagnostik profitieren in hohem Maße von der gepflegten Codebasis und der hohen Stabilität YOLO11.
  • Ressourcenbeschränkte Umgebungen: Dank seines geringen Speicherbedarfs eignet sich YOLO11n besonders gut für den Einsatz auf Mobil- und Edge-Geräten über ONNX.
  • Multitasking-Projekte: Wenn eine einzelne Anwendung eine Person identifizieren, ihr Skelett (Pose) abbilden und segment Objekt, das sie hält, segment muss, YOLO11 eine einheitliche Lösung.

Die Speerspitze: Mit YOLO26 vorwärts gehen

Während YOLO11 eine äußerst robuste Wahl YOLO11 , schläft die Innovation im Bereich der künstlichen Intelligenz nie. Für Ingenieure, die heute neue Projekte starten, ist es interessant, sich mit Ultralytics zu prüfen.

YOLO26 wurde im Januar 2026 veröffentlicht und führt ein durchgängiges NMS Design ein, wodurch die mit der Nachbearbeitung durch Non-Maximum Suppression verbundenen Latenzengpässe vollständig beseitigt werden. Darüber hinaus verfügt YOLO26 über den revolutionären MuSGD-Optimierer, der von LLM-Trainingsmethoden inspiriert ist und eine schnellere Konvergenz gewährleistet. Mit gezielten Verlustverbesserungen durch ProgLoss + STAL und CPU um bis zu 43 % schnelleren CPU aufgrund der Entfernung von DFL ist YOLO26 speziell für Edge-Computing optimiert und stellt den aktuellen Höhepunkt der Bildverarbeitungs-KI dar.

Erfahren Sie mehr über YOLO26

Für Nutzer, die an speziellen alternativen Strukturen interessiert sind, empfiehlt sich die Untersuchung des transformatorbasierten RT-DETR oder die dynamischen Modelle mit offenem Vokabular YOLO zu erkunden, kann ebenfalls zu vorteilhaften Ergebnissen für verschiedene Computer-Vision-Anwendungen führen.


Kommentare