Zum Inhalt springen

YOLOv7 EfficientDet: Ein tiefer Einblick in Echtzeit-Objekterkennungsarchitekturen

Die Entwicklung der Objekterkennung ist geprägt von einem ständigen Spannungsfeld zwischen Genauigkeit und Effizienz. Zwei Schwergewichte in diesem Bereich sind YOLOv7, ein Meilenstein in der „You Only Look Once”-Familie, der 2022 veröffentlicht wurde, und EfficientDet, Google skalierbare Architektur aus dem Jahr 2019. Beide Modelle haben das Gebiet der Computervision maßgeblich beeinflusst, gehen jedoch von grundlegend unterschiedlichen Architekturphilosophien aus, um das Problem der Objekterkennung anzugehen.

Dieser Leitfaden enthält einen umfassenden technischen Vergleich, der Entwicklern, Forschern und Ingenieuren dabei helfen soll, das richtige Tool für ihre spezifischen Computer-Vision-Projekte auszuwählen. Wir werden ihre einzigartigen Architekturen, Benchmark-Leistungskennzahlen, Trainingsmethoden und idealen Einsatzszenarien untersuchen.

Modellübersicht und Ursprünge

Bevor wir uns mit den Kennzahlen befassen, ist es wichtig, die Herkunft dieser Modelle zu verstehen.

YOLOv7: Das Kraftpaket unter den Bag-of-Freebies

YOLOv7 wurde im Juli 2022 veröffentlicht und YOLOv7 die Grenzen dessen, was mit Echtzeit-Detektoren möglich ist, YOLOv7 . Es führte architektonische Innovationen ein, die darauf abzielen, den Trainingsprozess zu optimieren, ohne die Inferenzkosten zu erhöhen – ein Konzept, das die Autoren als „trainable bag-of-freebies” bezeichneten.

Erfahren Sie mehr über YOLOv7

EfficientDet: Skalierbar und effizient

EfficientDet wurde vom Google -Team entwickelt und konzentrierte sich auf einen systematischen Ansatz zur Skalierung. Es kombinierte ein neuartiges gewichtetes bidirektionales Feature-Pyramiden-Netzwerk (BiFPN) mit einer zusammengesetzten Skalierungsmethode, die Auflösung, Tiefe und Breite einheitlich skaliert.

Architektonische Unterschiede

Der wesentliche Unterschied zwischen diesen beiden Modellen liegt darin, wie sie mit der Aggregation von Merkmalen und der Skalierung von Modellen umgehen.

YOLOv7-Architektur

YOLOv7 das Extended Efficient Layer Aggregation Network (E-ELAN)YOLOv7 . Diese Architektur ermöglicht es dem Modell, vielfältigere Merkmale zu lernen, indem es die kürzesten und längsten Gradientenpfade steuert und so die Lernfähigkeit des Netzwerks verbessert, ohne den ursprünglichen Gradientenpfad zu zerstören.

Wesentliche Architekturmerkmale umfassen:

  • Modellskalierung: Im Gegensatz zur zusammengesetzten Skalierung von EfficientDet YOLOv7 die Architekturattribute (Tiefe und Breite) in verkettungsbasierten Modellen gleichzeitig.
  • Hilfskopf grob bis fein: Es wird Deep Supervision eingesetzt, wobei ein Hilfskopf grobe Labels für das Training generiert, während der Hauptkopf die Feinabstimmung übernimmt.
  • Neuparametrisierung: YOLOv7 RepConv-Schichten, die komplexe Trainingszeitstrukturen zu Standardkonvolutionen vereinfachen, um eine schnellere Inferenz zu ermöglichen – eine Technik, die für die Echtzeit-Inferenz von entscheidender Bedeutung ist.

EfficientDet Architektur

EfficientDet basiert auf dem EfficientNet-Backbone und führt das BiFPN ein.

Wesentliche Architekturmerkmale umfassen:

  • BiFPN: Ein gewichtetes bidirektionales Feature-Pyramiden-Netzwerk, das eine einfache und schnelle Fusion von Merkmalen auf mehreren Ebenen ermöglicht. Es lernt die Bedeutung verschiedener Eingabemerkmale und wendet wiederholt eine Top-Down- und Bottom-Up-Fusion von Merkmalen auf mehreren Ebenen an.
  • Compound Scaling: Ein einfacher, aber effektiver Koeffizient, der die Netzwerkbreite, -tiefe und -auflösung gemeinsam skaliert und so eine Familie von Modellen (D0 bis D7) ermöglicht, die auf unterschiedliche Ressourcenbeschränkungen ausgerichtet sind.

Leistungsvergleich

Beim Vergleich der Leistung betrachten wir die mittlere durchschnittliche Genauigkeit (mAP) im COCO im Verhältnis zur Inferenzgeschwindigkeit.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Kritische Analyse

  1. Latenz: YOLOv7 auf GPU deutlich schneller. So erreicht YOLOv7x beispielsweise 53,1 % mAP einer TensorRT von ~11,5 ms, während EfficientDet-d7 ~128 ms benötigt, um einen geringfügig höheren Wert von 53,7 % mAP zu erreichen. Damit ist YOLOv7 in Szenarien mit hoher Genauigkeit YOLOv7 zehnmal schneller.
  2. Effizienz: EfficientDet-d0 bis d2 sind hinsichtlich der FLOPs extrem leichtgewichtig und eignen sich daher für CPUs mit sehr geringer Leistung, bei denen keine GPU verfügbar ist. Bei einer Skalierung auf D4 und höher verringert sich jedoch die Effizienzsteigerung im Vergleich zu YOLO .
  3. Genauigkeit: EfficientDet-d7 bietet zwar eine beeindruckende Genauigkeit, jedoch sind die Rechenkosten für Echtzeitanwendungen unerschwinglich. YOLOv7 einen besseren „Sweet Spot“, da es eine hohe Genauigkeit beibehält, ohne die Echtzeitfähigkeiten zu beeinträchtigen.

Training und Ökosystem

Das Ökosystem rund um ein Modell bestimmt dessen Praxistauglichkeit für Entwickler. Hier bietet die Ultralytics einen erheblichen Mehrwert.

Effizientes Ökosystem

EfficientDet basiert in erster Linie auf dem TensorFlow . Obwohl es leistungsstark ist, erfordert die Integration in moderne Pipelines oft die Bewältigung komplexer Abhängigkeiten.

  • Komplexität: Die BiFPN- und Swish-Aktivierungen können auf bestimmten Edge-Beschleunigern im Vergleich zu Standard-Faltungen schwieriger zu optimieren sein.
  • Wartung: Viele Repositorys werden im Vergleich zum schnellen Release-Zyklus der YOLO weniger häufig aktualisiert.

Ultralytics Ökosystem-Vorteil

Einer der herausragenden Vorteile der Verwendung Ultralytics wie YOLOv7 und neueren Versionen) ist das gut gepflegte Ökosystem.

  • Benutzerfreundlichkeit: Ultralytics eine einheitliche Python , die das Training, die Validierung und die Bereitstellung vereinfacht.
  • Trainingseffizienz: YOLO nutzen GPU effektiv und reduzieren so den Zeit- und Kostenaufwand für das Training mit benutzerdefinierten Datensätzen.
  • Speicheranforderungen: Im Vergleich zu älteren zweistufigen Detektoren oder schweren transformatorbasierten Modellen benötigt YOLOv7 während des Trainings YOLOv7 weniger CUDA , was größere Batch-Größen auf handelsüblicher Hardware ermöglicht.

Optimiertes Training mit Ultralytics

Das Training eines YOLO ist mit der Python ganz einfach. So starten Sie einen Trainingslauf:

from ultralytics import YOLO

# Load a model
model = YOLO("yolov7.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Anwendungsfall-Empfehlungen

Wann man YOLOv7 wählen sollte

YOLOv7 die bevorzugte Wahl für Echtzeitanwendungen, bei denen Latenzzeiten entscheidend sind.

  • Autonomes Fahren: Erkennt Fußgänger, Fahrzeuge und Verkehrszeichen mit hoher Bildfrequenz und gewährleistet so eine sichere Entscheidungsfindung.
  • Robotik: Ideal für die Integration von Computer Vision in die Robotik, damit Roboter in dynamischen Umgebungen navigieren und mit ihnen interagieren können.
  • Videoanalyse: Verarbeitet mehrere Videostreams gleichzeitig für Sicherheits- oder Einzelhandelsanalysen, ohne dass dafür umfangreiche Rechencluster erforderlich sind.

Wann EfficientDet wählen?

EfficientDet bleibt für bestimmte Szenarien mit geringem Stromverbrauch relevant oder wenn die Modellgröße (in MB) die primäre Einschränkung darstellt und nicht die Latenz.

  • Mobile Apps: Kleinere Varianten wie D0-D1 eignen sich für mobile Geräte, bei denen der Speicherplatz stark begrenzt ist.
  • Legacy-Systeme: In Umgebungen, die bereits stark für TensorFlow optimiert sind, lässt sich EfficientDet möglicherweise leichter integrieren.
  • Akademische Forschung: Nützlich für die Untersuchung der Auswirkungen von Compound-Skalierung oder Feature-Fusion-Techniken, bei denen Echtzeit-Inferenz nicht das primäre Ziel ist.

Die Zukunft: Upgrade auf YOLO26

YOLOv7 zwar YOLOv7 ein leistungsfähiges Tool, doch der Bereich der Bildverarbeitung entwickelt sich rasant weiter. Für Entwickler, die nach der absolut besten Leistung suchen, ist das im Januar 2026 veröffentlichte Modell YOLO26 das Nonplusultra.

YOLO26 baut auf dem Erbe früherer YOLOs mit einem NMS Design auf. Dadurch entfällt die Notwendigkeit einer Nachbearbeitung mit Non-Maximum Suppression (NMS), was die Bereitstellungspipelines vereinfacht und die Inferenzgeschwindigkeit erhöht.

Die wichtigsten Vorteile von YOLO26 gegenüber YOLOv7 EfficientDet sind:

  • MuSGD Optimizer: Eine Mischung aus SGD Muon, die Innovationen aus dem LLM-Training in die Computer Vision einbringt und so für ein stabileres Training und eine schnellere Konvergenz sorgt.
  • Edge-Optimierung: Durch die Entfernung von Distribution Focal Loss (DFL) ist YOLO26 auf CPU bis zu 43 % schneller und damit noch besser für Edge-Geräte geeignet als EfficientDet.
  • Verbesserte Vielseitigkeit: Über die Erkennung hinaus bietet YOLO26 modernste Leistung bei der Posenschätzung, Instanzsegmentierung und Oriented Bounding Box (OBB) – alles in einem einzigen Framework.
  • ProgLoss + STAL: Verbesserte Verlustfunktionen sorgen für deutliche Verbesserungen bei der Erkennung kleiner Objekte, was für das Internet der Dinge und Luftbildaufnahmen von entscheidender Bedeutung ist.

Erfahren Sie mehr über YOLO26

Fazit

Sowohl YOLOv7 EfficientDet haben sich ihren Platz in der Geschichte der Bildverarbeitung gesichert. EfficientDet führte elegante Skalierungsprinzipien ein, während YOLOv7 den „Bag-of-Freebies”-Ansatz für Echtzeitgeschwindigkeit YOLOv7 . Für moderne Produktionspipelines, die Leistungsausgewogenheit, Benutzerfreundlichkeit und Vielseitigkeit erfordern, bietet das Ultralytics – verkörpert durch YOLOv7 das neuere YOLO26 – jedoch einen deutlichen Vorteil.

Mit geringeren Speicheranforderungen während des Trainings und nahtlosem Export in Formate wie ONNX und TensorRTsorgen Ultralytics dafür, dass Ihr Weg vom Datensatz bis zur Bereitstellung so reibungslos wie möglich verläuft.

Weiterführende Informationen

  • Modelle: Entdecken Sie andere Architekturen wie YOLOv8, YOLO11und RT-DETR.
  • Plattform: Verwenden Sie die Ultralytics , um Datensätze zu verwalten, Modelle zu trainieren und mühelos bereitzustellen.
  • Anleitungen: Erfahren Sie mehr über die Hyperparameter-Optimierung, um die maximale Leistung aus Ihren Modellen herauszuholen.

Kommentare