Zum Inhalt springen

YOLO YOLOv7: Bewertung von Echtzeit-Objektdetektoren

Die rasante Entwicklung der Computervision hat zu hocheffizienten Objekterkennungsmodellen geführt, die auf ein ausgewogenes Verhältnis zwischen Präzision und Rechenaufwand ausgelegt sind. Zwei bemerkenswerte Modelle, die 2022 eingeführt wurden, sind YOLO und YOLOv7. Beide zielen darauf ab, die Grenzen von Echtzeit-Vision-Aufgaben zu erweitern, erzielen ihre Ergebnisse jedoch durch sehr unterschiedliche Architekturparadigmen und Trainingsmethoden.

Dieser umfassende technische Vergleich untersucht die unterschiedlichen Ansätze beider Modelle und beleuchtet deren Architekturen, Einsatzmöglichkeiten und Leistungskennzahlen, um Machine-Learning-Ingenieuren dabei zu helfen, das richtige Tool für ihre spezifischen Computer-Vision-Anwendungen auszuwählen.

Modellursprünge und Metadaten

Bevor wir uns mit der tiefgreifenden technischen Analyse befassen, ist es wichtig, die Ursprünge dieser beiden Computer-Vision-Modelle in einen Kontext zu setzen.

DAMO-YOLO

YOLO von Forschern der Alibaba Group entwickelt und eingeführt, um sowohl die Geschwindigkeit als auch die Genauigkeit durch automatisierte Architektursuche und -destillation zu optimieren.

Erfahren Sie mehr über DAMO-YOLO

YOLOv7

YOLOv7 wurde Mitte 2022 als neueste Technologie auf den Markt gebracht und YOLOv7 die Echtzeit-Inferenz durch die Einführung trainierbarer „Bag-of-Freebies” weiter YOLOv7 , ohne die Bereitstellungskosten zu erhöhen.

Erfahren Sie mehr über YOLOv7

Unterstütztes Ökosystem

YOLOv7 offiziell im Ultralytics unterstützt und ermöglicht nahtloses Training, Validierung und Export mit einer einheitlichen API.

Architektonische Innovationen

YOLO: NAS und Destillation

YOLO mehrere hochmoderne Techniken, die auf maximale Effizienz ausgerichtet sind:

  • NAS-Backbones: Nutzt Neural Architecture Search (NAS), um automatisch optimale Backbones (MAE-NAS) zu entwerfen, die auf latenzkritische Umgebungen zugeschnitten sind.
  • Effizientes RepGFPN: Ein modifiziertes Generalized Feature Pyramid Network, das die Effizienz der Merkmalsfusion über mehrere Skalen hinweg erheblich verbessert.
  • ZeroHead & AlignedOTA: Enthält einen leichtgewichtigen Erkennungskopf und eine optimierte Strategie zur Etikettenzuweisung (AlignedOTA), um den Rechenaufwand zu reduzieren.
  • Verbesserung der Destillation: Nutzt während des Trainings in hohem Maße die Wissensdestillation, um die Leistung kleinerer Modellvarianten zu steigern, ohne deren Parameteranzahl zu erhöhen.

YOLOv7: E-ELAN und Bag-of-Freebies

YOLOv7 einen eher strukturellen Ansatz und konzentrierte sich auf die Optimierung des Gradientenpfads und robuste Trainingsstrategien.

  • E-ELAN-Architektur: Das Extended Efficient Layer Aggregation Network ermöglicht es dem Modell, vielfältigere Merkmale zu erlernen, indem es die kürzesten und längsten Gradientenpfade steuert und so eine effektive Lernkonvergenz sicherstellt.
  • Modellskalierung: Führt eine zusammengesetzte Skalierungsmethode ein, die speziell auf verkettungsbasierte Modelle zugeschnitten ist und Tiefe und Breite gleichzeitig für die strukturelle Ausrichtung skaliert.
  • Trainable Bag-of-Freebies: Verwendet Techniken wie re-parametrisierte Faltungen (RepConv) ohne Identitätsverbindungen und dynamische Strategien zur Labelzuweisung, die die Genauigkeit während des Trainings erhöhen, ohne die Inferenzgeschwindigkeit zu beeinträchtigen.

Leistungsanalyse

Bei der Bewertung der mittleren durchschnittlichen Genauigkeit (mAP), Geschwindigkeit und Effizienz weisen beide Modelle beeindruckende Kennzahlen auf, obwohl sie auf leicht unterschiedliche Segmente abzielen. YOLOv7 stark auf GPU mit hoher Genauigkeit, während die von NAS abgeleiteten StrukturenYOLO auf einen aggressiven Einsatz CPU Edge-Computing mit geringer Latenz abzielen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Wie aus den Metriken hervorgeht,YOLO zwar extrem leichtgewichtige Varianten (wie das winzige Modell mit nur 8,5 Millionen Parametern), YOLOv7 jedoch eine höhere Gesamtgenauigkeit, wobei YOLOv7x beeindruckende 53,1 mAP COCO erzielt.

Der Vorteil des Ultralytics-Ökosystems

Die theoretische Architektur ist zwar wichtig, doch die Praktikabilität eines Modells hängt von seinem Ökosystem ab. Von Ultralytics unterstützte Modelle wie YOLOv7 profitieren von einem gut gepflegten Ökosystem und einer unvergleichlichen Benutzerfreundlichkeit.

  • Leistungsausgewogenheit: Ultralytics bieten stets einen optimalen Kompromiss zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit und eignen sich daher ideal sowohl für Edge-Geräte als auch für die Bereitstellung cloudbasierter Modelle.
  • Speicheranforderungen: Im Gegensatz zu schwereren Transformer-basierten Modellen haben Ultralytics YOLO einen geringen Speicherbedarf. CUDA Speicheranforderungen während des Trainings. Dies ermöglicht größere Batch-Größen und optimiert den Trainingsprozess selbst auf handelsüblicher Hardware.
  • Vielseitigkeit: Das Ultralytics geht über die Objekterkennung hinaus und umfasst Aufgaben wie Instanzsegmentierung und Posenschätzung, sodass Entwickler ein komplettes Toolkit für Computer Vision erhalten.

Trainingseffizienz

Ultralytics können Sie in nur wenigen Minuten nahtlos von Datensätzen zu einem vollständig trainierten Modell übergehen, indem Sie hochoptimierte Datenlader und vortrainierte Gewichte nutzen.

Code-Beispiel: Training YOLOv7 Ultralytics

Die Integration von YOLOv7 Ihre Computer-Vision-Pipeline ist mit der Ultralytics Python unglaublich einfach.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Der neue Standard: Vorstellung von YOLO26

Während YOLOv7 YOLO im Jahr 2022 bedeutende DurchbrücheYOLO , entwickelt sich der Bereich der Bildverarbeitungs-KI rasant weiter. Für Teams, die heute neue Projekte starten, ist das empfohlene Modell das hochmoderne Ultralytics , das im Januar 2026 veröffentlicht wurde.

YOLO26 sorgt für einen Generationssprung in Sachen Leistung und Benutzerfreundlichkeit und verfügt über modernste Innovationen:

  • End-to-End-Design NMS: YOLO26 ist von Haus aus End-to-End. Durch den Verzicht auf die Nachbearbeitung mit Non-Maximum Suppression (NMS) bietet es eine schnellere und einfachere Bereitstellungslogik – ein Paradigmenwechsel, der ursprünglich von YOLOv10eingeführt wurde.
  • MuSGD-Optimierer: Inspiriert von Innovationen im Bereich großer Sprachmodelle wie Kimi K2 von Moonshot AI nutzt YOLO26 eine Mischung aus SGD Muon. Dieser Optimierer sorgt für eine äußerst stabile Trainingsdynamik und deutlich schnellere Konvergenzraten.
  • Bis zu 43 % schnellere CPU : Durch die gezielte Entfernung von Distribution Focal Loss (DFL) und tiefgreifende strukturelle Verbesserungen wurde YOLO26 stark für energiesparendes Edge-Computing optimiert und übertrifft damit frühere Generationen aufGPU .
  • ProgLoss + STAL: Enthält fortschrittliche neue Verlustfunktionen, die explizit auf die Erkennung kleiner Objekte abzielen und diese verbessern – eine wesentliche Fähigkeit für Anwendungen in den Bereichen Luftbildaufnahmen, Robotik und Sicherheitsüberwachung.
  • Aufgabenspezifische Verbesserungen: Über die Standarderkennung hinaus bietet YOLO26 maßgeschneiderte Verbesserungen für verschiedene Aufgaben, darunter Multi-Scale-Prototyping für die Segmentierung, RLE für die Posenschätzung und spezifische Winkelverluste für Oriented Bounding Boxes (OBB).

Erfahren Sie mehr über YOLO26

Ideale Anwendungsfälle

Die Wahl der richtigen Architektur hängt vollständig von Ihrer Zielumgebung und den Projektbeschränkungen ab.

Wann sollte man sich fürYOLO entscheiden?

  • Sie arbeiten in stark eingeschränkten, ressourcenbegrenzten Edge-Umgebungen, in denen die Anzahl der Rohparameter extrem gering gehalten werden muss (z. B. Mikrocontroller).
  • Sie nutzen automatisierte Machine-Learning-Pipelines, die speziell in die proprietären Cloud-Dienste von Alibaba integriert sind.

Wann sollte man sich für YOLOv7 entscheiden?

  • Sie verfügen bereits über ältere GPU , die für ankerbasierte, hochpräzise Inferenz optimiert sind.
  • Sie arbeiten in Umgebungen, in denen Echtzeitgenauigkeit von größter Bedeutung ist, wie beispielsweise bei autonomen Hochgeschwindigkeitsfahrzeugen oder fortschrittlicher Robotik.

Wann sollte man sich für YOLO26 entscheiden (empfohlen):

  • Sie entwickeln eine neue Computer-Vision-Anwendung von Grund auf neu und benötigen dabei sowohl hinsichtlich der Präzision als auch CPU den absoluten Stand der Technik.
  • Sie benötigen eine schnelle, nahtlose Bereitstellung (z. B. Export nach CoreML oder TensorRT) ohne sich mit den Einschränkungen NMS auseinandersetzen zu müssen.
  • Sie möchten die gesamten Funktionen der Ultralytics für Cloud-Schulungen, Datenverwaltung und automatisierte Bereitstellung nutzen.

Durch die Nutzung des robusten Ökosystems der Ultralytics können Entwickler den Entwicklungsaufwand drastisch reduzieren und gleichzeitig eine erstklassige Vorhersageleistung für ihre realen Anwendungen sicherstellen.


Kommentare