Zum Inhalt springen

YOLOv9 .YOLO: Fortschritte bei der Echtzeit-Objekterkennung

Die Entwicklung der Echtzeit-Objekterkennung ist geprägt von dem ständigen Streben nach einem optimalen Gleichgewicht zwischen Genauigkeit und Latenz. In diesem detaillierten Vergleich untersuchen wir zwei bedeutende Architekturen: YOLOv9, bekannt für seine programmierbaren Gradienteninformationen (PGI) und sein generalisiertes effizientes Layer-Aggregationsnetzwerk (GELAN), und YOLO, eine Modellfamilie, die durch neuronale Architektursuche (NAS) und Rep-Parametrisierungstechniken optimiert wurde.

Wir stellen auch die neueste Generation vor, YOLO26, die diese Grenzen mit einem durchgängigen NMS Design und einer Optimierung für Edge-Geräte noch weiter verschiebt.

Vergleichende Leistungskennzahlen

Die folgende Tabelle enthält einen direkten Vergleich der wichtigsten Leistungskennzahlen für den COCO . YOLOv9 eine überlegene Parametereffizienz und bei vergleichbaren Modellgrößen oft eine höhere Genauigkeit YOLOv9 .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv9: Programmierbare Gradienteninformation

YOLOv9 stellt einen bedeutenden Fortschritt im Bereich des Deep-Learning-Architekturdesigns dar und löst das Problem des Informationsengpasses, das tiefen Netzwerken innewohnt.

Wesentliche architektonische Innovationen

  1. Programmierbare Gradienteninformationen (PGI): Mit zunehmender Tiefe von Netzwerken gehen wichtige Merkmalsinformationen während des Feedforward-Prozesses häufig verloren. PGI führt einen zusätzlichen reversiblen Zweig ein, der dem Hauptzweig während des Trainings zuverlässige Gradienteninformationen liefert. Dadurch wird sichergestellt, dass das Netzwerk wichtige Merkmale für eine genaue Erkennung beibehält, wodurch das Problem des „Informationsengpasses” effektiv gelöst wird, ohne dass zusätzliche Inferenzkosten entstehen.
  2. GELAN Backbone: Das Generalized Efficient Layer Aggregation Network (GELAN) vereint die besten Aspekte von CSPNet und ELAN. Es ermöglicht eine flexible Auswahl von Rechenblöcken (wie ResBlocks oder CSP-Blöcke) bei gleichzeitiger Maximierung der Parameterauslastung. Das Ergebnis sind Modelle, die leichtgewichtig und dennoch unglaublich leistungsstark sind.

Diese Innovationen machen YOLOv9 effektiv für die allgemeine Objekterkennung und besonders geeignet für die Erfassung feiner Details in komplexen Szenen.

Erfahren Sie mehr über YOLOv9

YOLO: Optimierung der neuronalen Architektur

YOLO konzentriert sich darauf, effiziente Architekturen automatisch zu entdecken und Destillationstechniken einzusetzen, um die Leistung zu steigern.

Architektur-Highlights

YOLO eine Technologie namens Neural Architecture Search (NAS), um sein Rückgrat, MAE-NAS, aufzubauen. Dieser Ansatz zielt darauf ab, die optimale Netzwerkstruktur innerhalb bestimmter Latenzbedingungen zu finden. Zusätzlich verwendet es ein Efficient RepGFPN (Re-parameterized Generalized Feature Pyramid Network), um Merkmale über verschiedene Skalen hinweg zu verschmelzen. Das Modell stützt sich außerdem stark auf „ZeroHead” und Distillationsverbesserung, wobei ein größeres Lehrer-Modell das Training des kleineren Schüler-Modells anleitet, um dessen Genauigkeit zu verbessern.

Obwohl innovativ, kann die Abhängigkeit von NAS und komplexen Destillationspipelines die Reproduktion von Ergebnissen oder die Anpassung der Architektur für benutzerdefinierte Aufgaben im Vergleich zum modularen Design von YOLOv9 erschweren.

Ultralytics von Ultralytics : Ökosystem und Benutzerfreundlichkeit

Obwohl beide Architekturen starke theoretische Beiträge leisten, unterscheiden sich die praktischen Erfahrungen für Entwickler erheblich. Ultralytics , darunter YOLOv9 YOLO26, bieten eine nahtlose „reibungslose“ Erfahrung.

Optimierter Arbeitsablauf

Das Training einesYOLO erfordert oft komplexe Konfigurationsdateien und spezifische Umgebungseinstellungen (wie PaddlePaddle bestimmte CUDA ). Im Gegensatz dazu standardisiert die Ultralytics Python den Workflow. Sie können modernste Modelle in wenigen Minuten laden, trainieren und bereitstellen.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Vielseitigkeit und Aufgabenunterstützung

Ultralytics sind nicht auf Begrenzungsrahmen beschränkt. Das Framework unterstützt nativ Instanzsegmentierung, Posenschätzung und die Erkennung orientierter Begrenzungsrahmen (OBB). Dank dieser Vielseitigkeit können Teams zwischen Aufgaben wechseln, ohne neue Bibliotheken erlernen zu müssen.YOLO hingegenYOLO in erster Linie auf die Standarderkennung und bietet weniger integrierte Unterstützung für diese komplexen nachgelagerten Aufgaben.

Trainingseffizienz und Speicher

Ultralytics YOLO sind auf Effizienz ausgelegt. Im Vergleich zu transformatorlastigen Architekturen oder NAS-generierten Modellen, die unregelmäßige Speicherzugriffsmuster aufweisen können, benötigen sie während des Trainings in der Regel weniger GPU . Dadurch können Forscher robuste Modelle auf handelsüblicher Hardware trainieren und den Zugang zu High-End-Computer Vision demokratisieren.

Anwendungen in der realen Welt

Die Wahl des richtigen Modells hängt von Ihren Einsatzbeschränkungen und Leistungszielen ab.

Ideale Anwendungsfälle für YOLOv9

  • Einzelhandelsanalyse: Dank seiner hohen Genauigkeit eignet sich YOLOv9c hervorragend für die Produkterkennung in überfüllten Regalen, wo es häufig zu Verdeckungen kommt.
  • Medizinische Bildgebung: Die PGI-Architektur hilft dabei, wichtige Merkmalsinformationen zu speichern, was für die Erkennung kleiner Anomalien in medizinischen Scans oder die Identifizierung von Frakturen von entscheidender Bedeutung ist.
  • Allgemeine Überwachung: Für Standard-Sicherheitsfeeds, bei denen ein Gleichgewicht zwischen hoher mAP angemessener FPS erforderlich ist.

Ideale Anwendungsfälle fürYOLO

  • Eingeschränkte Hardwaresuche: Wenn Sie nach einem NAS suchen, das speziell auf eine sehr spezielle Hardwarebeschränkung zugeschnitten ist, bei der Standard-Backbones versagen.
  • Akademisches Benchmarking: Für Forscher, die die Wirksamkeit von Destillationstechniken mit struktureller Neuparametrisierung vergleichen.

Warum YOLO26 die Zukunft ist

Für Entwickler, die 2026 neue Projekte starten, bietet YOLO26 die überzeugendsten Funktionen. Es baut auf den Stärken von YOLOv9 auf, führt YOLOv9 ein durchgängiges NMS Design ein, wodurch die Nachbearbeitung mit Non-Maximum Suppression entfällt. Dies vereinfacht die Bereitstellung erheblich und reduziert die Latenz, insbesondere auf Edge-Geräten.

Erfahren Sie mehr über YOLO26

Zu den wichtigsten Innovationen von YOLO26 gehören:

  • MuSGD Optimizer: Eine Mischung aus SGD Muon, die das Training stabilisiert und die Konvergenz beschleunigt, wodurch die Stabilität des Trainings großer Sprachmodelle (LLM) auf die Bildverarbeitung übertragen wird.
  • DFL-Entfernung: Die Entfernung von Distribution Focal Loss vereinfacht den Modellgraphen und erleichtert den Export in Formate wie ONNX und TensorRT vereinfacht.
  • Verbesserte Erkennung kleiner Objekte: Durch ProgLoss und STAL eignet sich YOLO26 hervorragend für Luftbildaufnahmen und Drohnenanwendungen.

Machen Sie Ihre Bereitstellung zukunftssicher

Durch die Migration zu YOLO26 profitiert Ihre Anwendung von den neuesten Fortschritten in der Edge-Optimierung. Das native End-to-End-Design ermöglicht eine schnellere Inferenz auf CPUs und NPUs, was für batteriebetriebene IoT-Geräte von entscheidender Bedeutung ist.

Fazit

WährendYOLO interessante Konzepte in Bezug auf neuronale Architektursuche und DestillationYOLO , YOLOv9 und das neuere YOLO26 eine praktischere, leistungsfähigere und benutzerfreundlichere Lösung für die überwiegende Mehrheit der Computer-Vision-Anwendungen. Das Ultralytics stellt sicher, dass Entwickler Zugang zu den besten Tools für das Training, die Verfolgung und den Einsatz von Modellen haben, unterstützt durch umfangreiche Dokumentation und Community-Support.

Für weitere Informationen zu Modellarchitekturen empfehlen wir Ihnen, unsere Vergleiche zwischen YOLOv10 YOLO oder YOLO11 YOLOv9 zu lesen.


Kommentare