YOLOv9 .YOLO: Fortschritte bei der Echtzeit-Objekterkennung
Die Entwicklung der Echtzeit-Objekterkennung ist geprägt von dem ständigen Streben nach einem optimalen Gleichgewicht zwischen Genauigkeit und Latenz. In diesem detaillierten Vergleich untersuchen wir zwei bedeutende Architekturen: YOLOv9, bekannt für seine programmierbaren Gradienteninformationen (PGI) und sein generalisiertes effizientes Layer-Aggregationsnetzwerk (GELAN), und YOLO, eine Modellfamilie, die durch neuronale Architektursuche (NAS) und Rep-Parametrisierungstechniken optimiert wurde.
Wir stellen auch die neueste Generation vor, YOLO26, die diese Grenzen mit einem durchgängigen NMS Design und einer Optimierung für Edge-Geräte noch weiter verschiebt.
Vergleichende Leistungskennzahlen
Die folgende Tabelle enthält einen direkten Vergleich der wichtigsten Leistungskennzahlen für den COCO . YOLOv9 eine überlegene Parametereffizienz und bei vergleichbaren Modellgrößen oft eine höhere Genauigkeit YOLOv9 .
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9: Programmierbare Gradienteninformation
YOLOv9 stellt einen bedeutenden Fortschritt im Bereich des Deep-Learning-Architekturdesigns dar und löst das Problem des Informationsengpasses, das tiefen Netzwerken innewohnt.
- Autoren: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organisation:Institute of Information Science, Academia Sinica
- Datum: 2024-02-21
- Arxiv:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
- GitHub:WongKinYiu/yolov9
Wesentliche architektonische Innovationen
- Programmierbare Gradienteninformationen (PGI): Mit zunehmender Tiefe von Netzwerken gehen wichtige Merkmalsinformationen während des Feedforward-Prozesses häufig verloren. PGI führt einen zusätzlichen reversiblen Zweig ein, der dem Hauptzweig während des Trainings zuverlässige Gradienteninformationen liefert. Dadurch wird sichergestellt, dass das Netzwerk wichtige Merkmale für eine genaue Erkennung beibehält, wodurch das Problem des „Informationsengpasses” effektiv gelöst wird, ohne dass zusätzliche Inferenzkosten entstehen.
- GELAN Backbone: Das Generalized Efficient Layer Aggregation Network (GELAN) vereint die besten Aspekte von CSPNet und ELAN. Es ermöglicht eine flexible Auswahl von Rechenblöcken (wie ResBlocks oder CSP-Blöcke) bei gleichzeitiger Maximierung der Parameterauslastung. Das Ergebnis sind Modelle, die leichtgewichtig und dennoch unglaublich leistungsstark sind.
Diese Innovationen machen YOLOv9 effektiv für die allgemeine Objekterkennung und besonders geeignet für die Erfassung feiner Details in komplexen Szenen.
YOLO: Optimierung der neuronalen Architektur
YOLO konzentriert sich darauf, effiziente Architekturen automatisch zu entdecken und Destillationstechniken einzusetzen, um die Leistung zu steigern.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- Organisation: Alibaba Group
- Datum: 2022-11-23
- Arxiv:DAMO-YOLO: Ein Bericht über das Design von Echtzeit-Objektdetektion
- GitHub:tinyvision/DAMO-YOLO
Architektur-Highlights
YOLO eine Technologie namens Neural Architecture Search (NAS), um sein Rückgrat, MAE-NAS, aufzubauen. Dieser Ansatz zielt darauf ab, die optimale Netzwerkstruktur innerhalb bestimmter Latenzbedingungen zu finden. Zusätzlich verwendet es ein Efficient RepGFPN (Re-parameterized Generalized Feature Pyramid Network), um Merkmale über verschiedene Skalen hinweg zu verschmelzen. Das Modell stützt sich außerdem stark auf „ZeroHead” und Distillationsverbesserung, wobei ein größeres Lehrer-Modell das Training des kleineren Schüler-Modells anleitet, um dessen Genauigkeit zu verbessern.
Obwohl innovativ, kann die Abhängigkeit von NAS und komplexen Destillationspipelines die Reproduktion von Ergebnissen oder die Anpassung der Architektur für benutzerdefinierte Aufgaben im Vergleich zum modularen Design von YOLOv9 erschweren.
Ultralytics von Ultralytics : Ökosystem und Benutzerfreundlichkeit
Obwohl beide Architekturen starke theoretische Beiträge leisten, unterscheiden sich die praktischen Erfahrungen für Entwickler erheblich. Ultralytics , darunter YOLOv9 YOLO26, bieten eine nahtlose „reibungslose“ Erfahrung.
Optimierter Arbeitsablauf
Das Training einesYOLO erfordert oft komplexe Konfigurationsdateien und spezifische Umgebungseinstellungen (wie PaddlePaddle bestimmte CUDA ). Im Gegensatz dazu standardisiert die Ultralytics Python den Workflow. Sie können modernste Modelle in wenigen Minuten laden, trainieren und bereitstellen.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Vielseitigkeit und Aufgabenunterstützung
Ultralytics sind nicht auf Begrenzungsrahmen beschränkt. Das Framework unterstützt nativ Instanzsegmentierung, Posenschätzung und die Erkennung orientierter Begrenzungsrahmen (OBB). Dank dieser Vielseitigkeit können Teams zwischen Aufgaben wechseln, ohne neue Bibliotheken erlernen zu müssen.YOLO hingegenYOLO in erster Linie auf die Standarderkennung und bietet weniger integrierte Unterstützung für diese komplexen nachgelagerten Aufgaben.
Trainingseffizienz und Speicher
Ultralytics YOLO sind auf Effizienz ausgelegt. Im Vergleich zu transformatorlastigen Architekturen oder NAS-generierten Modellen, die unregelmäßige Speicherzugriffsmuster aufweisen können, benötigen sie während des Trainings in der Regel weniger GPU . Dadurch können Forscher robuste Modelle auf handelsüblicher Hardware trainieren und den Zugang zu High-End-Computer Vision demokratisieren.
Anwendungen in der realen Welt
Die Wahl des richtigen Modells hängt von Ihren Einsatzbeschränkungen und Leistungszielen ab.
Ideale Anwendungsfälle für YOLOv9
- Einzelhandelsanalyse: Dank seiner hohen Genauigkeit eignet sich YOLOv9c hervorragend für die Produkterkennung in überfüllten Regalen, wo es häufig zu Verdeckungen kommt.
- Medizinische Bildgebung: Die PGI-Architektur hilft dabei, wichtige Merkmalsinformationen zu speichern, was für die Erkennung kleiner Anomalien in medizinischen Scans oder die Identifizierung von Frakturen von entscheidender Bedeutung ist.
- Allgemeine Überwachung: Für Standard-Sicherheitsfeeds, bei denen ein Gleichgewicht zwischen hoher mAP angemessener FPS erforderlich ist.
Ideale Anwendungsfälle fürYOLO
- Eingeschränkte Hardwaresuche: Wenn Sie nach einem NAS suchen, das speziell auf eine sehr spezielle Hardwarebeschränkung zugeschnitten ist, bei der Standard-Backbones versagen.
- Akademisches Benchmarking: Für Forscher, die die Wirksamkeit von Destillationstechniken mit struktureller Neuparametrisierung vergleichen.
Warum YOLO26 die Zukunft ist
Für Entwickler, die 2026 neue Projekte starten, bietet YOLO26 die überzeugendsten Funktionen. Es baut auf den Stärken von YOLOv9 auf, führt YOLOv9 ein durchgängiges NMS Design ein, wodurch die Nachbearbeitung mit Non-Maximum Suppression entfällt. Dies vereinfacht die Bereitstellung erheblich und reduziert die Latenz, insbesondere auf Edge-Geräten.
Zu den wichtigsten Innovationen von YOLO26 gehören:
- MuSGD Optimizer: Eine Mischung aus SGD Muon, die das Training stabilisiert und die Konvergenz beschleunigt, wodurch die Stabilität des Trainings großer Sprachmodelle (LLM) auf die Bildverarbeitung übertragen wird.
- DFL-Entfernung: Die Entfernung von Distribution Focal Loss vereinfacht den Modellgraphen und erleichtert den Export in Formate wie ONNX und TensorRT vereinfacht.
- Verbesserte Erkennung kleiner Objekte: Durch ProgLoss und STAL eignet sich YOLO26 hervorragend für Luftbildaufnahmen und Drohnenanwendungen.
Machen Sie Ihre Bereitstellung zukunftssicher
Durch die Migration zu YOLO26 profitiert Ihre Anwendung von den neuesten Fortschritten in der Edge-Optimierung. Das native End-to-End-Design ermöglicht eine schnellere Inferenz auf CPUs und NPUs, was für batteriebetriebene IoT-Geräte von entscheidender Bedeutung ist.
Fazit
WährendYOLO interessante Konzepte in Bezug auf neuronale Architektursuche und DestillationYOLO , YOLOv9 und das neuere YOLO26 eine praktischere, leistungsfähigere und benutzerfreundlichere Lösung für die überwiegende Mehrheit der Computer-Vision-Anwendungen. Das Ultralytics stellt sicher, dass Entwickler Zugang zu den besten Tools für das Training, die Verfolgung und den Einsatz von Modellen haben, unterstützt durch umfangreiche Dokumentation und Community-Support.
Für weitere Informationen zu Modellarchitekturen empfehlen wir Ihnen, unsere Vergleiche zwischen YOLOv10 YOLO oder YOLO11 YOLOv9 zu lesen.