YOLO . YOLO11: Ein tiefer Einblick in die Echtzeit-Objekterkennung
Die Landschaft der Objekterkennung entwickelt sich ständig weiter, wobei Forscher und Ingenieure bestrebt sind, die konkurrierenden Anforderungen an Genauigkeit, Inferenzgeschwindigkeit und Recheneffizienz in Einklang zu bringen. Zwei bemerkenswerte Architekturen, die in diesem Bereich entstanden sind, sindYOLO, entwickelt von der Alibaba Group, und YOLO11, eine leistungsstarke Weiterentwicklung von Ultralytics.
WährendYOLO neuartige Konzepte in der neuronalen Architektursuche (NAS) und der umfassenden NeuparametrisierungYOLO , YOLO11 einen verfeinerten, benutzerorientierten Ansatz, der sich auf Produktionsreife und Vielseitigkeit konzentriert. Dieser Vergleich untersucht die architektonischen Nuancen, Leistungskennzahlen und praktischen Überlegungen zur Bereitstellung beider Modelle.
DAMO-YOLO Übersicht
YOLO ein leistungsstarker Objektdetektor, der von Forschern der DAMO Academy von Alibaba entwickelt wurde. Er zeichnet sich dadurch aus, dass er mithilfe von Neural Architecture Search (NAS) automatisch effiziente Backbones entwirft, die auf bestimmte Einschränkungen zugeschnitten sind.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation:Alibaba Group
- Datum: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Die Architektur integriert ein spezielles RepGFPN (Reparameterized Generalized Feature Pyramid Network) für die Merkmalsfusion und einen leichtgewichtigen Kopf namens „ZeroHead“. Eine Schlüsselkomponente der Trainingsstrategie ist „AlignedOTA“, eine dynamische Methode zur Zuweisung von Labels, die entwickelt wurde, um Probleme mit der Fehlausrichtung zwischen Klassifizierungs- und Regressionsaufgaben zu lösen. Darüber hinaus stützt sie sich stark auf die Destillation aus größeren „Lehrer“-Modellen, um die Leistung kleinerer Varianten zu steigern.
YOLO11
YOLO11 auf dem Erbe der Ultralytics YOLO YOLO11 und verfeinert das CSP-Netzwerkdesign (Cross Stage Partial), um die Parametereffizienz zu maximieren. Im Gegensatz zu forschungsorientierten Modellen, die möglicherweise komplexe Einstellungen erfordern, YOLO11 für den sofortigen Einsatz in der Praxis entwickelt und bietet eine „Batterien inklusive”-Erfahrung.
- Autoren: Glenn Jocher und Jing Qiu
- Organisation:Ultralytics
- Datum: 2024-09-27
- Dokumentation:https://docs.ultralytics.com/models/yolo11/
- GitHub:https://github.com/ultralytics/ultralytics
YOLO11 das C3k2-Blockdesign und führt C2PSA-Module (Cross Stage Partial with Spatial Attention) ein, um den globalen Kontext besser zu erfassen. Es ist vollständig in das Ultralytics integriert und unterstützt nahtloses Training, Validierung und Bereitstellung auf verschiedenen Hardwarekomponenten, darunter CPUs, GPUs und Edge-Geräte.
Technischer Vergleich
Die folgende Tabelle zeigt die Leistungsunterschiede zwischen den Modellen. WährendYOLO eine starke theoretische LeistungYOLO , bietet YOLO11 in der Praxis YOLO11 ein ausgewogeneres Profil hinsichtlich Geschwindigkeit und Genauigkeit, insbesondere wenn man den Aufwand für Export und Bereitstellung berücksichtigt.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Architektur und Schulungsmethoden
YOLO verwendet MAE-NAS (Masked Autoencoder Neural Architecture Search), um optimale Backbone-Strukturen unter bestimmten Latenzbedingungen zu finden. Das Ergebnis sind Modelle, die theoretisch effizient sind, aber ohne die ursprüngliche NAS-Pipeline nur schwer zu modifizieren oder feinabzustimmen sind. Der Trainingsprozess ist komplex und erfordert oft einen zweistufigen Ansatz, bei dem zunächst ein schweres Lehrer-Modell trainiert wird, um Wissen in das kleinere Zielmodell zu destillieren.
YOLO11verwendet hingegen eine handgefertigte, aber hochoptimierte Architektur, die Tiefe, Breite und Auflösung in Einklang bringt. Die Trainingspipeline ist optimiert und verwendet Standard-Augmentationen und Verlustfunktionen, die keine zusätzlichen Lehrer-Modelle oder komplexe Destillationsphasen erfordern. Dadurch lässt sich YOLO11 ohne tiefgreifende Fachkenntnisse YOLO11 einfacher auf benutzerdefinierten Datensätzen trainieren.
Warnung: Komplexität vs. Benutzerfreundlichkeit
Während der NAS-basierte AnsatzYOLO mathematisch optimale Strukturen liefert, legt die Ultralytics den Schwerpunkt auf Benutzerfreundlichkeit. Ein Modell wie YOLO11 mit einem einzigen CLI trainiert werden. yolo train, während Forschungsrepositorien oft komplexe Konfigurationsdateien und eine mehrstufige Vorbereitung erfordern.
Der Ultralytics Vorteil
Die Auswahl eines Modells geht über reine mAP hinaus und umfasst den gesamten Lebenszyklus eines Machine-Learning-Projekts. Ultralytics wie YOLO11– und das hochmoderne YOLO26– bieten deutliche Vorteile, die die Entwicklung vereinfachen.
Unübertroffene Benutzerfreundlichkeit und Ökosystem
Das Ultralytics wurde entwickelt, um Reibungsverluste zu reduzieren. Das Training eines YOLO11 erfordert nur minimalen Code, und die Python ist über alle Modellversionen hinweg konsistent. Dies steht im Gegensatz zuYOLO, wo Benutzer häufig mit einer Codebasis auf Forschungsniveau arbeiten müssen, die möglicherweise keine robuste Dokumentation oder langfristige Wartung bietet.
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)
Darüber hinaus bietet die Ultralytics eine nahtlose Schnittstelle für die Verwaltung von Datensätzen, die Kennzeichnung und das Cloud-Training und demokratisiert so effektiv den Zugang zu fortschrittlichen Computer-Vision-Funktionen.
Vielseitigkeit über verschiedene Aufgaben hinweg
Eines der stärksten Argumente für die Einführung des Ultralytics ist seine Vielseitigkeit. WährendYOLO in erster Linie ein ObjektdetektorYOLO , YOLO11 eine Vielzahl von Computer-Vision-Aufgaben innerhalb derselben Codebasis:
- Instanzsegmentierung: Präzise Maskierung von Objekten.
- Posen-Schätzung: Erkennung von Schlüsselpunkten für die Verfolgung des menschlichen Skeletts.
- Orientierte Begrenzungsbox (OBB): Ideal für Luftbilder und schräge Objekte.
- Classification: Kategorisierung des gesamten Bildes.
Leistungsbalance und Speichereffizienz
Ultralytics sind für ihre effiziente Ressourcennutzung bekannt. YOLO11 benötigt während des Trainings YOLO11 weniger CUDA als transformatorlastige Architekturen oder komplexe NAS-basierte Modelle. Dadurch können Entwickler größere Batches auf handelsüblichen GPUs trainieren und so den Iterationszyklus beschleunigen.
Für die Inferenz sind YOLO11 für den Export in Formate wie ONNX, TensorRTund CoreML optimiert. Dadurch wird sichergestellt, dass die in Benchmarks erzielte hohe Genauigkeit auch in Echtzeit auf Edge-Geräten, von NVIDIA bis hin zu Raspberry Pis, zum Tragen kommt.
Ausblick: Die Leistungsfähigkeit von YOLO26
Für Entwickler, die nach absoluter Spitzenleistung streben, Ultralytics YOLO26 eingeführt. Dieses Modell der nächsten Generation löst YOLO11 revolutionären Verbesserungen ab:
- End-to-End-Design NMS: YOLO26 macht die Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig. Dieser native End-to-End-Ansatz vereinfacht die Bereitstellungspipelines und reduziert Latenzschwankungen – eine Funktion, die erstmals in YOLOv10entdeckt wurde.
- MuSGD-Optimierer: Inspiriert von Innovationen im Bereich des Trainings großer Sprachmodelle (LLM) (wie Moonshot AI's Kimi K2) nutzt YOLO26 den MuSGD-Optimierer für eine schnellere Konvergenz und größere Trainingsstabilität.
- Edge-First-Optimierung: Durch die Entfernung von Distribution Focal Loss (DFL) und spezifischen CPU erreicht YOLO26 eine bis zu 43 % schnellere Inferenz auf CPUs und ist damit die beste Wahl für Edge-Computing.
- ProgLoss + STAL: Neue Verlustfunktionen verbessern die Erkennung kleiner Objekte, eine wichtige Funktion für Drohnen- und IoT-Anwendungen.
Ideale Anwendungsfälle
- Wählen SieYOLO ,YOLO : Sie als Forscher die Wirksamkeit von NAS in Vision-Backbones untersuchen oder wenn Sie sehr spezifische Hardware-Einschränkungen haben, die eine individuell angepasste Architektur erfordern, und Sie über die Ressourcen verfügen, um eine komplexe Destillations-Pipeline zu verwalten.
- Wählen Sie YOLO11 : Sie einen robusten Allzweckdetektor benötigen, der Geschwindigkeit und Genauigkeit außergewöhnlich gut miteinander verbindet. Er eignet sich ideal für kommerzielle Anwendungen, die Tracking, einfache Schulung mit benutzerdefinierten Daten und breite Plattformkompatibilität erfordern.
- Wählen Sie YOLO26, wenn: Sie die schnellstmöglichen Inferenzgeschwindigkeiten benötigen, insbesondere auf Edge-CPUs, oder Ihren Bereitstellungsstack durch Entfernen NMS vereinfachen möchten. Es ist die empfohlene Wahl für neue Projekte, die modernste Effizienz und Vielseitigkeit erfordern.
Fazit
SowohlYOLO YOLO11 einen bedeutenden Beitrag zum Bereich der Bildverarbeitung.YOLO das Potenzial der automatisierten Architektursuche, während YOLO11 die praktische Anwendung des Deep Learning mit Schwerpunkt auf Benutzerfreundlichkeit und Ökosystemunterstützung YOLO11 .
Für die meisten Entwickler und Unternehmen ist die Ultralytics -Ökosystem – basierend auf YOLO11 dem hochmodernen YOLO26– den direktesten Weg zur Wertschöpfung. Dank umfangreicher Dokumentation, aktiver Community-Unterstützung und Tools wie der Ultralytics können Anwender schnell und sicher vom Konzept zur Bereitstellung übergehen.
Für diejenigen, die sich für andere Architekturen interessieren, bieten die Ultralytics auch Vergleiche mit Modellen wie RT-DETR (Real-Time DEtection TRansformer) und YOLOv9, sodass Sie bei der Auswahl des richtigen Tools für Ihre Anforderungen im Bereich der Bildverarbeitungs-KI einen umfassenden Überblick haben.