Zum Inhalt springen

YOLO . YOLO11: Ein tiefer Einblick in die Echtzeit-Objekterkennung

Die Landschaft der Objekterkennung entwickelt sich ständig weiter, wobei Forscher und Ingenieure bestrebt sind, die konkurrierenden Anforderungen an Genauigkeit, Inferenzgeschwindigkeit und Recheneffizienz in Einklang zu bringen. Zwei bemerkenswerte Architekturen, die in diesem Bereich entstanden sind, sindYOLO, entwickelt von der Alibaba Group, und YOLO11, eine leistungsstarke Weiterentwicklung von Ultralytics.

WährendYOLO neuartige Konzepte in der neuronalen Architektursuche (NAS) und der umfassenden NeuparametrisierungYOLO , YOLO11 einen verfeinerten, benutzerorientierten Ansatz, der sich auf Produktionsreife und Vielseitigkeit konzentriert. Dieser Vergleich untersucht die architektonischen Nuancen, Leistungskennzahlen und praktischen Überlegungen zur Bereitstellung beider Modelle.

DAMO-YOLO Übersicht

YOLO ein leistungsstarker Objektdetektor, der von Forschern der DAMO Academy von Alibaba entwickelt wurde. Er zeichnet sich dadurch aus, dass er mithilfe von Neural Architecture Search (NAS) automatisch effiziente Backbones entwirft, die auf bestimmte Einschränkungen zugeschnitten sind.

Die Architektur integriert ein spezielles RepGFPN (Reparameterized Generalized Feature Pyramid Network) für die Merkmalsfusion und einen leichtgewichtigen Kopf namens „ZeroHead“. Eine Schlüsselkomponente der Trainingsstrategie ist „AlignedOTA“, eine dynamische Methode zur Zuweisung von Labels, die entwickelt wurde, um Probleme mit der Fehlausrichtung zwischen Klassifizierungs- und Regressionsaufgaben zu lösen. Darüber hinaus stützt sie sich stark auf die Destillation aus größeren „Lehrer“-Modellen, um die Leistung kleinerer Varianten zu steigern.

YOLO11

YOLO11 auf dem Erbe der Ultralytics YOLO YOLO11 und verfeinert das CSP-Netzwerkdesign (Cross Stage Partial), um die Parametereffizienz zu maximieren. Im Gegensatz zu forschungsorientierten Modellen, die möglicherweise komplexe Einstellungen erfordern, YOLO11 für den sofortigen Einsatz in der Praxis entwickelt und bietet eine „Batterien inklusive”-Erfahrung.

YOLO11 das C3k2-Blockdesign und führt C2PSA-Module (Cross Stage Partial with Spatial Attention) ein, um den globalen Kontext besser zu erfassen. Es ist vollständig in das Ultralytics integriert und unterstützt nahtloses Training, Validierung und Bereitstellung auf verschiedenen Hardwarekomponenten, darunter CPUs, GPUs und Edge-Geräte.

Erfahren Sie mehr über YOLO11

Technischer Vergleich

Die folgende Tabelle zeigt die Leistungsunterschiede zwischen den Modellen. WährendYOLO eine starke theoretische LeistungYOLO , bietet YOLO11 in der Praxis YOLO11 ein ausgewogeneres Profil hinsichtlich Geschwindigkeit und Genauigkeit, insbesondere wenn man den Aufwand für Export und Bereitstellung berücksichtigt.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Architektur und Schulungsmethoden

YOLO verwendet MAE-NAS (Masked Autoencoder Neural Architecture Search), um optimale Backbone-Strukturen unter bestimmten Latenzbedingungen zu finden. Das Ergebnis sind Modelle, die theoretisch effizient sind, aber ohne die ursprüngliche NAS-Pipeline nur schwer zu modifizieren oder feinabzustimmen sind. Der Trainingsprozess ist komplex und erfordert oft einen zweistufigen Ansatz, bei dem zunächst ein schweres Lehrer-Modell trainiert wird, um Wissen in das kleinere Zielmodell zu destillieren.

YOLO11verwendet hingegen eine handgefertigte, aber hochoptimierte Architektur, die Tiefe, Breite und Auflösung in Einklang bringt. Die Trainingspipeline ist optimiert und verwendet Standard-Augmentationen und Verlustfunktionen, die keine zusätzlichen Lehrer-Modelle oder komplexe Destillationsphasen erfordern. Dadurch lässt sich YOLO11 ohne tiefgreifende Fachkenntnisse YOLO11 einfacher auf benutzerdefinierten Datensätzen trainieren.

Warnung: Komplexität vs. Benutzerfreundlichkeit

Während der NAS-basierte AnsatzYOLO mathematisch optimale Strukturen liefert, legt die Ultralytics den Schwerpunkt auf Benutzerfreundlichkeit. Ein Modell wie YOLO11 mit einem einzigen CLI trainiert werden. yolo train, während Forschungsrepositorien oft komplexe Konfigurationsdateien und eine mehrstufige Vorbereitung erfordern.

Der Ultralytics Vorteil

Die Auswahl eines Modells geht über reine mAP hinaus und umfasst den gesamten Lebenszyklus eines Machine-Learning-Projekts. Ultralytics wie YOLO11– und das hochmoderne YOLO26– bieten deutliche Vorteile, die die Entwicklung vereinfachen.

Unübertroffene Benutzerfreundlichkeit und Ökosystem

Das Ultralytics wurde entwickelt, um Reibungsverluste zu reduzieren. Das Training eines YOLO11 erfordert nur minimalen Code, und die Python ist über alle Modellversionen hinweg konsistent. Dies steht im Gegensatz zuYOLO, wo Benutzer häufig mit einer Codebasis auf Forschungsniveau arbeiten müssen, die möglicherweise keine robuste Dokumentation oder langfristige Wartung bietet.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)

Darüber hinaus bietet die Ultralytics eine nahtlose Schnittstelle für die Verwaltung von Datensätzen, die Kennzeichnung und das Cloud-Training und demokratisiert so effektiv den Zugang zu fortschrittlichen Computer-Vision-Funktionen.

Vielseitigkeit über verschiedene Aufgaben hinweg

Eines der stärksten Argumente für die Einführung des Ultralytics ist seine Vielseitigkeit. WährendYOLO in erster Linie ein ObjektdetektorYOLO , YOLO11 eine Vielzahl von Computer-Vision-Aufgaben innerhalb derselben Codebasis:

Leistungsbalance und Speichereffizienz

Ultralytics sind für ihre effiziente Ressourcennutzung bekannt. YOLO11 benötigt während des Trainings YOLO11 weniger CUDA als transformatorlastige Architekturen oder komplexe NAS-basierte Modelle. Dadurch können Entwickler größere Batches auf handelsüblichen GPUs trainieren und so den Iterationszyklus beschleunigen.

Für die Inferenz sind YOLO11 für den Export in Formate wie ONNX, TensorRTund CoreML optimiert. Dadurch wird sichergestellt, dass die in Benchmarks erzielte hohe Genauigkeit auch in Echtzeit auf Edge-Geräten, von NVIDIA bis hin zu Raspberry Pis, zum Tragen kommt.

Ausblick: Die Leistungsfähigkeit von YOLO26

Für Entwickler, die nach absoluter Spitzenleistung streben, Ultralytics YOLO26 eingeführt. Dieses Modell der nächsten Generation löst YOLO11 revolutionären Verbesserungen ab:

  • End-to-End-Design NMS: YOLO26 macht die Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig. Dieser native End-to-End-Ansatz vereinfacht die Bereitstellungspipelines und reduziert Latenzschwankungen – eine Funktion, die erstmals in YOLOv10entdeckt wurde.
  • MuSGD-Optimierer: Inspiriert von Innovationen im Bereich des Trainings großer Sprachmodelle (LLM) (wie Moonshot AI's Kimi K2) nutzt YOLO26 den MuSGD-Optimierer für eine schnellere Konvergenz und größere Trainingsstabilität.
  • Edge-First-Optimierung: Durch die Entfernung von Distribution Focal Loss (DFL) und spezifischen CPU erreicht YOLO26 eine bis zu 43 % schnellere Inferenz auf CPUs und ist damit die beste Wahl für Edge-Computing.
  • ProgLoss + STAL: Neue Verlustfunktionen verbessern die Erkennung kleiner Objekte, eine wichtige Funktion für Drohnen- und IoT-Anwendungen.

Erfahren Sie mehr über YOLO26

Ideale Anwendungsfälle

  • Wählen SieYOLO ,YOLO : Sie als Forscher die Wirksamkeit von NAS in Vision-Backbones untersuchen oder wenn Sie sehr spezifische Hardware-Einschränkungen haben, die eine individuell angepasste Architektur erfordern, und Sie über die Ressourcen verfügen, um eine komplexe Destillations-Pipeline zu verwalten.
  • Wählen Sie YOLO11 : Sie einen robusten Allzweckdetektor benötigen, der Geschwindigkeit und Genauigkeit außergewöhnlich gut miteinander verbindet. Er eignet sich ideal für kommerzielle Anwendungen, die Tracking, einfache Schulung mit benutzerdefinierten Daten und breite Plattformkompatibilität erfordern.
  • Wählen Sie YOLO26, wenn: Sie die schnellstmöglichen Inferenzgeschwindigkeiten benötigen, insbesondere auf Edge-CPUs, oder Ihren Bereitstellungsstack durch Entfernen NMS vereinfachen möchten. Es ist die empfohlene Wahl für neue Projekte, die modernste Effizienz und Vielseitigkeit erfordern.

Fazit

SowohlYOLO YOLO11 einen bedeutenden Beitrag zum Bereich der Bildverarbeitung.YOLO das Potenzial der automatisierten Architektursuche, während YOLO11 die praktische Anwendung des Deep Learning mit Schwerpunkt auf Benutzerfreundlichkeit und Ökosystemunterstützung YOLO11 .

Für die meisten Entwickler und Unternehmen ist die Ultralytics -Ökosystem – basierend auf YOLO11 dem hochmodernen YOLO26– den direktesten Weg zur Wertschöpfung. Dank umfangreicher Dokumentation, aktiver Community-Unterstützung und Tools wie der Ultralytics können Anwender schnell und sicher vom Konzept zur Bereitstellung übergehen.

Für diejenigen, die sich für andere Architekturen interessieren, bieten die Ultralytics auch Vergleiche mit Modellen wie RT-DETR (Real-Time DEtection TRansformer) und YOLOv9, sodass Sie bei der Auswahl des richtigen Tools für Ihre Anforderungen im Bereich der Bildverarbeitungs-KI einen umfassenden Überblick haben.


Kommentare