Zum Inhalt springen

YOLO26 vs.YOLO: Die Entwicklung der Echtzeit-Objekterkennung

Die Landschaft der Computervision entwickelt sich rasant weiter, wobei neue Architekturen ständig die Grenzen von Geschwindigkeit und Genauigkeit erweitern. Zwei wichtige Meilensteine in dieser Entwicklung sind YOLO, das Ende 2022 von der Alibaba Group entwickelt wurde, und YOLO26, das hochmoderne Modell, Ultralytics von Ultralytics veröffentlicht wurde.

WährendYOLO innovative Konzepte wie Neural Architecture Search (NAS) in die YOLO YOLO , steht YOLO26 für einen Paradigmenwechsel hin zu nativer End-to-End-Verarbeitung und Edge-First-Design. Dieser detaillierte Vergleich untersucht die architektonischen Unterschiede, Leistungskennzahlen und Einsatzrealitäten dieser beiden leistungsstarken Modelle, um Entwicklern bei der Auswahl des richtigen Tools für ihre Objekterkennungsanforderungen zu helfen.

Vergleich von Leistungsmetriken

Die folgende Tabelle vergleicht die Leistung von YOLO26 mitYOLO. Beachten Sie die deutlichen Verbesserungen bei der Inferenzgeschwindigkeit, insbesondere bei CPU Operationen, was ein Markenzeichen der YOLO26-Architektur ist.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Ultralytics : Der neue Standard

YOLO26 wurde im Januar 2026 von Ultralytics veröffentlicht und baut auf dem Erbe von YOLO11 und YOLOv8auf und führt radikale Änderungen an der Erkennungspipeline ein. Seine primäre Designphilosophie konzentriert sich auf die Beseitigung von Engpässen bei der Bereitstellung und dem Training, wodurch es zum effizientesten Modell sowohl für High-End-GPUs als auch für eingeschränkte Edge-Geräte wird.

Schlüsselinnovationen

  1. End-to-End-Design NMS: Im Gegensatz zu früheren Generationen und Mitbewerbern wieYOLO ist YOLO26 von Haus aus End-to-End. Es macht eine Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig. Dies reduziert Latenzschwankungen und vereinfacht die Bereitstellungspipelines – ein bahnbrechender Ansatz, der erstmals in YOLOv10eingeführt wurde.
  2. MuSGD-Optimierer: Inspiriert durch die jüngsten Fortschritte beim Training großer Sprachmodelle (LLM) nutzt YOLO26 eine Mischung aus SGD Muon. Dieser Optimierer sorgt für mehr Stabilität während des Trainings und eine schnellere Konvergenz, wodurch die Rechenkosten für das Erreichen einer optimalen Genauigkeit reduziert werden.
  3. Edge-First-Optimierung: Durch die Entfernung des Distribution Focal Loss (DFL) wird die Modellarchitektur vereinfacht, sodass sie leichter in Formate wie ONNX CoreML exportiert werden kann. Dies trägt zu einer um 43 % schnelleren CPU im Vergleich zu früheren Iterationen bei, wodurch es sich ideal für Geräte wie den Raspberry Pi oder Mobiltelefone eignet.
  4. Verbesserte Erkennung kleiner Objekte: Die Integration von ProgLoss und STAL (Scale-Aware Training Adaptive Loss) verbessert die Leistung bei kleinen Objekten erheblich und behebt damit eine häufige Schwäche von einstufigen Detektoren.

Optimierte Bereitstellung

Da YOLO26 den NMS entfernt, sind die exportierten Modelle reine neuronale Netze ohne komplexen Nachbearbeitungscode. Dies erleichtert die Integration in C++- oder mobile Umgebungen erheblich und verringert die Anfälligkeit für Logikfehler.

Code-Beispiel

Die Benutzererfahrung mit YOLO26 bleibt mit dem optimierten Ultralytics Python konsistent.

from ultralytics import YOLO

# Load the nano model
model = YOLO("yolo26n.pt")

# Run inference on an image without needing NMS configuration
results = model.predict("image.jpg", show=True)

# Export to ONNX for edge deployment
path = model.export(format="onnx")

Erfahren Sie mehr über YOLO26

YOLO: Der NAS-gesteuerte Herausforderer

YOLO, entwickelt von der DAMO Academy von Alibaba, sorgte 2022 für Aufsehen, indem es Neural Architecture Search (NAS) zur Gestaltung seines Backbones nutzte. Anstatt die Netzwerkstruktur manuell zu erstellen, verwendeten die Autoren MAE-NAS (Method of Auxiliary Edges), um automatisch effiziente Architekturen unter bestimmten Latenzbedingungen zu finden.

Hauptmerkmale

  • MAE-NAS-Backbone: Die Netzwerkstruktur wurde mathematisch optimiert, um den Informationsfluss zu maximieren und gleichzeitig die Rechenkosten zu minimieren.
  • RepGFPN: Ein effizientes Feature-Pyramiden-Netzwerk, das durch Neuparametrisierung die Merkmalsfusion über verschiedene Skalen hinweg verbessert.
  • ZeroHead: Ein leichtes Detektorkopfdesign, das darauf abzielt, die Parameteranzahl am Ende des Netzwerks zu reduzieren.
  • AlignedOTA: Eine Strategie zur Labelzuweisung, die dem Modell hilft, während des Trainings besser zu verstehen, welche Ankerboxen den tatsächlichen Objekten entsprechen.

ObwohlYOLO für seine Zeit eine hervorragende LeistungYOLO , macht seine Abhängigkeit von einer komplexen Destillations-Trainingspipeline – bei der ein größeres Lehrer-Modell das kleinere Schüler-Modell anleitet – das benutzerdefinierte Training im Vergleich zu den „Train-from-Scratch”-Fähigkeiten der Ultralytics ressourcenintensiver.

Detaillierter Vergleich

Architektur und Schulungsstabilität

Der deutlichste Unterschied liegt im Optimierungsansatz.YOLO auf NAS, um die beste Struktur zu finden, die zwar hocheffiziente theoretische FLOPs liefern kann, aber oft zu Architekturen führt, die schwer zu modifizieren oder zu debuggen sind.

YOLO26 hingegen nutzt handgefertigte, intuitiv gesteuerte architektonische Verbesserungen (wie die Entfernung von DFL und den NMS Kopf), die durch den MuSGD-Optimierer verstärkt werden. Dieser Optimierer bringt die Stabilität, die oft bei LLMs zu beobachten ist, in die Computer Vision. Für Entwickler bedeutet dies, dass YOLO26 weniger empfindlich auf die Abstimmung von Hyperparametern reagiert und zuverlässig auf benutzerdefinierten Datensätzen konvergiert.

Inferenzgeschwindigkeit und Ressourceneffizienz

WährendYOLO mithilfe von TensorRT für GPU YOLO , verfolgt YOLO26 einen breiteren Ansatz. NMS den Verzicht auf DFL und NMS YOLO26 auf CPUs glänzen und erreicht Geschwindigkeiten, die bis zu 43 % über denen seiner Vorgänger liegen. Dies ist entscheidend für Anwendungen in der Einzelhandelsanalyse oder in Smart Cities, wo Edge-Geräte möglicherweise nicht über dedizierte GPUs verfügen.

Darüber hinaus sind die Speicheranforderungen von YOLO26 während des Trainings im Allgemeinen geringer. WährendYOLO das Training eines umfangreichen Lehrer-Modells für die Destillation erfordert, um Spitzenergebnisse zu erzielen, erreicht YOLO26 direkt SOTA-Ergebnisse, wodurch erhebliche GPU und Strom eingespart werden.

Vielseitigkeit und Ökosystem

Ein großer Vorteil des Ultralytics ist seine Vielseitigkeit.YOLO in erster Linie ein Objektdetektor. Im Gegensatz dazu unterstützt die YOLO26-Architektur von Haus aus eine Vielzahl von Computer-Vision-Aufgaben, darunter:

Dadurch kann ein einzelnes Entwicklungsteam eine einzige API und ein einziges Framework für mehrere unterschiedliche Probleme verwenden, wodurch technische Schulden drastisch reduziert werden.

Vergleichstabelle: Funktionen

MerkmalYOLO26DAMO-YOLO
VeröffentlichungsdatumJanuar 2026November 2022
ArchitekturEnd-to-End, NMSNAS-basiert, ohne Verankerung
NachbearbeitungKeine (Modellausgabe = endgültig)Non-Maximum Suppression (NMS)
OptimiererMuSGD (SGD Myon)SGD AdamW
AusbildungspipelineEinstufig, Training von Grund aufKomplexe Destillation (Lehrer-Schüler)
Unterstützte Aufgabendetect, segment, Pose, obb, classifyErkennung
Edge-OptimierungHoch (kein DFL, für CPU optimiert)Moderat (TensorRT )

Fazit

Beide Architekturen stellen Höhepunkte in der Geschichte der Objekterkennung dar.YOLO die Leistungsfähigkeit der automatisierten Architektursuche und Neuparametrisierung. YOLO26 hingegen repräsentiert die Zukunft des praktischen Einsatzes von KI.

Durch die Beseitigung des NMS , die Einführung von Optimierern der LLM-Klasse wie MuSGD und die Bereitstellung einer einheitlichen Lösung für Segmentierung, Pose und Erkennung bietet Ultralytics eine hervorragende Balance zwischen Leistung und Benutzerfreundlichkeit. Für Entwickler, die reale Anwendungen erstellen – von der industriellen Automatisierung bis hin zu mobilen Apps – machen das robuste Ökosystem, die umfangreiche Dokumentation und die Ultralytics YOLO26 zur klaren Empfehlung.

Wenn Sie an weiteren Vergleichen interessiert sind, können Sie sich mit YOLO11 .YOLO befassen oder sich mit transformatorbasierten Alternativen wie RT-DETR.

Urheberschaft und Referenzen

YOLO26

DAMO-YOLO

  • Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
  • Organisation: Alibaba Group
  • Datum: 2022-11-23
  • Artikel:arXiv:2211.15444

Kommentare