Zum Inhalt springen

YOLO11 YOLO26: Die Entwicklung der Vision-KI der nächsten Generation

Die rasante Entwicklung der Computervision verschiebt kontinuierlich die Grenzen hinsichtlich Geschwindigkeit, Genauigkeit und Effizienz der Bereitstellung. Im Bereich der Echtzeit-Objekterkennung Ultralytics immer wieder neue Maßstäbe. Dieser technische Vergleich untersucht den Übergang vom äußerst erfolgreichen YOLO11 zum hochmodernen YOLO26 und analysiert deren Architekturen, Leistungskennzahlen und ideale Einsatzszenarien.

Unabhängig davon, ob Sie Drohnen-Lieferungssysteme entwickeln oder eine globale intelligente Fertigungspipeline optimieren – wenn Sie die feinen Unterschiede zwischen diesen beiden Modellen verstehen, können Sie robuste, zukunftssichere KI-Lösungen entwickeln.

Modelllinie und Ökosystem

Beide Modelle profitieren vom umfassenden Ultralytics , das sich durch eine einfache API, kontinuierliche Wartung und eine lebendige Community auszeichnet. Sie bieten eine unübertroffene Vielseitigkeit und unterstützen standardmäßig Objektdetektion, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und OBB -Aufgaben (Oriented Bounding Box).

YOLO11: Der etablierte Standard

YOLO11 Ende 2024 erschienene YOLO11 die Fortschritte früherer Generationen und festigte seinen Platz als zuverlässiges Arbeitstier für Produktionsumgebungen.

Erfahren Sie mehr über YOLO11

YOLO26: Die neue Ära

YOLO26 wurde Anfang 2026 eingeführt und stellt einen Paradigmenwechsel im Bereich Edge-Computing und End-to-End-Architektur dar, der erhebliche Verbesserungen hinsichtlich Verarbeitungsgeschwindigkeit und Integrationsfreundlichkeit mit sich bringt.

Erfahren Sie mehr über YOLO26

Daten und Bereitstellungen verwalten

Sowohl YOLO11 YOLO26 sind vollständig in die Ultralytics integriert und bieten nahtlose, codefreie Workflows für die Datensatzannotation, das Cloud-Training und die Flottenüberwachung.

Architektonische Innovationen

Während YOLO11 auf traditionellen Nachbearbeitungsmethoden YOLO11 , die seit Jahren die Bildverarbeitung vorantreiben, führt YOLO26 mehrere strukturelle Durchbrüche ein, die darauf abzielen, Engpässe zu beseitigen.

End-to-End NMS-freies Design

Eine der wichtigsten Verbesserungen in YOLO26 ist die native End-to-End-Architektur. Sie macht die Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig, ein Konzept, das erstmals in YOLOv10eingeführt wurde. Durch den Verzicht auf NMS wird die Bereitstellungspipeline NMS vereinfacht und eine konsistente Latenz gewährleistet, was für Echtzeitanwendungen wie Algorithmen für autonomes Fahren unerlässlich ist.

DFL-Entfernung zur Kantenoptimierung

YOLO26 entfernt Distribution Focal Loss (DFL). Während DFL in YOLO11 die feinkörnige Lokalisierung nützlich war, vereinfacht seine Entfernung den Exportgraphen des Netzwerks. Diese Änderung sorgt für eine verbesserte Kompatibilität mit Hardware mit geringem Stromverbrauch und macht YOLO26 zu einem absoluten Kraftpaket auf Edge-Geräten wie dem Raspberry Pi oder dem NVIDIA .

MuSGD-Optimierer

Inspiriert von den Trainingsmechanismen großer Sprachmodelle (LLM), insbesondere Kimi K2 von Moonshot AI, nutzt YOLO26 den revolutionären MuSGD-Optimierer. Diese Mischung aus stochastischer Gradientenabstiegsmethode (SGD) und Muon sorgt für bemerkenswert stabile Trainingsläufe und konvergiert viel schneller als die in älteren Architekturen verwendeten AdamW .

Erweiterte Verlustfunktionen

YOLO26 umfasst ProgLoss + STAL (Progressive Loss and Scale-Aware Task Alignment Learning). Diese Kombination verbessert die Erkennung kleiner und dicht gepackter Objekte erheblich. Darüber hinaus führt YOLO26 aufgabenspezifische Verbesserungen ein: einen speziellen Multiskalen-Prototyp für die semantische Segmentierung, Residual Log-Likelihood Estimation (RLE) für komplexe Schätzungen der menschlichen Körperhaltung und einen speziellen Winkelverlust, um Grenzprobleme bei OBB-Erkennungsaufgaben zu mindern.

Leistungsvergleich

Bei der Bewertung dieser Modelle bestimmt das Gleichgewicht zwischen Parameteranzahl, Rechenkomplexität (FLOPs) und Geschwindigkeit die Auswahl der Hardware. YOLO26 zielt speziell auf CPU ab und erreicht im Vergleich zu seinem Vorgänger CPU um bis zu 43 % schnellere CPU .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Wie gezeigt, verbessert sich die Genauigkeit von YOLO26 Nano (YOLO26n) erheblich, während CPU mithilfe von ONNX von 56,1 ms auf 38,9 ms reduziert wird.

Exportieren für maximale Geschwindigkeit

Um die Leistung dieser Modelle voll auszuschöpfen, exportieren Sie sie mit TensorRT auf NVIDIA oder OpenVINO für Intel exportieren. Das NMS Design von YOLO26 macht diesen Exportprozess einfacher denn je.

Anwendungsfälle und reale Anwendungen

Die Wahl zwischen YOLO11 YOLO26 hängt weitgehend von Ihrer spezifischen Infrastruktur und Ihren Projektzielen ab.

Edge Computing und IoT

Für Anwendungen mit begrenzter Leistung und Hardware, wie beispielsweise die intelligente Überwachung der Landwirtschaft mittels Drohnen oder lokale Sicherheitsalarmsysteme, ist YOLO26 der unangefochtene Champion. Durch den Wegfall von DFL und die um 43 % höhere CPU können Sie komplexe Bildverarbeitungsmodelle auf Geräten ohne dedizierte GPUs ausführen und dabei hohe Bildraten beibehalten.

Cloud und Unternehmensgröße

YOLO11 bleibt eine hervorragende Wahl für Unternehmenslösungen, bei denen massive Serverfarmen bereits für seine tensor optimiert sind. Es eignet sich perfekt für cloudbasierte Videoanalysen und groß angelegte Medienverarbeitungs-Pipelines, die bereits tief in seine spezifischen Ausgabeformate integriert sind.

Komplexes Multitasking

Wenn Ihr Projekt höchste Präzision bei winzigen Objekten erfordert – beispielsweise beim Erkennen von Defekten auf einer Leiterplatte oder beim Verfolgen von weit entfernten Fahrzeugen in Luftbildern–, sorgt die ProgLoss + STAL-Implementierung in YOLO26 für eine deutliche Verbesserung der Wiederauffindbarkeit und Präzision in diesen schwierigen Grenzfällen.

Trainingseffizienz und Speicheranforderungen

Ein großer Vorteil des Ultralytics ist sein unglaublich geringer Speicherbedarf während des Trainings. Im Gegensatz zu massiven Vision-Transformern wie RT-DETR oder dem älteren YOLOv8 , die enorme Mengen an CUDA verbrauchen können, sind sowohl YOLO11 YOLO26 für ein effizientes Training auf handelsüblicher Hardware optimiert.

Die Integration des MuSGD-Optimierers in YOLO26 verbessert dies noch weiter, indem sichergestellt wird, dass das Modell die optimalen Gewichte schneller findet, wodurch die Gesamtzahl der GPU und die Cloud-Computing-Kosten reduziert werden.

Hier ist ein einfaches Beispiel, das zeigt, wie mühelos es ist, das neueste YOLO26-Modell mit der nativen Python zu trainieren:

from ultralytics import YOLO

# Initialize the YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run a quick validation to verify the mAP metrics
metrics = model.val()

# Export the trained model to ONNX for fast CPU inference
model.export(format="onnx")

Erforschung alternativer Architekturen

Während YOLO26 den Gipfel der Echtzeit-Erkennung darstellt, kann es von Vorteil sein, andere Modelle in der Ultralytics zu erkunden. Für Benutzer, die an ältere Umgebungen gebunden sind, können frühere Architekturen wie YOLOv5 immer noch eine robuste Leistung. Für Zero-Shot-Funktionen, bei denen eine vorherige Definition von Klassen nicht möglich ist, bietet YOLO eine Erkennung mit offenem Vokabular, die durch Textprompts unterstützt wird.

Fazit

Der Sprung von YOLO11 YOLO26 ist nicht nur eine schrittweise Aktualisierung, sondern eine strukturelle Neukonzeption der Funktionsweise von Echtzeit-Objekterkennungsmodellen in der Produktion. Durch den Verzicht auf komplexe Nachbearbeitungsschritte und die Optimierung für eine Edge-First-Ausführung ist YOLO26 die erste Wahl für moderne Entwickler. Unterstützt durch das robuste Ultralytics und eine umfassende Dokumentation garantiert das Upgrade auf YOLO26 schnellere Bereitstellungen, stabiles Training und SOTA-Genauigkeit für praktisch jede Computer-Vision-Aufgabe.


Kommentare