Zum Inhalt springen

YOLO26 vs. YOLOv5: Architektur, Geschwindigkeit und Anwendungsfälle im Vergleich

Die Entwicklung von Objekterkennungsmodellen war rasant und transformativ. In diesem Vergleich untersuchen wir die unterschiedlichen Merkmale von Ultralytics YOLO26 und Ultralytics YOLOv5 und prüfen, wie Fortschritte in der Architektur und den Trainingsmethoden ihre Fähigkeiten geprägt haben. Während YOLOv5 ein grundlegender Pfeiler in der Computer-Vision-Community bleibt, führt das neu veröffentlichte YOLO26 bahnbrechende Effizienzen ein, die für Edge-Deployments der nächsten Generation und Hochgeschwindigkeitsinferenz konzipiert sind.

Modellübersicht

Beide Modelle stellen bedeutende Meilensteine in der Geschichte der YOLO (You Only Look Once)-Architektur dar. Sie teilen ein Engagement für Echtzeitleistung und Benutzerfreundlichkeit, doch bedienen sie leicht unterschiedliche Epochen der KI-Entwicklung.

Ultralytics YOLO26

YOLO26 ist die neueste Iteration von Ultralytics, die im Januar 2026 eingeführt wurde. Es stellt eine Verschiebung hin zu nativen End-to-End-Architekturen dar, die die Notwendigkeit einer Non-Maximum Suppression (NMS)-Nachbearbeitung eliminieren. Entwickelt mit Blick auf Edge Computing, vereinfacht es die Bereitstellung und verschiebt gleichzeitig die Grenzen der Genauigkeit.

  • Autoren: Glenn Jocher und Jing Qiu
  • Organisation:Ultralytics
  • Datum: 2026-01-14
  • Dokumentation:YOLO26 Dokumentation
  • Schlüsselinnovation: End-to-End NMS-freie detect, DFL-Entfernung und MuSGD-Optimizer.

Erfahren Sie mehr über YOLO26

Ultralytics YOLOv5

YOLOv5 wurde Mitte 2020 veröffentlicht und entwickelte sich aufgrund seiner Ausgewogenheit von Geschwindigkeit, Genauigkeit und benutzerfreundlicher Technik schnell zum Industriestandard. Es führte Millionen von Entwicklern in das PyTorch-Ökosystem ein und bleibt in Produktionsumgebungen, in denen Stabilität und Legacy-Support von größter Bedeutung sind, weit verbreitet.

  • Autor: Glenn Jocher
  • Organisation:Ultralytics
  • Datum: 2020-06-26
  • Dokumentation:YOLOv5 Dokumentation
  • Wesentliche Innovation: Benutzerfreundliche PyTorch-Implementierung, Mosaik-Augmentierung und Auto-Anchor-Mechanismen.

Erfahren Sie mehr über YOLOv5

Architektonische Unterschiede

Der Übergang von YOLOv5 zu YOLO26 umfasst grundlegende Änderungen in der Art und Weise, wie Objekte detect werden und wie das Modell während des Trainings optimiert wird.

End-to-End vs. Nachbearbeitung

YOLOv5 setzt auf Non-Maximum Suppression (NMS), um doppelte Bounding Boxes herauszufiltern. Obwohl effektiv, ist NMS ein heuristischer Prozess, der während der Inferenz einen Engpass darstellen kann, insbesondere auf Edge-Geräten mit begrenzten CPU-Zyklen. Es führt Hyperparameter wie IoU-Schwellenwerte ein, die für spezifische Datensätze abgestimmt werden müssen.

Im Gegensatz dazu ist YOLO26 nativ End-to-End. Durch die Übernahme eines Designs, das erstmals in YOLOv10 entwickelt wurde, sagt YOLO26 den exakten Satz von Objekten direkt aus der Netzwerkausgabe voraus, ohne NMS zu benötigen. Dies vereinfacht die Deployment-Pipeline erheblich, da die Modellausgabe das Endergebnis ist.

Vereinfachte Bereitstellung

Die Entfernung von NMS in YOLO26 bedeutet, dass Sie keine komplexen Nachbearbeitungsschritte mehr kompilieren müssen, wenn Sie in Formate wie CoreML oder TensorRT exportieren. Die rohe Modellausgabe ist sofort einsatzbereit, was Latenz und Integrationskomplexität reduziert.

Verlustfunktionen und Optimierung

YOLO26 führt ProgLoss (Progressive Loss Balancing) und STAL (Small-Target-Aware Label Assignment) ein. Diese Innovationen zielen speziell auf häufige Schwachstellen in der Objekterkennung ab, wie die Schwierigkeit, kleine Objekte in Luftbildern oder unübersichtlichen Szenen zu detecten. ProgLoss passt das Gewicht verschiedener Verlustkomponenten während des Trainings dynamisch an, um die Konvergenz zu stabilisieren.

Des Weiteren nutzt YOLO26 den MuSGD-Optimierer, einen Hybrid aus SGD und dem Muon-Optimierer, inspiriert von Trainingsmethoden für große Sprachmodelle (LLM). Dies überträgt die Stabilität des LLM-Trainings auf die Computer Vision, was zu schnellerer Konvergenz und robusteren Gewichten führt.

Vereinfachte Head-Architektur

Eine wesentliche Änderung in YOLO26 ist die Entfernung des Distribution Focal Loss (DFL). Während DFL in früheren Iterationen wie YOLOv8 zur Box-Präzision beitrug, fügte es beim Export Rechenaufwand und Komplexität hinzu. Durch die Verfeinerung des Regressionsverlusts erreicht YOLO26 eine hohe Präzision ohne DFL, wodurch es auf CPUs bis zu 43 % schneller ist als frühere Generationen, eine entscheidende Metrik für Edge-AI-Anwendungen.

Vergleich von Leistungsmetriken

Die folgende Tabelle vergleicht die Leistung von YOLO26 und YOLOv5 auf dem COCO-Datensatz. YOLO26 zeigt signifikante Verbesserungen sowohl bei der Genauigkeit (mAP) als auch bei der Inferenzgeschwindigkeit, insbesondere auf CPU-Hardware, wo seine architektonischen Optimierungen glänzen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Wichtige Erkenntnisse

  1. Genauigkeitssprung: YOLO26n (Nano) erreicht einen mAP von 40.9, womit es den YOLOv5n mit 28.0 mAP deutlich übertrifft. Dies ermöglicht es Benutzern, kleinere Modelle bereitzustellen, ohne die detect-Qualität zu beeinträchtigen.
  2. CPU-Effizienz: Die architektonische Vereinfachung in YOLO26 führt zu einer drastisch schnelleren CPU-Inferenz. Zum Beispiel läuft YOLO26n auf der CPU mit ~39ms, verglichen mit ~74ms für YOLOv5n, was es ideal für Raspberry Pi oder mobile Bereitstellungen macht.
  3. Parameter-Effizienz: YOLO26 erreicht in vielen Fällen eine höhere Genauigkeit mit weniger Parametern (z. B. hat YOLO26l 24.8M Parameter gegenüber 53.2M bei YOLOv5l), wodurch der Speicherbedarf während des Trainings und der Inferenz reduziert wird.

Training und Ökosystem

Beide Modelle profitieren vom robusten Ultralytics-Ökosystem, aber YOLO26 nutzt neuere Tools und tiefere Integrationen.

Benutzerfreundlichkeit und API

Beide Modelle verwenden das vereinheitlichte ultralytics Python-Paket (YOLOv5 war ursprünglich eigenständig, ist aber jetzt integriert). Dies stellt sicher, dass der Wechsel zwischen ihnen so einfach ist wie das Ändern eines Modellnamensstrings.

from ultralytics import YOLO

# Load YOLO26 for state-of-the-art performance
model_26 = YOLO("yolo26n.pt")
model_26.train(data="coco8.yaml", epochs=100)

# Load YOLOv5 for legacy comparison
model_v5 = YOLO("yolov5nu.pt")
model_v5.train(data="coco8.yaml", epochs=100)

Erweiterte Trainingsfunktionen

YOLO26 unterstützt verbesserte Datenaugmentierungsstrategien und den neuen MuSGD-Optimierer, der effektiver hilft, lokale Minima zu verlassen als der in YOLOv5 verwendete Standard-SGD. Zusätzlich bietet YOLO26 aufgabenspezifische Verbesserungen, wie Residual Log-Likelihood Estimation (RLE) für die Pose-Schätzung und spezialisierte Winkelverluste für Oriented Bounding Box (OBB)-Aufgaben, Funktionen, die in der YOLOv5-Ära entweder fehlten oder weniger verfeinert waren.

Benutzer können auch die Ultralytics-Plattform nutzen, um Datensätze zu verwalten, Modelle in der Cloud zu trainieren und nahtlos auf verschiedene Endpunkte bereitzustellen.

Ideale Anwendungsfälle

Wann man YOLO26 wählen sollte

YOLO26 ist aufgrund seines überlegenen Genauigkeits-Latenz-Verhältnisses die empfohlene Wahl für fast alle neuen Projekte.

  • Edge AI & IoT: Mit DFL-Entfernung und NMS-freier Inferenz ist YOLO26 perfekt für Geräte wie NVIDIA Jetson, Raspberry Pi oder Mobiltelefone, wo CPU-/NPU-Effizienz entscheidend ist.
  • Erkennung kleiner Objekte: Dank STAL zeichnet sich YOLO26 in Szenarien wie Drohnenbildern oder der Fehlererkennung in der Fertigung aus, wo Ziele oft winzig im Verhältnis zur Bildgröße sind.
  • Echtzeit-Videoanalyse: Die Geschwindigkeitsverbesserungen ermöglichen die Verarbeitung höherer Bildraten, was für die Verkehrsüberwachung oder Sportanalysen unerlässlich ist.

Wann man YOLOv5 wählen sollte

Obwohl älter, hat YOLOv5 immer noch eine Nische:

  • Legacy-Systeme: Bestehende Pipelines, die streng um die YOLOv5-Repository-Struktur der Ära 2020 herum aufgebaut sind, finden es möglicherweise einfacher, das ältere Modell zu warten, anstatt zu migrieren.
  • Breiteste Hardware-Unterstützung: Da YOLOv5 älter ist, wurde es auf praktisch jede erdenkliche Plattform portiert, einschließlich sehr obskurer Mikrocontroller, die möglicherweise noch keine optimierte Unterstützung für neuere Architekturen bieten.

Fazit

Während YOLOv5 mit seiner Zugänglichkeit und Zuverlässigkeit den Grundstein für die moderne Objekterkennung legte, stellt YOLO26 einen bedeutenden Fortschritt dar. Durch die Einführung eines durchgängigen NMS-freien Designs, die Optimierung für Edge-Hardware und die Integration fortschrittlicher Trainingsmethoden wie MuSGD und ProgLoss bietet YOLO26 ein überzeugendes Upgrade für Entwickler, die höchste Leistung anstreben.

Für die meisten Benutzer ist die Wahl klar: YOLO26 bietet die Geschwindigkeit, Genauigkeit und Vielseitigkeit, die für die heutigen anspruchsvollen Computer-Vision-Anwendungen erforderlich sind.

Andere Modelle entdecken

Wenn Sie daran interessiert sind, andere Architekturen zu erkunden, sehen Sie sich YOLO11, den direkten Vorgänger von YOLO26, oder YOLO-World für Open-Vocabulary-Erkennungsfunktionen an.


Kommentare