Zum Inhalt springen

YOLO . YOLO26: Analyse von Echtzeit-Objekterkennungsarchitekturen der nächsten Generation

Die Landschaft der Computervision entwickelt sich ständig weiter, angetrieben durch den Bedarf an Architekturen, die eine hohe Genauigkeit mit einer Inferenz mit geringer Latenz in Einklang bringen. Dieser Vergleich befasst sich mit den technischen Feinheiten von YOLO und Ultralytics und untersucht deren architektonische Innovationen, Trainingsmethoden und ideale Anwendungsfälle.

Unabhängig davon, ob Sie Bildverarbeitungsmodelle auf Edge-Geräten einsetzen oder Cloud-Pipelines mit hohem Durchsatz aufbauen, ist es für fundierte Architekturentscheidungen in der modernen KI-Entwicklung entscheidend, die Nuancen zwischen diesen Modellen zu verstehen.

YOLO: Neuronale Architektursuche in großem Maßstab

YOLO, entwickelt von der Alibaba Group, wurde am 23. November 2022 veröffentlicht. Das von Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun entworfene Modell konzentriert sich stark auf die automatisierte Ermittlung effizienter Architekturen mithilfe von Neural Architecture Search (NAS).

Sie können die ursprüngliche Forschungsarbeit in ihrem ArXiv-Artikel nachlesen oder den Quellcode im YOLO -Repository einsehen.

Wesentliche Architekturmerkmale

YOLO mehrere technische InnovationenYOLO , die die Grenzen der Echtzeit-Objekterkennung erweitern sollen:

  • MAE-NAS-Backbones:YOLO eine multiobjektive evolutionäre Suche, um optimale Backbones zu finden. Dieser NAS-Ansatz entdeckt Architekturen, die eine strenge Balance zwischen Erkennungsgenauigkeit und Inferenzgeschwindigkeit auf spezifischer Hardware herstellen.
  • Effizientes RepGFPN: Ein Heavy-Neck-Design, das die Merkmalsfusion erheblich verbessert, was bei der Analyse komplexer Szenen, wie sie beispielsweise in Luftbildern vorkommen, von großem Vorteil ist.
  • ZeroHead-Design: Ein stark vereinfachter Erkennungskopf, der die Rechenkomplexität der letzten Vorhersageschichten minimiert.
  • AlignedOTA und Destillation:YOLO Aligned Optimal Transport Assignment (AlignedOTA), um Unklarheiten bei der Labelzuweisung zu beseitigen, gepaart mit einer robusten Strategie zur Verbesserung der Wissensdestillation, um die Genauigkeit kleinerer Schülermodelle mithilfe größerer Lehrernetzwerke zu steigern.

Erfahren Sie mehr über DAMO-YOLO

Ultralytics von Ultralytics : YOLO26

Veröffentlicht am 14. Januar 2026 von Glenn Jocher und Jing Qiu bei Ultralyticsveröffentlicht, stellt YOLO26 den Gipfel der zugänglichen, leistungsstarken Bildverarbeitungs-KI dar. Aufbauend auf dem Erbe von YOLO11 und YOLOv10wurde YOLO26 von Grund auf für den Edge-First-Einsatz, multimodale Vielseitigkeit und beispiellose Benutzerfreundlichkeit entwickelt.

YOLO26 Innovationen

Ultralytics bietet mehrere bahnbrechende Funktionen, die es zur ersten Wahl für moderne Computer-Vision-Anwendungen machen:

  • End-to-End-Design NMS: YOLO26 macht die Nachbearbeitung mit Non-Maximum Suppression (NMS) überflüssig. Dieser End-to-End-Ansatz, der ursprünglich in YOLOv10 eingeführt wurde, vereinfacht die Bereitstellungspipelines erheblich und gewährleistet eine deterministische Inferenz mit geringer Latenz.
  • Bis zu 43 % schnellere CPU : YOLO26 ist architektonisch für Edge-Computing optimiert und bietet außergewöhnliche Geschwindigkeit auf Edge-Geräten und Standard-CPUs, wodurch es sich perfekt für batteriebetriebene IoT-Geräte eignet.
  • MuSGD-Optimierer: Inspiriert durch LLM-Training (wie Moonshot AI's Kimi K2) integriert YOLO26 eine Mischung aus SGD Muon. Dies sorgt für Stabilität beim Training großer Sprachmodelle für die Bildverarbeitung, was zu einer schnelleren und zuverlässigeren Konvergenz führt.
  • DFL-Entfernung: Durch die Entfernung von Distribution Focal Loss wird das Modelldiagramm vereinfacht, was einen reibungslosen Export in Formate wie ONNX und TensorRT.
  • ProgLoss + STAL: Diese fortschrittlichen Verlustfunktionen bieten bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, eine wichtige Funktion für den Drohnenbetrieb und die Landwirtschaft.

Aufgabenspezifische Verbesserungen

YOLO26 umfasst spezielle Verbesserungen für mehrere Modalitäten: einen multiskaligen Proto für die Instanzsegmentierung, Residual Log-Likelihood Estimation (RLE) für die Posenschätzung und einen erweiterten Winkelverlust zur Minderung von Grenzproblemen bei der Erkennung von Oriented Bounding Boxes (OBB).

Erfahren Sie mehr über YOLO26

Leistungsvergleich

Bei der Bewertung dieser Modelle ist das Gleichgewicht zwischen Genauigkeit (mAP) und Recheneffizienz (Geschwindigkeit/FLOPs) von entscheidender Bedeutung. Die folgende Tabelle zeigt einen Vergleich dieser Modelle unter Verwendung des branchenüblichen COCO .

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Wie oben zu sehen ist, liefert YOLO26 durchweg eine höhere Genauigkeit bei deutlich weniger Parametern und FLOPs, was zu einer wesentlich effizienteren Architektur sowohl für das Training als auch für die Inferenz führt.

Trainingseffizienz und Benutzerfreundlichkeit

Die Komplexität vonYOLO

YOLO zwar eine wettbewerbsfähige Genauigkeit, seine Trainingsmethodik ist jedoch äußerst komplex. Die Abhängigkeit von Neural Architecture Search (NAS) und umfangreicher Wissensdestillation bedeutet, dass das Training eines benutzerdefinierten Modells oft erhebliche GPU und Spezialwissen erfordert. Dieser mehrstufige Prozess – das Training eines umfangreichen Lehrer-Modells, um es in ein kleineres Schüler-Modell zu destillieren – kann agile Engineering-Teams, die versuchen, schnell auf benutzerdefinierten Datensätzen zu iterieren, behindern.

Das optimierte Ultralytics

Umgekehrt ist Ultralytics auf eine „Zero-to-Hero”-Benutzerfreundlichkeit ausgelegt. Der gesamte Lebenszyklus von Training, Validierung und Bereitstellung wird hinter einer übersichtlichen, einheitlichen Python und CLI abstrahiert. Darüber hinaus benötigt YOLO26 deutlich weniger CUDA Speicher während des Trainings als transformatorbasierte Modelle wie RT-DETR, sodass Forscher modernste Modelle auf handelsüblicher Hardware trainieren können.

Hier ist ein Beispiel dafür, wie einfach es ist, ein YOLO26-Modell mit dem Ultralytics zu trainieren, zu bewerten und zu exportieren:

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

Für Teams, die eine No-Code-Umgebung bevorzugen, bietet Ultralytics eine intuitive Benutzeroberfläche für die Annotation von Datensätzen, Cloud-Training und nahtlose Bereitstellung.

Anwendungen in der realen Welt

Die Wahl der richtigen Architektur hängt stark von der Zielumgebung und den Hardwarebeschränkungen ab.

Industrielle Qualitätskontrolle

Für die automatisierte Hochgeschwindigkeitsfertigung eignet sich YOLO gut für den Einsatz auf dedizierter GPU . Für moderne Fertigungsstraßen ist jedoch YOLO26 die bevorzugte Wahl. Sein End-to-End-Design NMS gewährleistet eine deterministische, jitterfreie Latenz, was für die Echtzeitsynchronisation von Bilddaten mit Roboteraktuatoren unerlässlich ist.

Edge-KI und mobile Geräte

Der Einsatz von Computer Vision auf batteriebetriebenen Geräten erfordert extreme Effizienz. WährendYOLO auf bestimmte RepGFPN-HälseYOLO , wurde YOLO26n (Nano) speziell für Edge-Computing optimiert. Dank der Entfernung von DFL und CPU um 43 % schnelleren CPU ist es die ultimative Lösung für Smart-Kameras, mobile Anwendungen und Sicherheitsalarmsysteme.

Anforderungen an multimodale Projekte

Wenn ein Projekt mehr als nur die Objekterkennung erfordert – beispielsweise die Analyse der Spielmechanik im Sport mithilfe von Posenschätzung oder die Extraktion exakter Pixelgrenzen mithilfe von Instanzsegmentierung –, bietetYOLO26 native Unterstützung für all diese Aufgaben innerhalb einer einzigen, einheitlichen Codebasis.YOLO streng auf die Erkennung von Begrenzungsrahmen beschränkt.

Anwendungsfälle und Empfehlungen

Die Wahl zwischenYOLO YOLO26 hängt von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen ab.

Wann DAMO-YOLO wählen?

YOLO eine gute Wahl für:

  • Hochdurchsatz-Videoanalyse: Verarbeitung von Videostreams mit hoher Bildfrequenz aufGPU festenGPU , wobei der Durchsatz von Batch 1 die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU auf dedizierter Hardware, wie z. B. Echtzeit-Qualitätskontrollen an Fertigungslinien.
  • Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen der automatisierten Architektursuche (MAE-NAS) und effizienter reparametrisierter Backbones auf die Erkennungsleistung.

Wann man YOLO26 wählen sollte

YOLO26 wird empfohlen für:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Fazit

Beide Architekturen stellen bedeutende Errungenschaften im Bereich des Deep Learning dar. YOLO bietet einen faszinierenden Einblick in die Leistungsfähigkeit von Neural Architecture Search und Destillationstechniken, die auf bestimmte Hardware-Benchmarks zugeschnitten sind.

Für Entwickler, Forscher und Unternehmen, die nach einer produktionsreifen Lösung suchen, ist Ultralytics jedoch die beste Wahl. Die Kombination aus einem durchgängigen NMS Design, enormen CPU , multimodaler Vielseitigkeit und der Integration in das gut gepflegte Ultralytics macht es zum robustesten und praktischsten Werkzeug für die Lösung realer Herausforderungen im Bereich Computer Vision.

Für Nutzer, die sich für andere Modelle innerhalb des Ultralytics interessieren, steht eine umfassende Dokumentation zur Verfügung für YOLO11, YOLOv8und das transformatorbasierte Modell RT-DETR.


Kommentare