Zum Inhalt springen

YOLO . YOLOv10: Die Entwicklung der Echtzeit-Objekterkennung

Die Landschaft der Echtzeit-Objekterkennung hat sich rasant weiterentwickelt, angetrieben durch das unermüdliche Streben nach geringerer Latenz und höherer Genauigkeit. Zwei bedeutende Meilensteine auf diesem Weg sind YOLO, entwickelt von der Alibaba Group, und YOLOv10, das von Forschern der Tsinghua-Universität entwickelt wurde. WährendYOLO fortschrittliche Techniken der neuronalen Architektursuche (NAS) in diesem BereichYOLO , YOLOv10 die Bereitstellungspipeline durch die Eliminierung der Nicht-Maximal-Unterdrückung (NMS). Dieser umfassende Vergleich untersucht ihre technischen Architekturen, Leistungskennzahlen und warum die neuesten Ultralytics wie YOLO26 den Höhepunkt dieser Fortschritte für Produktionsumgebungen darstellen.

Leistungskennzahlen im Vergleich

Die folgende Tabelle enthält einen direkten Vergleich der wichtigsten Leistungsindikatoren. Beachten Sie den Unterschied bei den Inferenzgeschwindigkeiten, insbesondere dort, wo NMS Designs zu einer geringeren Latenz beitragen.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLO: Architektur und Methodik

YOLO wurde im November 2022 von Forschern der Alibaba Group vorgeschlagen. Das Ziel war es, die Leistungsgrenzen zu erweitern, indem modernste Technologien in ein einheitliches Detektor-Framework integriert wurden.

Wesentliche Architekturmerkmale

YOLO durch die Verwendung von Neural Architecture Search (NAS) aus. Im Gegensatz zu Modellen mit manuell entworfenen BackbonesYOLO Method-Awareness Efficient NAS (MAE-NAS), um unter bestimmten Einschränkungen optimale Netzwerkstrukturen zu finden. Das Ergebnis ist ein Backbone, das für die spezifische Hardware, für die es entwickelt wurde, äußerst effizient ist.

Darüber hinaus umfasst es ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network) für die Merkmalsfusion und einen leichtgewichtigen Kopf, der als „ZeroHead“ bekannt ist. Eine wichtige Komponente seiner Trainingsstrategie ist AlignedOTA, ein dynamischer Mechanismus zur Zuweisung von Labels, der eine verbesserte Abstimmung zwischen Klassifizierungs- und Regressionsaufgaben ermöglicht. Um mitYOLO Spitzenleistungen zu erzielen, ist jedochYOLO ein komplexer Destillationsprozess erforderlich, der während des Trainings ein schweres Lehrer-Modell erfordert, was die Rechenlast im Vergleich zu den in YOLOv8verwendet werden.

Komplexität der Ausbildung

Die Trainingspipeline fürYOLO ist zwar leistungsstark,YOLO jedoch ressourcenintensiv sein. In der Destillationsphase muss häufig zunächst ein größeres Lehrer-Modell trainiert werden, was den Arbeitsablauf für Entwickler erschwert, die schnelle Iterationen auf benutzerdefinierten Datensätzen benötigen.

YOLOv10: Der Durchbruch von Anfang bis Ende

Veröffentlicht im Mai 2024 von der Tsinghua-Universität, YOLOv10 einen Paradigmenwechsel, indem es eines der ältesten Probleme bei der Objekterkennung ansprach: die Nicht-Maximalunterdrückung (NMS).

Architektonische Innovationen

Das charakteristische Merkmal von YOLOv10 sein End-to-End-Design NMS. Herkömmliche Detektoren generieren redundante Begrenzungsrahmen, die durch NMS herausgefiltert werden müssen, einen Nachbearbeitungsschritt, der Latenz verursacht und die Bereitstellung erschwert. YOLOv10 während des Trainings konsistente doppelte Zuordnungen – sowohl One-to-Many (für eine umfassende Überwachung) als auch One-to-One (für End-to-End-Inferenz). Dadurch kann das Modell direkt eine einzige beste Box pro Objekt vorhersagen, wodurch die Notwendigkeit NMS entfällt.

Darüber hinaus YOLOv10 ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign YOLOv10 . Dazu gehören leichtgewichtige Klassifizierungsköpfe, räumlich-kanalgetrenntes Downsampling und ein ranggesteuertes Blockdesign, was zu einem Modell führt, das sowohl kleiner als auch schneller ist als seine Vorgänger wie YOLOv9 , aber dennoch eine wettbewerbsfähige Genauigkeit aufweist.

Erfahren Sie mehr über YOLOv10

Der Ultralytics-Vorteil: Warum YOLO26 wählen?

WährendYOLO YOLOv10 bedeutende akademische Beiträge YOLOv10 , schlägt das Ultralytics eine Brücke zwischen Spitzenforschung und praktischer, zuverlässiger Produktionssoftware. Das neu veröffentlichte YOLO26 baut auf dem NMS Durchbruch von YOLOv10 auf, integriert diesen YOLOv10 in ein robustes Framework auf Unternehmensniveau.

Überlegene Leistung und Effizienz

YOLO26 ist die empfohlene Wahl für neue Projekte und bietet gegenüberYOLO reinen YOLOv10 deutliche Vorteile:

  • End-to-End NMS: Wie YOLOv10 ist auch YOLO26 von Haus aus End-to-End. Es macht NMS überflüssig, was die Bereitstellungspipelines vereinfacht und die Latenzschwankungen erheblich reduziert.
  • Verbesserte Trainingsstabilität: YOLO26 nutzt den MuSGD-Optimierer, eine Mischung aus SGD Muon, die vom Training mit großen Sprachmodellen (LLM) inspiriert ist. Diese Innovation sorgt für eine schnellere Konvergenz und größere Stabilität während des Trainings und reduziert den erforderlichen GPU im Vergleich zu transformatorlastigen Architekturen.
  • Edge-Optimierung: Durch die Entfernung von Distribution Focal Loss (DFL) optimiert YOLO26 die Ausgabeschicht und beschleunigt die CPU um bis zu 43 %. Dies ist besonders wichtig für Edge-Geräte, bei denen keine GPU verfügbar sind.

YOLO26 Technologische Sprünge

YOLO26 ist nicht nur eine Versionserhöhung, sondern ein umfassendes Upgrade.

  • ProgLoss + STAL: Verbesserte Verlustfunktionen, die die Erkennung kleiner Objekte erheblich verbessern, was für Drohnenbilder und Robotik von entscheidender Bedeutung ist.
  • Vielseitigkeit: Im Gegensatz zuYOLO, das in erster Linie ein Detektor ist, unterstützt YOLO26 Posenschätzung, Segmentierung, Klassifizierung und OBB.

Benutzerfreundlichkeit und Ökosystem

Eine der größten Herausforderungen bei Forschungsarchiven wieYOLO die Komplexität der Einrichtung und Wartung. Ultralytics dieses Problem mit einer einheitlichen Python . Unabhängig davon, ob Sie YOLO11, YOLOv10 oder YOLO26 verwenden, der Workflow bleibt konsistent und einfach.

Die Ultralytics (ehemals HUB) beschleunigt die Entwicklung zusätzlich durch Tools für die Verwaltung von Datensätzen, automatisierte Annotation und den Export mit einem Klick in Formate wie TensorRT, ONNX und CoreML.

Erfahren Sie mehr über YOLO26

Ideale Anwendungsfälle

Die Auswahl des richtigen Modells hängt von Ihren spezifischen Anforderungen ab:

  • Wählen SieYOLO : Sie Forschungen im Bereich Neural Architecture Search (NAS) durchführen oder eine spezielle Backbone-Struktur für einzigartige Hardware-Beschränkungen benötigen, für die Standard-CSP/ELAN-Backbones nicht ausreichen.
  • Wählen Sie YOLOv10 , YOLOv10 : Sie einen bestimmten NMS Detektor für akademische Benchmarks benötigen oder eine Legacy-Anforderung für die spezifische Architektur haben, die im ursprünglichen Tsinghua-Papier vorgeschlagen wurde.
  • Entscheiden Sie sich für Ultralytics , wenn: Sie eine produktionsreife, hochmoderne Lösung benötigen. Dank seines NMS Designs, kombiniert mit MuSGD-Trainingsstabilität und optimierten CPU , ist es der beste Allrounder. Es eignet sich besonders für Echtzeitanwendungen in der Fertigung, im Einzelhandel und in autonomen Systemen, wo eine einfache Bereitstellung und langfristiger Support entscheidend sind.

Code-Beispiel: Ausführen von YOLOv10 YOLO26

Ultralytics es unglaublich einfach, zwischen diesen Architekturen zu wechseln. Da YOLOv10 im Ultralytics unterstützt YOLOv10 , können Sie beide Modelle mit minimalen Codeänderungen testen.

YOLOv10 ausführen

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Training YOLO26

Um die neuesten Fortschritte in YOLO26, wie den MuSGD-Optimierer und ProgLoss, zu nutzen, ist das Training mit einem benutzerdefinierten Datensatz ganz einfach:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset using the new optimizer settings (auto-configured)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for simplified edge deployment
model.export(format="onnx")

Fazit

SowohlYOLO YOLOv10 das Feld vorangebracht –YOLO effizientes NAS und YOLOv10 die visionäre Abschaffung von NMS. Für Entwickler, die im Jahr 2026 robuste, zukunftssichere Anwendungen erstellen möchten, bietet Ultralytics jedoch den entscheidenden Vorteil. Durch die Kombination der NMS Architektur von YOLOv10 überlegener Trainingsdynamik, schnellerer CPU und der unübertroffenen Unterstützung des Ultralytics ist YOLO26 die erste Wahl für Fachleute im Bereich Computer Vision.

Für diejenigen, die sich für frühere stabile Generationen interessieren, YOLO11 eine vollständig unterstützte und leistungsstarke Alternative.


Kommentare