Zum Inhalt springen

YOLOv10 vs. YOLO: Ein technischer Vergleich

Die Auswahl des optimalen Objekterkennungsmodells ist eine kritische Entscheidung, bei der es um die Abwägung zwischen Genauigkeit, Geschwindigkeit und Rechenkosten geht. Diese Seite bietet einen detaillierten technischen Vergleich zwischen YOLOv10dem neuesten hocheffizienten Modell, das in das Ultralytics integriert ist, und YOLO, einem leistungsstarken Detektor der Alibaba Group. Wir analysieren ihre Architekturen, Leistungsmetriken und idealen Anwendungsfälle, um Ihnen zu helfen, eine fundierte Wahl für Ihre Computer-Vision-Projekte zu treffen.

YOLOv10: Ende-zu-Ende-Detektion in Echtzeit

YOLOv10, das von Forschern der Tsinghua-Universität im Mai 2024 vorgestellt wurde, stellt einen bedeutenden Fortschritt in der Echtzeit-Objekterkennung dar. Die wichtigste Neuerung ist die Erreichung einer durchgängigen Erkennung durch den Wegfall der Nicht-Maximum-Unterdrückung (NMS), was den Nachbearbeitungsaufwand reduziert und die Latenzzeit für die Inferenz verringert.

Technische Details:
Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation:Tsinghua University
Datum: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Docsultralytics

Architektur und Hauptmerkmale

YOLOv10 baut auf dem robusten Ultralytics auf und übernimmt dessen Benutzerfreundlichkeit und leistungsstarkes Ökosystem. Seine Architektur bietet mehrere wichtige Verbesserungen für überlegene Effizienz und Leistung:

  • NMS Training: YOLOv10 verwendet konsistente duale Zuweisungen für Labels während des Trainings. Dadurch kann das Modell saubere Vorhersagen erstellen, ohne dass der NMS erforderlich ist, was die Bereitstellungspipeline vereinfacht und zu einem echten End-to-End-Modell macht.
  • Ganzheitliches Design für Effizienz und Genauigkeit: Die Modellarchitektur wurde umfassend optimiert, um die Rechenredundanz zu reduzieren. Dies beinhaltet einen schlanken Klassifikationskopf und räumlich-kanalentkoppeltes Downsampling, was sowohl die Geschwindigkeit als auch die Leistungsfähigkeit verbessert.
  • Nahtlose Ultralytics : Als Teil des Ultralytics profitiert YOLOv10 von einer optimierten Benutzererfahrung. Dazu gehören eine einfache Python , eine ausführliche Dokumentation, effiziente Trainingsprozesse und sofort verfügbare vortrainierte Gewichte. Diese Integration macht es für Entwickler besonders einfach, mit der Anwendung zu beginnen und Modelle schnell einzusetzen.

Warum NMS wichtig ist

Herkömmliche Objektdetektoren sagen oft mehrere Bounding Boxes für ein einzelnes Objekt voraus. Die Non-Maximum SuppressionNMS) ist ein Nachbearbeitungsschritt, der diese Duplikate herausfiltert. Durch die Eliminierung von NMS reduziert YOLOv10 die Inferenzlatenz und die Komplexität erheblich, insbesondere in Einsatzszenarien, in denen jede Millisekunde zählt.

Erfahren Sie mehr über YOLOv10

YOLO: NAS-gesteuerte Effizienz

YOLO ist ein schnelles und genaues Objekterkennungsmodell, das von der Alibaba-Gruppe entwickelt wurde. Es wurde im November 2022 veröffentlicht und führte mehrere neue Techniken ein, um die Leistungsgrenzen von YOLO Detektoren zu erweitern, wobei der Schwerpunkt auf der Optimierung der Architektur durch Suchalgorithmen lag.

Technische Details:
Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
Organisation:Alibaba Group
Datum: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO
DocsYOLO

Architektur und Hauptmerkmale

YOLO erforscht fortschrittliche Techniken, um das Verhältnis zwischen Geschwindigkeit und Genauigkeit zu verbessern. Seine Architektur ist gekennzeichnet durch:

  • Neuronale Architektur-Suche (NAS): Das Grundgerüst von YOLO wurde mithilfe von NAS generiert, was ein hochoptimiertes, speziell auf Erkennungsaufgaben zugeschnittenes Merkmalsextraktionsnetzwerk ermöglicht.
  • Effizienter RepGFPN-Ausschnitt: Es beinhaltet ein neuartiges Feature-Pyramidennetzwerk (FPN) mit dem Namen RepGFPN, das Merkmale aus verschiedenen Maßstäben effizient zusammenführt.
  • ZeroHead und AlignedOTA: Das Modell verwendet einen vereinfachten Kopf mit null Parametern und eine verbesserte Strategie der Etikettenzuweisung namens AlignedOTA (Aligned Optimal Transport Assignment), um die Erkennungsgenauigkeit und Lokalisierung zu verbessern.
  • Wissensdestillation: YOLO nutzt die Wissensdistillation, um die Leistung seiner kleineren Modelle weiter zu steigern, indem es von größeren Lehrernetzwerken lernt.

Erfahren Sie mehr über DAMO-YOLO

Direkter Leistungsvergleich

In der folgenden Tabelle wird die Leistung der verschiedenen YOLOv10 und YOLO auf dem COCO verglichen. YOLOv10 zeigt durchweg eine überlegene Leistung und bietet eine höhere Genauigkeit bei geringerer Latenz und weniger Parametern.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Wie die Daten zeigen, übertreffen die YOLOv10 im Allgemeinen ihre YOLO an Effizienz. YOLOv10 erreicht zum Beispiel einen höheren mAP (46,7 vs. 46,0) als YOLO, ist aber deutlich schneller (2,66 ms vs. 3,45 ms) und hat weniger als die Hälfte der Parameter (7,2M vs. 16,3M). Dieser Trend gilt für alle Modellgrößen und gipfelt darin, dass YOLOv10 den höchsten mAP von 54,4 erreicht.

Analyse der Stärken und Schwächen

YOLOv10 Stärken

  • Effizienz auf dem neuesten Stand der Technik: YOLOv10 bietet ein außergewöhnliches Gleichgewicht zwischen Geschwindigkeit und Genauigkeit und übertrifft oft die Leistung von Wettbewerbern mit weniger Parametern und geringerer Latenz.
  • Benutzerfreundlichkeit: Das Modell ist dank seiner Integration in das Ultralytics unglaublich benutzerfreundlich.
  • End-to-End-Bereitstellung: Das NMS Design vereinfacht den gesamten Arbeitsablauf vom Training bis zur Inferenz und ist damit ideal für reale Anwendungen auf Edge-Geräten.
  • Geringerer Speicherbedarf: Im Vergleich zu komplexeren Architekturen ist YOLOv10 sowohl beim Training als auch bei der Inferenz effizient in der Speichernutzung.

YOLO Stärken

  • Hohe Leistung: DAMO-YOLO erreicht eine konkurrenzfähige Genauigkeit und Geschwindigkeit und ist damit ein starker Konkurrent im Bereich der Objekterkennung.
  • Innovative Technologien: Es beinhaltet modernste Forschungskonzepte wie NAS und fortschrittliche Strategien für die Zuweisung von Etiketten, die für die akademische Erforschung wertvoll sind.

Schwächen

  • YOLOv10: Obwohl YOLOv10 für die Objekterkennung hervorragend geeignet ist, konzentriert es sich derzeit auf diese eine Aufgabe, im Gegensatz zum vielseitigen Ultralytics YOLO11 das Segmentierung, Klassifizierung und Posenschätzung sofort unterstützt.
  • YOLO: Die Architektur und die Trainingspipeline des Modells sind im Vergleich zu YOLOv10 komplexer. Es ist in erster Linie in spezifischen Forschungs-Toolboxen verfügbar, was ein Hindernis für Entwickler sein kann, die eine stärker integrierte, benutzerfreundliche Lösung wie die von Ultralytics bevorzugen.

Der Ultralytics

Während beide Modelle beeindruckend sind, sind Ultralytics wie YOLOv10 und das Flaggschiff YOLO11 bieten einen deutlichen Vorteil für Entwickler und Forscher:

  1. Einheitliches Ökosystem: Ultralytics bietet eine einheitliche Plattform, auf der Datenkommentierung, Schulung und Bereitstellung nahtlos erfolgen.
  2. Benutzerfreundlichkeit: Mit einer einfachen Python können Sie ein Modell laden und die Inferenz in nur wenigen Zeilen Code ausführen.
  3. Vielseitigkeit: Ultralytics unterstützt eine breite Palette von Aufgaben, darunter Instanzsegmentierung, Bildklassifizierung, Posenschätzung und Oriented Bounding Boxes (OBB).
  4. Unterstützung durch die Gemeinschaft: Eine lebendige Community und eine umfangreiche Dokumentation sorgen dafür, dass Sie nie lange mit einem Problem beschäftigt sind.

Beispiel für die Verwendung: YOLOv10 mit Ultralytics

Die Ausführung von YOLOv10 ist mit demPython ganz einfach. Im Folgenden wird beschrieben, wie Sie ein vorab trainiertes Modell laden und die Vorhersage für ein Bild durchführen können:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Fazit

Sowohl YOLOv10 als auch YOLO sind beeindruckende Modelle zur Objekterkennung. YOLO dient als hervorragende Referenz für die Erforschung von NAS-basierten Architekturen und fortschrittlicher Merkmalsfusion. Für den praktischen Einsatz und die Effizienz von MLOps ist jedoch YOLOv10 als die bessere Wahl heraus. Seine NMS Architektur in Verbindung mit dem umfassenden Ultralytics sorgt dafür, dass Sie schneller und mit besserer Leistung vom Konzept zur Produktion übergehen können.

Für Benutzer, die eine noch größere Vielseitigkeit bei verschiedenen Bildverarbeitungsaufgaben benötigen, empfehlen wir die Erkundung des YOLO11zu erkunden, das den aktuellen Stand der Technik für die YOLO definiert.

Weitere Modellvergleiche entdecken

Um zu sehen, wie diese Modelle im Vergleich zu anderen führenden Architekturen abschneiden, sehen Sie sich diese Vergleiche an:


Kommentare